Výstupem této práce je aplikace webového crawleru a vlastní webové stránky, které slouží pro zobrazení dat získaných pomocí crawleru. Součástí práce je rovněž vybrané datové úložiště sloužící pro uchovávání a vyhledávání v uložených datech. Po nasazení této práce na veřejně přístupný server je tak možné zájemcům o studium na vysoké škole nabídnout unikátní systém pro porovnávání předmětů vybraných univerzit.
Text práce popisuje způsob vytvoření a následné využití kolekce předmětů vyučovaných na vybraných vysokých školách v ČR. Zaobírá se jak samotným stahováním informací z webů univerzit, tak jejich uložením v databázi a následným porovnáváním předmětů pomocí vytvořených webových stránek.
Čtenář se v textu práce dozví, jakou strukturu mají webové stránky vybraných univerzit a jakým způsobem lze sestavit webový crawler, který dokáže z těchto stránek získávat data. Dozví se také o možnostech, jak stažená data uložit a následně s nimi pracovat. Pokud by si čtenář přál vytvořit webové stránky zobrazující stažená data, i o tomto se v textu dočte.
Anotace v angličtině
The goal of this diploma thesis is to create a web crawler and corresponding user interface, which presents the data obtained from the crawler. The created project also consists of a data storage used for preserving the retrieved data from the crawler. Target users of this platform are students. The aforementioned system should help them with comparing units taught at different universities. For this, the platform needs to be deployed and available on the public network.
This paper describes how the units are collected using the implemented crawler and how the collected data are interpreted. For this, courses at selected universities in the Czech Republic are used as testing data. In more details, the process of downloading the information from universities pages and storing it in the data storage is explained. Finally, the way how the collected data are compared is described.
In the scope of this thesis, the structure of pages of selected universities is described and the steps how to create a custom web crawler to collect data from these pages are given as well. The reader can also learn about different ways how the data can be exported. The steps how to create a custom user interface presenting the collected data are also given in the thesis.
universities, crawler, courses comparison, web pages, document database, Elasticsearch, Jsoup
Rozsah průvodní práce
107
Jazyk
CZ
Anotace
Výstupem této práce je aplikace webového crawleru a vlastní webové stránky, které slouží pro zobrazení dat získaných pomocí crawleru. Součástí práce je rovněž vybrané datové úložiště sloužící pro uchovávání a vyhledávání v uložených datech. Po nasazení této práce na veřejně přístupný server je tak možné zájemcům o studium na vysoké škole nabídnout unikátní systém pro porovnávání předmětů vybraných univerzit.
Text práce popisuje způsob vytvoření a následné využití kolekce předmětů vyučovaných na vybraných vysokých školách v ČR. Zaobírá se jak samotným stahováním informací z webů univerzit, tak jejich uložením v databázi a následným porovnáváním předmětů pomocí vytvořených webových stránek.
Čtenář se v textu práce dozví, jakou strukturu mají webové stránky vybraných univerzit a jakým způsobem lze sestavit webový crawler, který dokáže z těchto stránek získávat data. Dozví se také o možnostech, jak stažená data uložit a následně s nimi pracovat. Pokud by si čtenář přál vytvořit webové stránky zobrazující stažená data, i o tomto se v textu dočte.
Anotace v angličtině
The goal of this diploma thesis is to create a web crawler and corresponding user interface, which presents the data obtained from the crawler. The created project also consists of a data storage used for preserving the retrieved data from the crawler. Target users of this platform are students. The aforementioned system should help them with comparing units taught at different universities. For this, the platform needs to be deployed and available on the public network.
This paper describes how the units are collected using the implemented crawler and how the collected data are interpreted. For this, courses at selected universities in the Czech Republic are used as testing data. In more details, the process of downloading the information from universities pages and storing it in the data storage is explained. Finally, the way how the collected data are compared is described.
In the scope of this thesis, the structure of pages of selected universities is described and the steps how to create a custom web crawler to collect data from these pages are given as well. The reader can also learn about different ways how the data can be exported. The steps how to create a custom user interface presenting the collected data are also given in the thesis.
universities, crawler, courses comparison, web pages, document database, Elasticsearch, Jsoup
Zásady pro vypracování
Seznamte se s web stránkami studijních programů vybraných univerzit.
Zvolte systém pro stahování a ukládání web stránek.
Použijte jej pro vytvoření kolekce předmětů vyučovaných na vybraných českých univerzitách.
Stahované údaje by měly obsahovat identifikaci univerzity, předmětu, kreditní/hodinové dotace a osnovy tak, aby mohly být vzájemně porovnány.
Navrhněte a implementujte, jako webovou aplikaci, způsob porovnání rozsahu a obsahu výuky na základě uživatelem zadané oblasti zájmu, s přihlédnutím k uživatelem zadaným lokalitám.
Systém otestujte.
Zásady pro vypracování
Seznamte se s web stránkami studijních programů vybraných univerzit.
Zvolte systém pro stahování a ukládání web stránek.
Použijte jej pro vytvoření kolekce předmětů vyučovaných na vybraných českých univerzitách.
Stahované údaje by měly obsahovat identifikaci univerzity, předmětu, kreditní/hodinové dotace a osnovy tak, aby mohly být vzájemně porovnány.
Navrhněte a implementujte, jako webovou aplikaci, způsob porovnání rozsahu a obsahu výuky na základě uživatelem zadané oblasti zájmu, s přihlédnutím k uživatelem zadaným lokalitám.