Cílem této práce je analyzovat webové stránky českých univerzit s informatickými obory. Dále navrhnout vhodnou strukturu pro uložení obsahů předmětů a zvolit systém pro stahování stránek. Ten pak následně automatizovaně projde stránky vybraných českých univerzit a stáhne všechny předměty vyučované v informatických oborech. Stažené předměty budou zpracovány do formy, která umožní dotazování.
Anotace v angličtině
The purpose of this bachelor thesis is to analyze web pages of the czech universities with the informatics fields. The work includes to design suitable structure to save contents of subjects and choose a system for downloading pages. This system is used for automatic crawling web pages of the chosen universites and it downloads all courses in informatics field. After that we process these downloaded courses to the form which is usable for queries.
internet bot, XML, lemmatization, ontology, web pages analyzation
Rozsah průvodní práce
37
Jazyk
CZ
Anotace
Cílem této práce je analyzovat webové stránky českých univerzit s informatickými obory. Dále navrhnout vhodnou strukturu pro uložení obsahů předmětů a zvolit systém pro stahování stránek. Ten pak následně automatizovaně projde stránky vybraných českých univerzit a stáhne všechny předměty vyučované v informatických oborech. Stažené předměty budou zpracovány do formy, která umožní dotazování.
Anotace v angličtině
The purpose of this bachelor thesis is to analyze web pages of the czech universities with the informatics fields. The work includes to design suitable structure to save contents of subjects and choose a system for downloading pages. This system is used for automatic crawling web pages of the chosen universites and it downloads all courses in informatics field. After that we process these downloaded courses to the form which is usable for queries.
internet bot, XML, lemmatization, ontology, web pages analyzation
Zásady pro vypracování
Analyzujte formu a obsah webových stránek českých univerzit s informatickými obory.
Navrhněte vhodnou XML strukturu pro ukládání obsahů předmětů.
Zvolte systém pro stahování a ukládání web stránek.
Použijte jej pro poloautomatické vytvoření XML kolekce informatických předmětů vyučovaných na vybraných českých univerzitách, která umožní dotazování klienta na obsah výuky jednotlivých informatických disciplín. Dotaz bude mít formu termínů (v českém jazyce) obsažených v ACM Computer Ontology.
Zásady pro vypracování
Analyzujte formu a obsah webových stránek českých univerzit s informatickými obory.
Navrhněte vhodnou XML strukturu pro ukládání obsahů předmětů.
Zvolte systém pro stahování a ukládání web stránek.
Použijte jej pro poloautomatické vytvoření XML kolekce informatických předmětů vyučovaných na vybraných českých univerzitách, která umožní dotazování klienta na obsah výuky jednotlivých informatických disciplín. Dotaz bude mít formu termínů (v českém jazyce) obsažených v ACM Computer Ontology.