Úkolem této diplomové práce bylo vytvořit internetový vyhledávač založený na automatické dotazové multidokumentové sumarizaci textů. Práce tento cíl splňuje a výsledkem je webová aplikace ASI využívající latentní sémantickou analýzu pro sumarizaci textů z webových stránek. Aplikace ASI dokáže sumarizaci webových stránek psaných v češtině a angličtině a dovoluje snadné rozšíření o další algoritmy pro vyhledávání. Práce také seznamuje s oblastmi sumarizace textů, internetového vyhledávání, filtrace textů z webových stránek a zpracování přirozeného jazyka, které všechny hrajou důležitou roli.
Anotace v angličtině
The objective of this diploma thesis was to develop a search engine based on automatic query-based multidocument summarization of texts. The thesis meets this objective and the result of the work is the ASI web application using a latent semantic analysis for summarization of texts from web pages. The ASI application is able to perform summarization of web pages in Czech and English and allows extension of the application by other searching algorithms. Further, the work deals with the text summarization, internet searching, filtration of text from web pages (boilerplate removal) and natural language processing, which play an important role in this work.
Klíčová slova
sumarizace textů, multidokumentová sumarizace, latentní sémantická analýza, zpracování přirozeného jazyka, filtrování nežádoucího textu z webových stránek, internet, vyhledávání, internetový vyhledávač, java
Klíčová slova v angličtině
text summarization, multidocument summarization, latent semantic analysis, natural language processing, boilerplate removal, internet, search, search engine, java
Rozsah průvodní práce
74 s
Jazyk
CZ
Anotace
Úkolem této diplomové práce bylo vytvořit internetový vyhledávač založený na automatické dotazové multidokumentové sumarizaci textů. Práce tento cíl splňuje a výsledkem je webová aplikace ASI využívající latentní sémantickou analýzu pro sumarizaci textů z webových stránek. Aplikace ASI dokáže sumarizaci webových stránek psaných v češtině a angličtině a dovoluje snadné rozšíření o další algoritmy pro vyhledávání. Práce také seznamuje s oblastmi sumarizace textů, internetového vyhledávání, filtrace textů z webových stránek a zpracování přirozeného jazyka, které všechny hrajou důležitou roli.
Anotace v angličtině
The objective of this diploma thesis was to develop a search engine based on automatic query-based multidocument summarization of texts. The thesis meets this objective and the result of the work is the ASI web application using a latent semantic analysis for summarization of texts from web pages. The ASI application is able to perform summarization of web pages in Czech and English and allows extension of the application by other searching algorithms. Further, the work deals with the text summarization, internet searching, filtration of text from web pages (boilerplate removal) and natural language processing, which play an important role in this work.
Klíčová slova
sumarizace textů, multidokumentová sumarizace, latentní sémantická analýza, zpracování přirozeného jazyka, filtrování nežádoucího textu z webových stránek, internet, vyhledávání, internetový vyhledávač, java
Klíčová slova v angličtině
text summarization, multidocument summarization, latent semantic analysis, natural language processing, boilerplate removal, internet, search, search engine, java
Zásady pro vypracování
Seznamte se s metodami sumarizace textů.
Navrhněte a implementujte systém, který z dotazu:
[a)] Vybere klíčová slova a předá je jako dotaz webovému vyhledávači.
[b)] Z nalezených dokumentů stáhne textový obsah.
[c)] Z obsahů vybere nejdůležitější části (nadpis, první odstavec apod.) a složí je do nového dokumentu.
[d)] Důležitost vět tohoto dokumentu ohodnotí vybranou sumarizační metodou (např. PageRank nebo LSA).
[e)] Jako výsledek vrátí nejvýznamnější věty.
Zohledněte možnost změny rozhraní použitého vyhledávače vhodným strukturováním sumarizačního systému.
Ověřte vlastnosti implementovaného systému.
Zásady pro vypracování
Seznamte se s metodami sumarizace textů.
Navrhněte a implementujte systém, který z dotazu:
[a)] Vybere klíčová slova a předá je jako dotaz webovému vyhledávači.
[b)] Z nalezených dokumentů stáhne textový obsah.
[c)] Z obsahů vybere nejdůležitější části (nadpis, první odstavec apod.) a složí je do nového dokumentu.
[d)] Důležitost vět tohoto dokumentu ohodnotí vybranou sumarizační metodou (např. PageRank nebo LSA).
[e)] Jako výsledek vrátí nejvýznamnější věty.
Zohledněte možnost změny rozhraní použitého vyhledávače vhodným strukturováním sumarizačního systému.