Tato bakalářské práce se zabývá použitím metod vyhledávání klíčových slov v
textu v českém jazyce. Jejím cílem je nalézt vhodnou metodu pro ohodnocení slov
nějakou matematickou funkcí, a jako klíčová vybrat ta slova, která mají tuto funkci
nejvyšší ze všech. Konkrétně se práce zabývá aplikací těchto metod ve dvou
klasifikátorech. První určuje kategorie, druhý téma neznámého článku, přičemž druhý
je schopen objevování nových témat. Jejím cílem je nalézt nejlepší možnou metodu pro
oba tyto klasifikátory pro dostupnou množinu dat. Výsledky jsou poté porovnány s
Bayesovským klasifikátorem a výsledky jiné, původně navrhované metody pro
anglický jazyk.
Annotation in English
This work examines keyword extraction methods applied to a text written in
Czech language. It's goal is to find a suitable method that evaluates words with some
kind of mathematical function, and to pick as key those words, that have the highest
value of the function of all the words. Specifically the work examines application of
these methods in two classifiers. First one for category classification, second one for
theme classification and exploration of new themes. It's goal is to find the best method
for both of these classifiers given the availiable data. Results are then compared with a
Bayesian classifier and results of other, originally suggested method for English
language.
Keywords
klasifikace kategorií, detekce tématu, vyhledávání klíčových slov
Annotation
Tato bakalářské práce se zabývá použitím metod vyhledávání klíčových slov v
textu v českém jazyce. Jejím cílem je nalézt vhodnou metodu pro ohodnocení slov
nějakou matematickou funkcí, a jako klíčová vybrat ta slova, která mají tuto funkci
nejvyšší ze všech. Konkrétně se práce zabývá aplikací těchto metod ve dvou
klasifikátorech. První určuje kategorie, druhý téma neznámého článku, přičemž druhý
je schopen objevování nových témat. Jejím cílem je nalézt nejlepší možnou metodu pro
oba tyto klasifikátory pro dostupnou množinu dat. Výsledky jsou poté porovnány s
Bayesovským klasifikátorem a výsledky jiné, původně navrhované metody pro
anglický jazyk.
Annotation in English
This work examines keyword extraction methods applied to a text written in
Czech language. It's goal is to find a suitable method that evaluates words with some
kind of mathematical function, and to pick as key those words, that have the highest
value of the function of all the words. Specifically the work examines application of
these methods in two classifiers. First one for category classification, second one for
theme classification and exploration of new themes. It's goal is to find the best method
for both of these classifiers given the availiable data. Results are then compared with a
Bayesian classifier and results of other, originally suggested method for English
language.
Keywords
klasifikace kategorií, detekce tématu, vyhledávání klíčových slov
Annotation
Prostudujte teoretické základy klasifikace dat, zejména oblast klasifikace dokumentů. Zaměřte se na metody detekce tématu novinového článku. Nastudujte možnosti extrakce klíčových slov z textu. Dále nastdujte, jaké metody se pro extrakci klíčových slov používají.
a) Implementujte metodu pro klasifikaci kategorií témat a otestujte ji.\\
b) Implementujte metodu pro detekci tématu článku a otestujte ji.\\
U obou metod vyzkoušejte vliv různých způsobů vyhledání klíčových slov v textu článku.
Porovnejte výsledky testovaných metod s výsledky detekce tématu pomocí bayesovského klasifikátoru, dále porovnejte výsledky při použití různých metod extrakce klíčových slov z textu.
Research Plan
Prostudujte teoretické základy klasifikace dat, zejména oblast klasifikace dokumentů. Zaměřte se na metody detekce tématu novinového článku. Nastudujte možnosti extrakce klíčových slov z textu. Dále nastdujte, jaké metody se pro extrakci klíčových slov používají.
a) Implementujte metodu pro klasifikaci kategorií témat a otestujte ji.\\
b) Implementujte metodu pro detekci tématu článku a otestujte ji.\\
U obou metod vyzkoušejte vliv různých způsobů vyhledání klíčových slov v textu článku.
Porovnejte výsledky testovaných metod s výsledky detekce tématu pomocí bayesovského klasifikátoru, dále porovnejte výsledky při použití různých metod extrakce klíčových slov z textu.
Recommended resources
David B. Bracewell, Jiajun Yan, Fuji Ren, and Shingo Kuroiwa. Category
Classification and Topic Discovery of Japanese and English News Articles.
Journal Electronic Notes in Theoretical Computer Science, Vol. 225, 2009\\
Bracewell, D.B., F. Ren and S. Kuroiwa, Multilingual single document keyword
extraction for information retrieval. In Proceedings of the IEEE International
Conference on Natural Language Processingand Knowledge Engineering, Wuhan,
China, 2005\\
http://en.wikipedia.org/wiki/Text_classification\\
http://www.scholarpedia.org/article/Text_categorization\\
http://en.wikipedia.org/wiki/Tf-idf\\
http://en.wikipedia.org/wiki/Cosine_similarity\\
http://www.miislita.com/information-retrieval-tutorial/cosine-similaritytutorial.
Recommended resources
David B. Bracewell, Jiajun Yan, Fuji Ren, and Shingo Kuroiwa. Category
Classification and Topic Discovery of Japanese and English News Articles.
Journal Electronic Notes in Theoretical Computer Science, Vol. 225, 2009\\
Bracewell, D.B., F. Ren and S. Kuroiwa, Multilingual single document keyword
extraction for information retrieval. In Proceedings of the IEEE International
Conference on Natural Language Processingand Knowledge Engineering, Wuhan,
China, 2005\\
http://en.wikipedia.org/wiki/Text_classification\\
http://www.scholarpedia.org/article/Text_categorization\\
http://en.wikipedia.org/wiki/Tf-idf\\
http://en.wikipedia.org/wiki/Cosine_similarity\\
http://www.miislita.com/information-retrieval-tutorial/cosine-similaritytutorial.