Tato práce se zabývá automatickou klasifikací textových dokumentů, jejímž cílem je přiřadit dokumentům kategorii z nějaké předdefinované množiny kategorií. Pro experimenty byly vybrány tři známé klasifikační techniky: naivní Bayesův klasifikátor, support vector machines a maximální entropie. K předzpracování dat byly použity lemmatizátor a POS-tagger a na základě různých kritérií pro výběr příznaků pak byly vytvořeny 4 sady dokumentů. Všechny experimenty byly prováděny na českém korpusu nástrojem MinorThird.
Anotace v angličtině
This work deals with automatic text document classification. Text classification is a process of labelling documents with thematic categories from a predefined set of categories. Three known classification techniques were chosen for experiments in this work: naive Bayes, support vector machines and maximum entropy. A lemmatizer and a POS-tagger were used for the text pre-processing. Four sets of documents were created based on the different feature selection criteria. All experiments were performed on the Czech corpus using the MinorThird toolkit.
Klíčová slova
klasifikace dokumentů, naivní Bayesův klasifikátor, support vector machines, maximální entropie
Klíčová slova v angličtině
document classification, naive Bayes, support vector machines, maximum entropy
Rozsah průvodní práce
47 s.
Jazyk
CZ
Anotace
Tato práce se zabývá automatickou klasifikací textových dokumentů, jejímž cílem je přiřadit dokumentům kategorii z nějaké předdefinované množiny kategorií. Pro experimenty byly vybrány tři známé klasifikační techniky: naivní Bayesův klasifikátor, support vector machines a maximální entropie. K předzpracování dat byly použity lemmatizátor a POS-tagger a na základě různých kritérií pro výběr příznaků pak byly vytvořeny 4 sady dokumentů. Všechny experimenty byly prováděny na českém korpusu nástrojem MinorThird.
Anotace v angličtině
This work deals with automatic text document classification. Text classification is a process of labelling documents with thematic categories from a predefined set of categories. Three known classification techniques were chosen for experiments in this work: naive Bayes, support vector machines and maximum entropy. A lemmatizer and a POS-tagger were used for the text pre-processing. Four sets of documents were created based on the different feature selection criteria. All experiments were performed on the Czech corpus using the MinorThird toolkit.
Klíčová slova
klasifikace dokumentů, naivní Bayesův klasifikátor, support vector machines, maximální entropie
Klíčová slova v angličtině
document classification, naive Bayes, support vector machines, maximum entropy
Zásady pro vypracování
Prostudujte metody používané v oblasti automatické klasifikace textových dokumentů.
Na základě předchozí analýzy zvolte alespoň dvě vhodné metody a navrhněte systém pro automatickou klasifikaci dokumentů.
Systém realizujte a srovnejte výsledky vytvořených metod na dodaných datech.
Výsledky zhodnoťte a navrhněte případná další rozšíření.
Zásady pro vypracování
Prostudujte metody používané v oblasti automatické klasifikace textových dokumentů.
Na základě předchozí analýzy zvolte alespoň dvě vhodné metody a navrhněte systém pro automatickou klasifikaci dokumentů.
Systém realizujte a srovnejte výsledky vytvořených metod na dodaných datech.
Výsledky zhodnoťte a navrhněte případná další rozšíření.