Tato práce prozkoumává možnosti použití algoritmu strojového učení pro
analýzu sentimentu v českém jazyce. Prozkoumávané techniky jsou testovány
na datech získaných ze serveru heureka.cz. Kromě použití tří základních
algoritmu strojového učení (Naive Bayes, Maximum Entropy a SVM),
je představeno a implementováno pět metod selekce příznaků (Mutual information,
Information gain, Chi square, Odds ratio a Relevancy score). V
rámci několika navržených experimentů je prozkoumán vliv těchto algoritmů
na úspěšnost klasifikace algoritmu strojového učení.
Anotace v angličtině
In this work we analyse usage of machine learning algorithms for sentiment analysis in Czech language. We evaluate relevant techniques on dataset extracted from Czech server heureka.cz. Three basic machine learning algorithms (Naive Bayes, Maximum Entropy and SVM) and five implementations of feature selection algorithm (Mutual information, Information gain, Chi square, Odds ratio and Relevancy score) are tested in this work. In several experiments we evaluate influence of these algorithms on performance of machine learning classifiers.
Klíčová slova
analýza sentimentu, strojové učení, výběr příznaků, mutual information, information gain, chi square, odds ratio, relevancy score,
naive bayes, maximum entropy, SVM, confusion matrix, nevyvážený dataset
Klíčová slova v angličtině
sentiment analysis, machine learning, feature selection, mutual
information, information gain, chi square, odds ratio, relevancy score,
naive bayes, maximum entropy, SVM, confusion matrix, imbalanced dataset
Rozsah průvodní práce
viii 64s
Jazyk
CZ
Anotace
Tato práce prozkoumává možnosti použití algoritmu strojového učení pro
analýzu sentimentu v českém jazyce. Prozkoumávané techniky jsou testovány
na datech získaných ze serveru heureka.cz. Kromě použití tří základních
algoritmu strojového učení (Naive Bayes, Maximum Entropy a SVM),
je představeno a implementováno pět metod selekce příznaků (Mutual information,
Information gain, Chi square, Odds ratio a Relevancy score). V
rámci několika navržených experimentů je prozkoumán vliv těchto algoritmů
na úspěšnost klasifikace algoritmu strojového učení.
Anotace v angličtině
In this work we analyse usage of machine learning algorithms for sentiment analysis in Czech language. We evaluate relevant techniques on dataset extracted from Czech server heureka.cz. Three basic machine learning algorithms (Naive Bayes, Maximum Entropy and SVM) and five implementations of feature selection algorithm (Mutual information, Information gain, Chi square, Odds ratio and Relevancy score) are tested in this work. In several experiments we evaluate influence of these algorithms on performance of machine learning classifiers.
Klíčová slova
analýza sentimentu, strojové učení, výběr příznaků, mutual information, information gain, chi square, odds ratio, relevancy score,
naive bayes, maximum entropy, SVM, confusion matrix, nevyvážený dataset
Klíčová slova v angličtině
sentiment analysis, machine learning, feature selection, mutual
information, information gain, chi square, odds ratio, relevancy score,
naive bayes, maximum entropy, SVM, confusion matrix, imbalanced dataset
Zásady pro vypracování
Prostudujte dodanou literaturu zabývající se analýzou sentimentu v sociálních médiích (diskusní fóra, sociální sítě, atd.) a použitím technik strojového učení na řešení tohoto úkolu.
Vyberte a připravte vhodný zdroj dat pro otestování úspěšnosti stávajících metod na češtině. Vyberte vhodné existující metody strojového učení a proveďte experimenty na těchto datech.
Pokuste se zlepšit úspěšnost výše zmiňovaných metod např. vhodným předzpracováním, selekcí příznaků, apod.
Navržené metody ověřte a analyzujte jejich přínos a slabiny, případně navrhněte oblasti vhodné pro budoucí prozkoumání.
Zásady pro vypracování
Prostudujte dodanou literaturu zabývající se analýzou sentimentu v sociálních médiích (diskusní fóra, sociální sítě, atd.) a použitím technik strojového učení na řešení tohoto úkolu.
Vyberte a připravte vhodný zdroj dat pro otestování úspěšnosti stávajících metod na češtině. Vyberte vhodné existující metody strojového učení a proveďte experimenty na těchto datech.
Pokuste se zlepšit úspěšnost výše zmiňovaných metod např. vhodným předzpracováním, selekcí příznaků, apod.
Navržené metody ověřte a analyzujte jejich přínos a slabiny, případně navrhněte oblasti vhodné pro budoucí prozkoumání.