Tato práce je zaměřena na analýzu sentimentu a sumarizaci dat. Konečné
využití aplikace by melo být pro sociální sít Twitter v češtině.
V textu jsou popsány jednotlivé metody strojového učení použité pro
klasifikaci (Naivní Bayes, Support Vector Machine a Maximum Entropy).
Extraktivní sumarizace je implementována pomocí Latentní sémantické analýzy.
Vety jsou vybrány dvěma způsoby (Gong a Liu, Steinberger a Ježek).
Sentiment byl testován na ohodnocených datech z českého Facebooku a
anglických tweetech. Při testování na českých datech byly výsledky jednotlivých
klasifikátoru srovnatelné kromě SVM.
Sumarizace byla otestována na anglickém datasetu. Pro ověření byla použita
metrika ROUGE-1, podle které obě verze sumarizace dosahovaly podobných
výsledku.
Anotace v angličtině
This thesis focuses on sentiment analysis and data summarization. Final
use of the application should be for social network Twitter in Czech language.
The text shows several machine learning methods used for classification
(Naive Bayes, Support Vector Machine and Maximum Entropy). Extractive
summarization is implemented as Latent semantic analysis. Selection of sentences
is implemented in 2 versions (Gong and Liu, Steinberger and Ježek).
Sentiment was tested on classified data from Czech Facebook and English
tweets. Testing on Czech data shows comparable results on all classifiers
except SVM.
Summarization was tested on English dataset. ROUGE-1 metric was used
for verification. Both versions of LSA performed similarly.
Klíčová slova
sociální sítě, twitter, sentiment, klasifikace, maximální entropie, naivní bayes, svm, sumarizace, latentní sémantická analýza
Klíčová slova v angličtině
social network, twitter, sentiment, classification, maximum entropy, naive bayes, svm, sumarization, latent semantic analysis
Rozsah průvodní práce
86
Jazyk
CZ
Anotace
Tato práce je zaměřena na analýzu sentimentu a sumarizaci dat. Konečné
využití aplikace by melo být pro sociální sít Twitter v češtině.
V textu jsou popsány jednotlivé metody strojového učení použité pro
klasifikaci (Naivní Bayes, Support Vector Machine a Maximum Entropy).
Extraktivní sumarizace je implementována pomocí Latentní sémantické analýzy.
Vety jsou vybrány dvěma způsoby (Gong a Liu, Steinberger a Ježek).
Sentiment byl testován na ohodnocených datech z českého Facebooku a
anglických tweetech. Při testování na českých datech byly výsledky jednotlivých
klasifikátoru srovnatelné kromě SVM.
Sumarizace byla otestována na anglickém datasetu. Pro ověření byla použita
metrika ROUGE-1, podle které obě verze sumarizace dosahovaly podobných
výsledku.
Anotace v angličtině
This thesis focuses on sentiment analysis and data summarization. Final
use of the application should be for social network Twitter in Czech language.
The text shows several machine learning methods used for classification
(Naive Bayes, Support Vector Machine and Maximum Entropy). Extractive
summarization is implemented as Latent semantic analysis. Selection of sentences
is implemented in 2 versions (Gong and Liu, Steinberger and Ježek).
Sentiment was tested on classified data from Czech Facebook and English
tweets. Testing on Czech data shows comparable results on all classifiers
except SVM.
Summarization was tested on English dataset. ROUGE-1 metric was used
for verification. Both versions of LSA performed similarly.
Klíčová slova
sociální sítě, twitter, sentiment, klasifikace, maximální entropie, naivní bayes, svm, sumarizace, latentní sémantická analýza
Klíčová slova v angličtině
social network, twitter, sentiment, classification, maximum entropy, naive bayes, svm, sumarization, latent semantic analysis
Zásady pro vypracování
Seznamte se se strukturou tweetů a s prostředky pro jejich stahování.
Seznamte se s prostředky pro zpracování sentimentu v textech.
Navrhněte systém pro klasifikaci polarity příspěvků Twitteru a způsob výběru co nejrelevantnějšího výstupního textu k zadané události.
Systém realizujte a ověřte jeho aplikovatelnost v oblasti češtiny.
Zásady pro vypracování
Seznamte se se strukturou tweetů a s prostředky pro jejich stahování.
Seznamte se s prostředky pro zpracování sentimentu v textech.
Navrhněte systém pro klasifikaci polarity příspěvků Twitteru a způsob výběru co nejrelevantnějšího výstupního textu k zadané události.
Systém realizujte a ověřte jeho aplikovatelnost v oblasti češtiny.