Tato práce uvádí do problematiky klasifikace pomocí shlukování. Jsou zde vysvětleny problémy při práci s dokumenty. Cílem je porovnání výsledků metod K-means, Optimalizované K-means, Divizní K-means, Vylepšené divizní K-means a Fuzzy K-means na vybraných množinách článků informačních serverů.
Annotation in English
This document introduces into classification using cluster analysis. Also problematic corresponding with document processing is explained. The main goal is a comparison of K-means, Optimized K-means, Bisecting K-means, Refined bisecting K-means and Fuzzy K-means methods applied on articles from internet informational services.
Tato práce uvádí do problematiky klasifikace pomocí shlukování. Jsou zde vysvětleny problémy při práci s dokumenty. Cílem je porovnání výsledků metod K-means, Optimalizované K-means, Divizní K-means, Vylepšené divizní K-means a Fuzzy K-means na vybraných množinách článků informačních serverů.
Annotation in English
This document introduces into classification using cluster analysis. Also problematic corresponding with document processing is explained. The main goal is a comparison of K-means, Optimized K-means, Bisecting K-means, Refined bisecting K-means and Fuzzy K-means methods applied on articles from internet informational services.
Prostudujte teoretické základy klasifikace dat, zejména oblast učení bez učitele - shluková analýza. Zaměřte se na použití metod shlukování v oblasti klasifikace dokumentů, detailně se seznamte především s metodami K-means a fuzzy K-means.
a) Implementujte metodu K-means a otestujte ji. Prostudujte případně některé její varianty (např. bisecting K-means).\\
b) Implementujte metodu fuzzy K-means a otestujte ji.
Porovnejte výsledky testovaných metod. Zaměřte se zejména na porovnání metod z hlediska jejich použitelnosti pro reálnou úlohu shlukování dokumentů - článků z internetových zpravodajských serverů.
Research Plan
Prostudujte teoretické základy klasifikace dat, zejména oblast učení bez učitele - shluková analýza. Zaměřte se na použití metod shlukování v oblasti klasifikace dokumentů, detailně se seznamte především s metodami K-means a fuzzy K-means.
a) Implementujte metodu K-means a otestujte ji. Prostudujte případně některé její varianty (např. bisecting K-means).\\
b) Implementujte metodu fuzzy K-means a otestujte ji.
Porovnejte výsledky testovaných metod. Zaměřte se zejména na porovnání metod z hlediska jejich použitelnosti pro reálnou úlohu shlukování dokumentů - článků z internetových zpravodajských serverů.
Recommended resources
http://en.wikipedia.org/wiki/Document_classification\\
http://en.wikipedia.org/wiki/Cluster_analysis\\
http://en.wikipedia.org/wiki/Tf-idf\\
http://en.wikipedia.org/wiki/Vector_space_model\\
http://en.wikipedia.org/wiki/K-means_clustering\\
http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/index.html\\
Michael Steinbach, George Karypis, and Vipin Kumar. A comparison of\\ document clustering techniques. In KDD Workshop on Text Mining, 2000.\\
Gharib, T.F.; Fouad, M.M.; Aref, M.M.; Web document clustering \\
approach using wordnet lexical categories and fuzzy clustering,\\
Computer and Information Technology, 2008. ICCIT 2008. 11th\\
International Conference on , vol., no., pp.48-55, 24-27 Dec. 2008
Recommended resources
http://en.wikipedia.org/wiki/Document_classification\\
http://en.wikipedia.org/wiki/Cluster_analysis\\
http://en.wikipedia.org/wiki/Tf-idf\\
http://en.wikipedia.org/wiki/Vector_space_model\\
http://en.wikipedia.org/wiki/K-means_clustering\\
http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/index.html\\
Michael Steinbach, George Karypis, and Vipin Kumar. A comparison of\\ document clustering techniques. In KDD Workshop on Text Mining, 2000.\\
Gharib, T.F.; Fouad, M.M.; Aref, M.M.; Web document clustering \\
approach using wordnet lexical categories and fuzzy clustering,\\
Computer and Information Technology, 2008. ICCIT 2008. 11th\\
International Conference on , vol., no., pp.48-55, 24-27 Dec. 2008