Portál ZČU - Prohlížení

Prohlížení (S025)

Hlavní nabídka Prohlížení IS/STAG

Najít Kvalifikační práce

Tisk/export:

Export dat do formátu PDF - který můžete pohodlně vytisknout...

Tento odkaz můžete zkopírovat a použít například jako záložku prohlížeče pro zobrazení aktuální pozice v Prohlížení IS/STAG.

Nepřihlášenému uživateli se zobrazují pouze již odevzdané práce.

Osobní čísla studentů se zobrazují pouze přihlášenému uživateli.

Nalezené termíny, počet: 1

Stránkování výsledků vyhledávání

Nalezeno 1 záznamů Tisk Export do Xls URL na seznam

Příjmení (rod. přijm.)	Jméno	Název	Stav práce		Vedoucí/školitelé	Oponenti	Typ práce	Dat. obhaj.	Název
Student	Typ práce	-	-	-	-	-	-	-	-	-	-
HRALA	Michal	Automatická klasifikace dokumentů s podobným obsahem			Král Pavel	Pluskal Jan	diplomová	19.06.2012	Automatická klasifikace dokumentů s podobným obsahem
Michal HRALA	diplomová	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX

Informace o kvalifikační práci Automatická klasifikace dokumentů s podobným obsahem

Základní údaje

Anotace
Dokument, ke kterému přistupujete, podléhá autorskému zákonu. Jeho porušením se můžete vystavit trestnímu postihu!
Jméno	HRALA Michal
Akad. rok	2011/2012
Zadávající pracoviště	KIV
Datum obhajoby	19. 6. 2012
Typ práce	diplomová
Stav práce	Dokončená práce s úspěšnou obhajobou (DUO).
Úplnost vyplnění požadovaných údajů	- Následující požadované údaje nejsou u této VŠKP vyplněny: Název v angličtině
Hlavní téma	Automatická klasifikace dokumentů s podobným obsahem
Hlavní téma v angličtině	Automatic Classification of the Documents with the Similar Content
Název dle studenta	Automatická klasifikace dokumentů s podobným obsahem
Název dle studenta v angličtině	-
Souběžný název	-
Podnázev	-
Vedoucí	Král Pavel, Doc. Ing. Ph.D.
Oponent	Pluskal Jan, Ing.
Anotace	Hlavním cílem práce je prozkoumat metody pro více třídní klasifikaci dokumentů a navrhnout programové řešení pro Českou tiskovou kancelář (ČTK). Více třídní klasifikace je úkol, při kterém jsou dokumenty klasifikovány do více kategorií. Na základě literatury byly vybrány tři klasifikátory, které jsou úspěšně používány v této oblasti: Naivní Bayesův klasifikátor, Support Vector Machine (SVM) a klasifikátor Maximum Entropy. Práce dále zkoumá možnost použití slovních druhů (POS-tagging) pro filtrování slov a lemmatizace pro zlepšení úspěšnosti klasifikace. Práce dále srovnává pět metod pro výběr příznaků: Dokumentová frekvence, Information Gain (IG), Chí-kvadrát test a metodu GSS. Všechny metody jsou vyhodnoceny na českém korpusu novinových článků dodaných ČTK. Na základě výsledků klasifikace je navrženo optimální nastavení klasifikátoru. Pro implementaci klasifikačních metod je použit nástroj MinorThird. Pro lemmatizaci a POS-tagging byl použit nástroj MateTool.
Anotace v angličtině	The main goal of this work is to study methods for a multi-label document classification and to propose a user friendly software solution for Czech News Agency (ČTK). Multi-label classification is a task, where document is classified in to more than one class. Based on the literature, we have chosen three classifiers that are successfully used in the document classification field: Naive Bayes (NB), Support Vectors Machine (SVM) and Maximum Entropy classifier. We also study the possibility to use Part of Speech (POS) tagging for document word filtration and lemmatization to improve classification accuracy. For the feature selection, five methods are compared: Document Frequency (DF), Information Gain (IG), Mutual Information (MI), Chi-square and GSS methods. All methods are evaluated on the Czech corpus of ČTK newspapers articles. An optimal classifier setting is proposed based on these results. The proposed software solution uses the MinorThird classification tool package as an implementation of the classification methods. We used the Mate tool for lemmatization and POS tagging.
Klíčová slova	příznakové metody, lemmatizace, Maximální Entropie, více třídní klasifikace, Naivní Bayesův klasifikátor, POS tagging, Metoda podpůrných vektorů, klasifikace textů
Klíčová slova v angličtině	feature selection, lemmatization, Maximum Entropy, Multi-label document classification, Naive Bayes, POS tagging, Support Vector Machine, text classification
Rozsah průvodní práce	68 s. (100 000 znaků)
Jazyk	CZ
Hlavním cílem práce je prozkoumat metody pro více třídní klasifikaci dokumentů a navrhnout programové řešení pro Českou tiskovou kancelář (ČTK). Více třídní klasifikace je úkol, při kterém jsou dokumenty klasifikovány do více kategorií. Na základě literatury byly vybrány tři klasifikátory, které jsou úspěšně používány v této oblasti: Naivní Bayesův klasifikátor, Support Vector Machine (SVM) a klasifikátor Maximum Entropy. Práce dále zkoumá možnost použití slovních druhů (POS-tagging) pro filtrování slov a lemmatizace pro zlepšení úspěšnosti klasifikace. Práce dále srovnává pět metod pro výběr příznaků: Dokumentová frekvence, Information Gain (IG), Chí-kvadrát test a metodu GSS. Všechny metody jsou vyhodnoceny na českém korpusu novinových článků dodaných ČTK. Na základě výsledků klasifikace je navrženo optimální nastavení klasifikátoru. Pro implementaci klasifikačních metod je použit nástroj MinorThird. Pro lemmatizaci a POS-tagging byl použit nástroj MateTool.
Anotace v angličtině
The main goal of this work is to study methods for a multi-label document classification and to propose a user friendly software solution for Czech News Agency (ČTK). Multi-label classification is a task, where document is classified in to more than one class. Based on the literature, we have chosen three classifiers that are successfully used in the document classification field: Naive Bayes (NB), Support Vectors Machine (SVM) and Maximum Entropy classifier. We also study the possibility to use Part of Speech (POS) tagging for document word filtration and lemmatization to improve classification accuracy. For the feature selection, five methods are compared: Document Frequency (DF), Information Gain (IG), Mutual Information (MI), Chi-square and GSS methods. All methods are evaluated on the Czech corpus of ČTK newspapers articles. An optimal classifier setting is proposed based on these results. The proposed software solution uses the MinorThird classification tool package as an implementation of the classification methods. We used the Mate tool for lemmatization and POS tagging.
Klíčová slova
příznakové metody, lemmatizace, Maximální Entropie, více třídní klasifikace, Naivní Bayesův klasifikátor, POS tagging, Metoda podpůrných vektorů, klasifikace textů
Klíčová slova v angličtině
feature selection, lemmatization, Maximum Entropy, Multi-label document classification, Naive Bayes, POS tagging, Support Vector Machine, text classification
Zásady pro vypracování	Prostudujte metody používané v oblasti automatické klasifikace textů. Prostudujte stávající strukturu textových databází České tiskové kanceláře (ČTK). Na základě předchozí analýzy zvolte vhodnou metodu (popř. metody) a navrhněte systém pro automatickou klasifikaci textových dokumentů. Zaměřte se rovněž na vhodnou volbu parametrů. Systém realizujte a ověřte jeho funkčnost na datech dodaných z ČTK. Výsledky zhodnoťte a navrhněte případná další rozšíření.
Zásady pro vypracování
Prostudujte metody používané v oblasti automatické klasifikace textů. Prostudujte stávající strukturu textových databází České tiskové kanceláře (ČTK). Na základě předchozí analýzy zvolte vhodnou metodu (popř. metody) a navrhněte systém pro automatickou klasifikaci textových dokumentů. Zaměřte se rovněž na vhodnou volbu parametrů. Systém realizujte a ověřte jeho funkčnost na datech dodaných z ČTK. Výsledky zhodnoťte a navrhněte případná další rozšíření.
Seznam doporučené literatury	dodá vedoucí diplomové práce
Seznam doporučené literatury
dodá vedoucí diplomové práce
Přílohy volně vložené	1x DVD ROM
Přílohy vázané v práci	ilustrace, grafy, tabulky
Převzato z knihovny	Ano
Plný text práce
Hodnocení z obhajoby práce	Výborně
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby	-
Soubor s průběhem obhajoby

Prohlížení - Portál ZČU

Navigace první úrovně

Navigace druhé úrovně

Prohlížení (S025)

Hlavní nabídka Prohlížení IS/STAG

Najít Kvalifikační práce

Nalezené termíny, počet: 1

Stránkování výsledků vyhledávání

Informace o kvalifikační práci Automatická klasifikace dokumentů s podobným obsahem

Prohlížení - Portál ZČU

Navigace první úrovně

Navigace druhé úrovně

Prohlížení (S025)

Hlavní nabídka Prohlížení IS/STAG

Najít Kvalifikační práce

Nalezené termíny, počet: 1

Stránkování výsledků vyhledávání

Informace o kvalifikační práci Automatická klasi fikace dokumentů s podobným obsahem

Informace o kvalifikační práci Automatická klasifikace dokumentů s podobným obsahem