Hlavním cílem bakalářské práce je vytvořit program, který shlukuje podobné novinové zprávy. Dalším cílem je vytvořit program pro stahování novinových dat z internetových zdrojů, která budou sloužit jako testovací data. Je potřeba navrhnout posloupnost zpracování dat, určení podobnosti a také princip clusterování dat. Poslední fází je určení správného prahu, po kterém jsou dva soubory podobné. Aplikace byla programována v objektově orientovaném jazyce Java. Při testování navržená aplikace dosáhla 96,85% F-míry.
Annotation in English
The main goal of the bachelor thesis is to create a program, which clusters similiar RSS newspaper data. Next goal is to create a program for downloading newspaper data from internet sources, which will be used as testing data. Designing a sequence of data processing, determinating similiarities and also principle of the data clustering is required to design. The last phase is selecting the right threshold, after which two files are similar. The application was created using object-oriented Java language. After the testing proposed application has reached 96,85% F-measure.
Hlavním cílem bakalářské práce je vytvořit program, který shlukuje podobné novinové zprávy. Dalším cílem je vytvořit program pro stahování novinových dat z internetových zdrojů, která budou sloužit jako testovací data. Je potřeba navrhnout posloupnost zpracování dat, určení podobnosti a také princip clusterování dat. Poslední fází je určení správného prahu, po kterém jsou dva soubory podobné. Aplikace byla programována v objektově orientovaném jazyce Java. Při testování navržená aplikace dosáhla 96,85% F-míry.
Annotation in English
The main goal of the bachelor thesis is to create a program, which clusters similiar RSS newspaper data. Next goal is to create a program for downloading newspaper data from internet sources, which will be used as testing data. Designing a sequence of data processing, determinating similiarities and also principle of the data clustering is required to design. The last phase is selecting the right threshold, after which two files are similar. The application was created using object-oriented Java language. After the testing proposed application has reached 96,85% F-measure.