Cílem této práce je navrhnout, vytvořit a otestovat algoritmus pro identifi-
kaci revizí v množině textových dokumentů. V první části práce jsou zmapo-
vány současné přístupy ve vyhledávání dokumentů a popsány stávající algo-
ritmy pro identifikaci podobných dokumentů. Druhá část se zabývá návrhem
a implementací algoritmu zaměřeného na detekci revizí, jehož úspěšnost je
ověřena na vytvořené kolekci testovacích dokumentů. Výsledky získané z
provedených experimentů jsou porovnány s výsledky vybraných stávajících
algoritmů.
Anotace v angličtině
The goal of the thesis is to design, create and test an algorithm which iden-
tifies the revisions of test documents. The first part of the thesis is focused
on analysing current approaches to document searching and a identification
of highly similar documents (near-duplicates). The second part deals with
a design and an implementation of a new algorithm. The efficiency of the
algorithm is verified on a set of test documents. The tests results are com-
pared with the results of the experiments which were done with the selected
existing algorithms.
revision, duplicates, Apache Lucene, information retrieval, vector space model, Kullback-Leibler divergence, named-entity recognition
Rozsah průvodní práce
49 s. (71189 znaků)
Jazyk
CZ
Anotace
Cílem této práce je navrhnout, vytvořit a otestovat algoritmus pro identifi-
kaci revizí v množině textových dokumentů. V první části práce jsou zmapo-
vány současné přístupy ve vyhledávání dokumentů a popsány stávající algo-
ritmy pro identifikaci podobných dokumentů. Druhá část se zabývá návrhem
a implementací algoritmu zaměřeného na detekci revizí, jehož úspěšnost je
ověřena na vytvořené kolekci testovacích dokumentů. Výsledky získané z
provedených experimentů jsou porovnány s výsledky vybraných stávajících
algoritmů.
Anotace v angličtině
The goal of the thesis is to design, create and test an algorithm which iden-
tifies the revisions of test documents. The first part of the thesis is focused
on analysing current approaches to document searching and a identification
of highly similar documents (near-duplicates). The second part deals with
a design and an implementation of a new algorithm. The efficiency of the
algorithm is verified on a set of test documents. The tests results are com-
pared with the results of the experiments which were done with the selected
existing algorithms.