Tato práce je zaměřena na metody výpočtu sémantické podobnosti slov. Algoritmy jsou testované v anglickém jazyce. Jejími cíli je poskytnout čtenáři ucelený pohled na současné metody v této oblasti a porovnat je. Také zde jsou představeny modifikace současných algoritmů za účelem vylepšení výsledků. Jsou zde představeny dvě základní kategorie těchto algoritmů: algoritmy založené na ontologii a algoritmy založené na distribuční hypotéze. Výsledky jednotlivých algoritmů budou vyhodnoceny na standardních datových kolekcích.
Anotace v angličtině
This thesis is focused on word-to-word semantic similarity measures. They are tested on English language. Its goal is to give the reader a general overview of existing word similarity measures, and to point to their main advantages and disadvantages. I also tried to develop some extensions of existing methods to get better results. Both main categories WordNet based and corpus based - distributional algorithms representatives are presented. Algorithms are evaluated on common word-to-word similarity datasets.
Tato práce je zaměřena na metody výpočtu sémantické podobnosti slov. Algoritmy jsou testované v anglickém jazyce. Jejími cíli je poskytnout čtenáři ucelený pohled na současné metody v této oblasti a porovnat je. Také zde jsou představeny modifikace současných algoritmů za účelem vylepšení výsledků. Jsou zde představeny dvě základní kategorie těchto algoritmů: algoritmy založené na ontologii a algoritmy založené na distribuční hypotéze. Výsledky jednotlivých algoritmů budou vyhodnoceny na standardních datových kolekcích.
Anotace v angličtině
This thesis is focused on word-to-word semantic similarity measures. They are tested on English language. Its goal is to give the reader a general overview of existing word similarity measures, and to point to their main advantages and disadvantages. I also tried to develop some extensions of existing methods to get better results. Both main categories WordNet based and corpus based - distributional algorithms representatives are presented. Algorithms are evaluated on common word-to-word similarity datasets.