Tato práce se zabývá vícejazyčnou sémantickou podobností slov. Nejprve představujeme přístupy k modelování vícejazyčné sémantické podobnosti slov a dále uvádíme několik vybraných vícejazyčných metod. V další části práce se zabýváme vytvořením vlastního vícejazyčného systému. Nejdříve otestujeme několik existujících vícejazyčných metod, které v další části zkombinujeme k dosažení lepších výsledků. V poslední části práce pak porovnáváme vytvořený systém s nejlepším systémem, který zvítězil v mezinárodní vědecké soutěži SemEval-2017. Náš systém přitom na použitých testovacích datech dosáhl o více než 6 procent lepších výsledků.
Annotation in English
This thesis deals with multilingual semantic word similarity. At first, we present approaches to modeling multilingual semantic word similarity and we introduce several selected multilingual methods. In the next section, we deal with the creation of our own multilingual system. We test several existing multilingual methods that we combine to achieve better results. In the last part of the thesis, we compare the created system with state-of-the-art system, which won the SemEval-2017 international scientific competition. Our system achieved more than 6 percent better results on tested data.
multilingual semantic word similarity, word vector, semantic network, clustering, natural language processing, semantic space, distributional semantics
Length of the covering note
57 s.
Language
CZ
Annotation
Tato práce se zabývá vícejazyčnou sémantickou podobností slov. Nejprve představujeme přístupy k modelování vícejazyčné sémantické podobnosti slov a dále uvádíme několik vybraných vícejazyčných metod. V další části práce se zabýváme vytvořením vlastního vícejazyčného systému. Nejdříve otestujeme několik existujících vícejazyčných metod, které v další části zkombinujeme k dosažení lepších výsledků. V poslední části práce pak porovnáváme vytvořený systém s nejlepším systémem, který zvítězil v mezinárodní vědecké soutěži SemEval-2017. Náš systém přitom na použitých testovacích datech dosáhl o více než 6 procent lepších výsledků.
Annotation in English
This thesis deals with multilingual semantic word similarity. At first, we present approaches to modeling multilingual semantic word similarity and we introduce several selected multilingual methods. In the next section, we deal with the creation of our own multilingual system. We test several existing multilingual methods that we combine to achieve better results. In the last part of the thesis, we compare the created system with state-of-the-art system, which won the SemEval-2017 international scientific competition. Our system achieved more than 6 percent better results on tested data.
multilingual semantic word similarity, word vector, semantic network, clustering, natural language processing, semantic space, distributional semantics
Research Plan
Prostudujte přístupy k modelování vícejazyčné sémantické podobnosti slov.
Prostudujte a popište existující metody a modely.
Navrhněte a implementujte vlastní vícejazyčný systém pro výpočet sémantické podobnosti. Systém může být vytvořen i jako kombinace jiných existujících systémů.
Změřte úspěšnost hledání podobnosti na standardní evaluačních datových sadách. Dosažené výsledky kriticky zhodnoťte.
Research Plan
Prostudujte přístupy k modelování vícejazyčné sémantické podobnosti slov.
Prostudujte a popište existující metody a modely.
Navrhněte a implementujte vlastní vícejazyčný systém pro výpočet sémantické podobnosti. Systém může být vytvořen i jako kombinace jiných existujících systémů.
Změřte úspěšnost hledání podobnosti na standardní evaluačních datových sadách. Dosažené výsledky kriticky zhodnoťte.