Mezi-jazyčná reprezentace významu je aktuální téma v oblasti zpracování přirozeného jazyka. Sémantické prostory z různých jazyků jsou transformovány do jednoho sdíleného univerzálního prostoru. Tento fakt umožňuje přenést znalosti z jazyků, které jsou velmi bohaté na zdroje, do jazyků, jež jsou na zdroje omezené. Cílem této diplomové práce bylo analyzovat, porovnat a implementovat dostupné metody pro jazykově nezávislou sémantickou reprezentaci. Většina souvisejících prací se zaměřuje na lineární transformace, jelikož vykazují velmi dobrý výkon. V této práci se však soustřeďujeme na zvolené nelineární transformace založené na umělých neuronových sítích a shlukování. Kvalita lineárních i nelineárních metod je následně vyhodnocena na různých úlohách, například datových sadách slovních podobností, slovních analogií a strojovém překladu. Nově implementované nelineární transformace v mnoha ohledech překonaly lineární transformace ve všech sledovaných kategoriích na rozdílných jazycích z odlišných jazykových rodin.
Annotation in English
Cross-lingual meaning representation is a current topic in the field of Natural Language Processing. Semantic spaces of various languages are transformed into a shared universal space. It allows to transfer knowledge between languages, especially between resource-rich and resource-poor languages. This Master Thesis aims to analyze, compare and implement available methods of language independent semantic representation. Most of related works focus on linear projections as they showed a very good performance. In this thesis, however, we study non-linear methods based on artificial neural networks and clustering. Both linear and non-linear methods were subsequently evaluated on different tasks such as datasets containing word similarities, word analogies and machine translation. The newly implemented non-linear transformations consistently outperformed state-of-the-art linear transformations in all evaluation criteria and on several languages within different language families.
natural language processing,
semantic representation,
linear transformation,
orthogonal transformation,
canonical correlation analysis,
non-linear transformation,
neural networks,
clustering,
word2vec,
fasttext,
semeval
Length of the covering note
80
Language
CZ
Annotation
Mezi-jazyčná reprezentace významu je aktuální téma v oblasti zpracování přirozeného jazyka. Sémantické prostory z různých jazyků jsou transformovány do jednoho sdíleného univerzálního prostoru. Tento fakt umožňuje přenést znalosti z jazyků, které jsou velmi bohaté na zdroje, do jazyků, jež jsou na zdroje omezené. Cílem této diplomové práce bylo analyzovat, porovnat a implementovat dostupné metody pro jazykově nezávislou sémantickou reprezentaci. Většina souvisejících prací se zaměřuje na lineární transformace, jelikož vykazují velmi dobrý výkon. V této práci se však soustřeďujeme na zvolené nelineární transformace založené na umělých neuronových sítích a shlukování. Kvalita lineárních i nelineárních metod je následně vyhodnocena na různých úlohách, například datových sadách slovních podobností, slovních analogií a strojovém překladu. Nově implementované nelineární transformace v mnoha ohledech překonaly lineární transformace ve všech sledovaných kategoriích na rozdílných jazycích z odlišných jazykových rodin.
Annotation in English
Cross-lingual meaning representation is a current topic in the field of Natural Language Processing. Semantic spaces of various languages are transformed into a shared universal space. It allows to transfer knowledge between languages, especially between resource-rich and resource-poor languages. This Master Thesis aims to analyze, compare and implement available methods of language independent semantic representation. Most of related works focus on linear projections as they showed a very good performance. In this thesis, however, we study non-linear methods based on artificial neural networks and clustering. Both linear and non-linear methods were subsequently evaluated on different tasks such as datasets containing word similarities, word analogies and machine translation. The newly implemented non-linear transformations consistently outperformed state-of-the-art linear transformations in all evaluation criteria and on several languages within different language families.
Prozkoumejte a naimplementujte vybrané nelineární transformace založené na neuronových sítích pro transformace sémantických prostorů.
Natrénujte mezi-jazyčné sémantické prostory pro reprezentaci jazyků z různých jazykových rodin.
Metody pro jazykově nezávislou reprezentaci významu otestujte na datasetech slovních podobností, slovních analogií a na strojovém překladu slov, a výsledky zhodnoťte.
Research Plan
Prostudujte state-of-the-art metody pro jazykově nezávislou reprezentaci významu.
Prozkoumejte a naimplementujte vybrané nelineární transformace založené na neuronových sítích pro transformace sémantických prostorů.
Natrénujte mezi-jazyčné sémantické prostory pro reprezentaci jazyků z různých jazykových rodin.
Metody pro jazykově nezávislou reprezentaci významu otestujte na datasetech slovních podobností, slovních analogií a na strojovém překladu slov, a výsledky zhodnoťte.