S rozvojem hlubokého strojového učení roste i jeho využití v chytrých zařízeních, proto existuje velká potřeba provozování modelů v kontextu omezené
výpočetní síly. Jednou z významných úloh v oblasti rozpoznávání řeči a komunikace člověk-stroj je detekce klíčových slov (keyword spotting, KWS). Tato
práce vyšetřuje různé architektury neuronových sítí a porovnává učení s učitelem a učení částečně s učitelem. Zjistilo se, že z navržených sítí nejlepších
výsledků dosahuje síť ResNet8 a že model před-trénovaný na datové sadě LibriSpeech Light se dobře přenáší na úlohu KWS.
Anotace v angličtině
With the development of deep machine learning its usage becomes increasingly popular in smart devices, consequently there is a significant need of operating
such models in the context of limited computational power. One of the frequent
tasks in the domain of speech recognition and human-machine communication
is keyword spotting (KWS). This paper investigates multiple neural network
architectures and compares supervised and self-supervised learning approaches.
We show that the ResNet8 architecture achieves the best results and that the
model pretrained on LibriSpeech Light dataset transfers well to the KWS task.
Klíčová slova
Rozpoznávání řeči, rozpoznávání klíčových slov, hluboká neuronová síť, učení částečně s učitelem, malý výpočetní výkon.
S rozvojem hlubokého strojového učení roste i jeho využití v chytrých zařízeních, proto existuje velká potřeba provozování modelů v kontextu omezené
výpočetní síly. Jednou z významných úloh v oblasti rozpoznávání řeči a komunikace člověk-stroj je detekce klíčových slov (keyword spotting, KWS). Tato
práce vyšetřuje různé architektury neuronových sítí a porovnává učení s učitelem a učení částečně s učitelem. Zjistilo se, že z navržených sítí nejlepších
výsledků dosahuje síť ResNet8 a že model před-trénovaný na datové sadě LibriSpeech Light se dobře přenáší na úlohu KWS.
Anotace v angličtině
With the development of deep machine learning its usage becomes increasingly popular in smart devices, consequently there is a significant need of operating
such models in the context of limited computational power. One of the frequent
tasks in the domain of speech recognition and human-machine communication
is keyword spotting (KWS). This paper investigates multiple neural network
architectures and compares supervised and self-supervised learning approaches.
We show that the ResNet8 architecture achieves the best results and that the
model pretrained on LibriSpeech Light dataset transfers well to the KWS task.
Klíčová slova
Rozpoznávání řeči, rozpoznávání klíčových slov, hluboká neuronová síť, učení částečně s učitelem, malý výpočetní výkon.
Nastudujte problematiku automatického rozpoznávání řeči, zaměřte se na metody detekce a rozpoznávání klíčových slov a frází.
Navrhněte a natrénujte model pro detekci klíčového slova pro offline a online detekci. Uvažujte možnost nasazení na zařízení s malým výpočetním výkonem.
Modely otestujte a vyhodnoťte.
Zásady pro vypracování
Nastudujte problematiku automatického rozpoznávání řeči, zaměřte se na metody detekce a rozpoznávání klíčových slov a frází.
Navrhněte a natrénujte model pro detekci klíčového slova pro offline a online detekci. Uvažujte možnost nasazení na zařízení s malým výpočetním výkonem.