Tématem této diplomové práce je detekce hlasivkových pulsů v řečovém signálu pomocí metod strojového učení. Klade si za cíl vylepšit úspěšnost klasifikace výchozího algoritmu, a to především přidáním nových příznaků, nalezením dalších vhodných metod předzpracování řečového signálu a implementací kontextového klasifikátoru. V úvodu této práce je stručně popsána fyziologická tvorba řečového signálu a hlasivkových pulsů, jejich zpracování počítačem a význam a přínos jejich přesné detekce. Následně je představen výchozí algoritmus a čtenář je seznámen s postupem nalezení nových příznaků a nových metod předzpracování. Hlavního přínosu pro úspěšnost klasifikace je dosaženo implementací tzv. kontextového (angl. Context aware) klasifikátoru, který je pak použit pro zbytek práce. V závěru je vylepšený algoritmus porovnán s výchozím algoritmem a s dalšími vybranými algoritmy. Dále je pak ověřena jeho úspěšnost na datech, které prošly simulovaným telefonním kanálem a na datech stejně upravených, které byly navíc zašumělé bílým šumem.
Anotace v angličtině
The topic of this diploma thesis is the detection of glottal closure instants from the speech signal using machine learning methods. It aims to improve the success of the classification of the initial algorithm, especially by adding new features and finding other suitable methods of speech signal preprocessing. The introduction of this work briefly describes the physiological production of speech and glottal closure instants, their computer processing and the importance and benefits of their accurate detection. Subsequently, the initial algorithm is introduced and the reader is introduced to the process of finding new features and new methods of preprocessing. The main benefit for the success of the classification is achieved by the implementation of the Context aware classifier, which is then used for the rest of the work. Finally, the improved algorithm is compared with the initial algorithm. Furthermore, its success is verified on data that have passed through the simulated telephone channel and on data that have been modified in the same way with added white noise.
Tématem této diplomové práce je detekce hlasivkových pulsů v řečovém signálu pomocí metod strojového učení. Klade si za cíl vylepšit úspěšnost klasifikace výchozího algoritmu, a to především přidáním nových příznaků, nalezením dalších vhodných metod předzpracování řečového signálu a implementací kontextového klasifikátoru. V úvodu této práce je stručně popsána fyziologická tvorba řečového signálu a hlasivkových pulsů, jejich zpracování počítačem a význam a přínos jejich přesné detekce. Následně je představen výchozí algoritmus a čtenář je seznámen s postupem nalezení nových příznaků a nových metod předzpracování. Hlavního přínosu pro úspěšnost klasifikace je dosaženo implementací tzv. kontextového (angl. Context aware) klasifikátoru, který je pak použit pro zbytek práce. V závěru je vylepšený algoritmus porovnán s výchozím algoritmem a s dalšími vybranými algoritmy. Dále je pak ověřena jeho úspěšnost na datech, které prošly simulovaným telefonním kanálem a na datech stejně upravených, které byly navíc zašumělé bílým šumem.
Anotace v angličtině
The topic of this diploma thesis is the detection of glottal closure instants from the speech signal using machine learning methods. It aims to improve the success of the classification of the initial algorithm, especially by adding new features and finding other suitable methods of speech signal preprocessing. The introduction of this work briefly describes the physiological production of speech and glottal closure instants, their computer processing and the importance and benefits of their accurate detection. Subsequently, the initial algorithm is introduced and the reader is introduced to the process of finding new features and new methods of preprocessing. The main benefit for the success of the classification is achieved by the implementation of the Context aware classifier, which is then used for the rest of the work. Finally, the improved algorithm is compared with the initial algorithm. Furthermore, its success is verified on data that have passed through the simulated telephone channel and on data that have been modified in the same way with added white noise.
Seznamte se s problematikou automatické detekce hlasivkových pulsů v řečových a hlasivkových signálech a prostudujte dostupné algoritmy detekce hlasivkových pulsů v řečovém signálu.
Podrobně se seznamte s algoritmem využívajícím strojové učení, vyvíjeným na KKY FAV ZČU.
Navrhněte rozšíření uvedeného algoritmu o využití nových příznaků či různých metod předzpracování řečového signálu.
Prověřte robustnost algoritmu vůči šumu.
Navržená rozšíření a modifikace vyhodnoťte a porovnejte se základním algoritmem.
Zásady pro vypracování
Seznamte se s problematikou automatické detekce hlasivkových pulsů v řečových a hlasivkových signálech a prostudujte dostupné algoritmy detekce hlasivkových pulsů v řečovém signálu.
Podrobně se seznamte s algoritmem využívajícím strojové učení, vyvíjeným na KKY FAV ZČU.
Navrhněte rozšíření uvedeného algoritmu o využití nových příznaků či různých metod předzpracování řečového signálu.
Prověřte robustnost algoritmu vůči šumu.
Navržená rozšíření a modifikace vyhodnoťte a porovnejte se základním algoritmem.
Seznam doporučené literatury
MATOUŠEK, J., TIHELKA, D. Using Extreme Gradient Boosting to Detect Glottal Closure Instants in Speech Signal. In: Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brighton, United Kingdom, s. 6515-6519, 2019.
DRUGMAN, T., THOMAS, M., GUDNASON, J., NAYLOR, P., DUTOIT, T. Detection of glottal closure instants from speech signals: A quantitative review. IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 3, pp. 994-1006, 2012.
Seznam doporučené literatury
MATOUŠEK, J., TIHELKA, D. Using Extreme Gradient Boosting to Detect Glottal Closure Instants in Speech Signal. In: Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brighton, United Kingdom, s. 6515-6519, 2019.
DRUGMAN, T., THOMAS, M., GUDNASON, J., NAYLOR, P., DUTOIT, T. Detection of glottal closure instants from speech signals: A quantitative review. IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 3, pp. 994-1006, 2012.