Portál ZČU - Prohlížení

Prohlížení (S025)

Hlavní nabídka Prohlížení IS/STAG

Najít Kvalifikační práce

Tisk/export:

Export dat do formátu PDF - který můžete pohodlně vytisknout...

Tento odkaz můžete zkopírovat a použít například jako záložku prohlížeče pro zobrazení aktuální pozice v Prohlížení IS/STAG.

Nepřihlášenému uživateli se zobrazují pouze již odevzdané práce.

Osobní čísla studentů se zobrazují pouze přihlášenému uživateli.

Nalezené termíny, počet: 1

Stránkování výsledků vyhledávání

Nalezeno 1 záznamů Tisk Export do Xls URL na seznam

Příjmení (rod. přijm.)	Jméno	Název	Stav práce		Vedoucí/školitelé	Oponenti	Typ práce	Dat. obhaj.	Název
Student	Typ práce	-	-	-	-	-	-	-	-	-	-
VLADAŘ	Lukáš	Analýza velikosti dat pro neurální syntézu řeči			Matoušek Jindřich	Tihelka Daniel	diplomová	07.09.2023	Analýza velikosti dat pro neurální syntézu řeči
Lukáš VLADAŘ	diplomová	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX

Informace o kvalifikační práci Analýza velikosti dat pro neurální syntézu řeči

Základní údaje

Anotace
Dokument, ke kterému přistupujete, podléhá autorskému zákonu. Jeho porušením se můžete vystavit trestnímu postihu!
Jméno	VLADAŘ Lukáš
Akad. rok	2022/2023
Zadávající pracoviště	KKY
Datum obhajoby	7. 9. 2023
Typ práce	diplomová
Stav práce	Dokončená práce s úspěšnou obhajobou (DUO).
Úplnost vyplnění požadovaných údajů	- Všechny požadované údaje o této VŠKP jsou vyplněny.
Hlavní téma	Analýza velikosti dat pro neurální syntézu řeči
Hlavní téma v angličtině	Data Size Analysis for Neural Speech Synthesis
Název dle studenta	Analýza velikosti dat pro neurální syntézu řeči
Název dle studenta v angličtině	Data Size Analysis for Neural Speech Synthesis
Souběžný název	-
Podnázev	-
Vedoucí	Matoušek Jindřich, Doc. Ing. Ph.D.
Oponent	Tihelka Daniel, Ing. Ph.D.
Anotace	Hlavním cílem této práce je popsat, jaký vliv má množství použitých trénovacích dat na kvalitu syntetické řeči generované natrénovaným neurálním syntetizérem a jak lze kvalitu výsledné řeči ovlivnit použitím předtrénovaných neurálních modelů. Teoretická část práce popisuje základní přístupy použitelné pro umělé generování řeči, zvláštní pozornost je věnována především moderním metodám neurální syntézy řeči. Zmíněny jsou také možnosti hodnocení syntetické řeči. V praktické části jsou pak popsány experimenty, které byly provedeny s neurálním modelem VITS. V rámci těchto experimentů byly s využitím poslechových testů a objektivní míry MCD porovnávány modely, které se lišily jednak množstvím dat použitých k jejich natrénování, ale také způsobem inicializace parametrů při trénování.
Anotace v angličtině	The aim of this thesis is to describe the impact of the amount of used training data on the quality of the speech generated by a neural synthesizer. Another goal is to answer how the use of pretrained neural models can affect the quality of the final speech. The theoretical part of the thesis covers basic approaches applicable to artificial speech production, the main attention is given especially to modern methods of neural speech synthesis. Furthermore, some options of the synthetic speech evaluation are mentioned. The practical part describes experiments performed on the VITS neural model. During these experiments models trained using different amounts of data and different methods of parameter initialization were compared using listening tests and the MCD objective measure.
Klíčová slova	syntéza řeči, TTS, VITS, trénovací data, transfer learning, poslechové testy
Klíčová slova v angličtině	speech synthesis, TTS, VITS, training data, transfer learning, listening tests
Rozsah průvodní práce	65
Jazyk	CZ
Hlavním cílem této práce je popsat, jaký vliv má množství použitých trénovacích dat na kvalitu syntetické řeči generované natrénovaným neurálním syntetizérem a jak lze kvalitu výsledné řeči ovlivnit použitím předtrénovaných neurálních modelů. Teoretická část práce popisuje základní přístupy použitelné pro umělé generování řeči, zvláštní pozornost je věnována především moderním metodám neurální syntézy řeči. Zmíněny jsou také možnosti hodnocení syntetické řeči. V praktické části jsou pak popsány experimenty, které byly provedeny s neurálním modelem VITS. V rámci těchto experimentů byly s využitím poslechových testů a objektivní míry MCD porovnávány modely, které se lišily jednak množstvím dat použitých k jejich natrénování, ale také způsobem inicializace parametrů při trénování.
Anotace v angličtině
The aim of this thesis is to describe the impact of the amount of used training data on the quality of the speech generated by a neural synthesizer. Another goal is to answer how the use of pretrained neural models can affect the quality of the final speech. The theoretical part of the thesis covers basic approaches applicable to artificial speech production, the main attention is given especially to modern methods of neural speech synthesis. Furthermore, some options of the synthetic speech evaluation are mentioned. The practical part describes experiments performed on the VITS neural model. During these experiments models trained using different amounts of data and different methods of parameter initialization were compared using listening tests and the MCD objective measure.
Klíčová slova
syntéza řeči, TTS, VITS, trénovací data, transfer learning, poslechové testy
Klíčová slova v angličtině
speech synthesis, TTS, VITS, training data, transfer learning, listening tests
Zásady pro vypracování	Seznamte se s problematikou syntézy řeči z textu (TTS), zaměřte se na metody neurální syntézy řeči. Podrobně se seznamte s moderními frameworky pro trénování neurálních modelů syntézy řeči, např. s frameworkem \href{https://github.com/coqui-ai/TTS}{Coqui-ai/TTS}. Navrhněte experimenty pro trénování neurálních modelů v závislosti na počtu a velikosti zdrojových dat (řečových nahrávek daného hlasu) a na zvolené strategii trénování (např. \clqqsingle-speaker\crqq trénování vs. využití předtrénovaných \clqqmulti-speaker\crqq, popř. \clqqmulti-language multi-speaker\crqq modelů). Navržené experimenty vyhodnoťte z hlediska kvality výsledné syntetické řeči a v závislosti na velikosti zdrojových dat.
Zásady pro vypracování
Seznamte se s problematikou syntézy řeči z textu (TTS), zaměřte se na metody neurální syntézy řeči. Podrobně se seznamte s moderními frameworky pro trénování neurálních modelů syntézy řeči, např. s frameworkem \href{https://github.com/coqui-ai/TTS}{Coqui-ai/TTS}. Navrhněte experimenty pro trénování neurálních modelů v závislosti na počtu a velikosti zdrojových dat (řečových nahrávek daného hlasu) a na zvolené strategii trénování (např. \clqqsingle-speaker\crqq trénování vs. využití předtrénovaných \clqqmulti-speaker\crqq, popř. \clqqmulti-language multi-speaker\crqq modelů). Navržené experimenty vyhodnoťte z hlediska kvality výsledné syntetické řeči a v závislosti na velikosti zdrojových dat.
Seznam doporučené literatury	Tan, X., Qin, T., Soong, F., Liu, T-Y. (2021). A Survey on Neural Speech Synthesis. Dostupné z https://arxiv.org/abs/2106.15561 Kim, J., Kong, J., Son, J. (2021). Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. Dostupné z https://arxiv.org/abs/2106.06103
Seznam doporučené literatury
Tan, X., Qin, T., Soong, F., Liu, T-Y. (2021). A Survey on Neural Speech Synthesis. Dostupné z https://arxiv.org/abs/2106.15561 Kim, J., Kong, J., Son, J. (2021). Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. Dostupné z https://arxiv.org/abs/2106.06103
Přílohy volně vložené	-
Přílohy vázané v práci	grafy, schémata, tabulky
Převzato z knihovny	Ano
Plný text práce
Hodnocení z obhajoby práce	Výborně
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby	-Syntéza řeči (TTS - Text to speech) -Neurální syntéza řeči -Otázky řešené v rámci DP -Přehled natrénovaných modelů -Hodnocení natrénovaných modelů -Objektivní míra MCD (Mel Cepstral Distortion) -Poslechové testy MUSHRA -Statistické vyhodnocení experimentů -Výsledky experimentů -Náměty na další výzkum OTÁZKY: Dělal jste si nějakou podrobnější analýzu u experimentů s neočekávaným výsledkem, kdy např. model trénovaný na větším množství dat získal nižší MUSHRA hodnocení? Např. použití 6 vs 1,5 hodiny dat v obr. 6.2 nebo 3 vs 1.5 u obr. 6.3, případné kolísání kvality v obrázcích 6.6/6.7? Něco, co se již do práce nedostalo nebo nebylo možné jednoduše vysvětlit? Například poslechem promptů s cílem identifikace příčiny nízkého hodnocení (výskyt nějakého nepřirozeného jevu?). Jsou výsledky MUSHRA testů v souladu s Vaším subjektivním hodnocením v těchto případech? Mohla by být nižší kvalita modelu neprofesionálního řečníka "fine-tuněná" na modelu profesionálního řečníka způsobena odlišností charakteru použitých hlasů? Fine-tuning na multi-speaker modelu již dosahuje obecně lepších výsledků. To je nicméně v rozporu s profesionálním řečníkem (i multi-speaker model byl z profesionálů), kde jsou ale výsledky poměrně protichůdné. Popište blíže krabicový graf, který jste použil v prezentaci.
Soubor s průběhem obhajoby

Prohlížení - Portál ZČU

Navigace první úrovně

Navigace druhé úrovně

Prohlížení (S025)

Hlavní nabídka Prohlížení IS/STAG

Najít Kvalifikační práce

Nalezené termíny, počet: 1

Stránkování výsledků vyhledávání

Informace o kvalifikační práci Analýza velikosti dat pro neurální syntézu řeči