Neuronové síťě dnes dosahují výborných výsledků ve světě automatického vytváření souhrnu dokumentů či textů. Tato bakalářská práce se zabývá automatickým vytvářením souhrnů českých historických dokumentů, což je téma, které není příliš prozkoumané. Pro vyhodnocení a zlepšení výkonu našich metod jsme vytvořili vlastní dataset ze sady historických dokumentů. Poté jsme natrénovali a využili modely Mistral 7B a mT5, které jsou založené na architektuře Transformer. Navíc jsme implementovali a vyohodnotili přístup, který kombinuje nejnovější metody strojového překladu a metody pro automatické vytváření souhrnu textu v angličtině. Tuto metodu označujeme jako Translation-Summarizaton-Translation. Výsledky zmiňovaných metod představují nový základ pro úkol automatické sumarizace českých historických dokumentů.
Anotace v angličtině
In the domain of automatic text summarization, neural networks show promising performances. This thesis probes into the task of automatic summarization of Czech historical documents, a largely unexplored niche area with a scant amount of datasets available. To evaluate and improve the performance of our methods, we created our own dataset constructed from a corpus of historical documents. Then we fine-tuned and utilized Transformer-based models Mistral 7B and mT5. We also implemented and evaluated a method, which we refer to as Translation-Summarization-Translation, where we utilize state-of-the-art machine translation and English summarization methods to generate Czech summaries. The performance of these methods set a new baseline for the task of summarizing Czech historical documents.
Klíčová slova
Neuronové síťě, Umělá inteligence, Sumarizace textu, České historické dokumenty
Klíčová slova v angličtině
Neural network, Artificial intelligence, Text summarization, Czech historical documents
Rozsah průvodní práce
47 s.
Jazyk
AN
Anotace
Neuronové síťě dnes dosahují výborných výsledků ve světě automatického vytváření souhrnu dokumentů či textů. Tato bakalářská práce se zabývá automatickým vytvářením souhrnů českých historických dokumentů, což je téma, které není příliš prozkoumané. Pro vyhodnocení a zlepšení výkonu našich metod jsme vytvořili vlastní dataset ze sady historických dokumentů. Poté jsme natrénovali a využili modely Mistral 7B a mT5, které jsou založené na architektuře Transformer. Navíc jsme implementovali a vyohodnotili přístup, který kombinuje nejnovější metody strojového překladu a metody pro automatické vytváření souhrnu textu v angličtině. Tuto metodu označujeme jako Translation-Summarizaton-Translation. Výsledky zmiňovaných metod představují nový základ pro úkol automatické sumarizace českých historických dokumentů.
Anotace v angličtině
In the domain of automatic text summarization, neural networks show promising performances. This thesis probes into the task of automatic summarization of Czech historical documents, a largely unexplored niche area with a scant amount of datasets available. To evaluate and improve the performance of our methods, we created our own dataset constructed from a corpus of historical documents. Then we fine-tuned and utilized Transformer-based models Mistral 7B and mT5. We also implemented and evaluated a method, which we refer to as Translation-Summarization-Translation, where we utilize state-of-the-art machine translation and English summarization methods to generate Czech summaries. The performance of these methods set a new baseline for the task of summarizing Czech historical documents.
Klíčová slova
Neuronové síťě, Umělá inteligence, Sumarizace textu, České historické dokumenty
Klíčová slova v angličtině
Neural network, Artificial intelligence, Text summarization, Czech historical documents
Zásady pro vypracování
Prostudujte dostupné datové sady pro automatickou sumarizaci textu.
Seznamte se s relevantními metodami automatické sumarizace textu s důrazem na metody založené na neuronových sítích.
Vytvořte vlastní datovou sadu českých historických dokumentů pro sumarizaci textu.
Navrhněte a implementujte prototyp systému pro automatickou sumarizaci textu, který integruje alespoň dvě vybrané sumarizační metody.
Prototyp otestujte na vybrané a nově vytvořené datové množině.
Zhodnoťte dosažené výsledky a navrhněte další možná rozšíření.
Zásady pro vypracování
Prostudujte dostupné datové sady pro automatickou sumarizaci textu.
Seznamte se s relevantními metodami automatické sumarizace textu s důrazem na metody založené na neuronových sítích.
Vytvořte vlastní datovou sadu českých historických dokumentů pro sumarizaci textu.
Navrhněte a implementujte prototyp systému pro automatickou sumarizaci textu, který integruje alespoň dvě vybrané sumarizační metody.
Prototyp otestujte na vybrané a nově vytvořené datové množině.
Zhodnoťte dosažené výsledky a navrhněte další možná rozšíření.