Bakalářská práce se zabývá automatickou klasifikací textových dokumentů
pomocí neuronových sítí. Cílem práce je zjistit vliv metody předzpracování
dokumentu na výslednou kvalitu klasifikace. Použité metody předzpracování
jsou tokenizace, lemmatizace a stemming. Celkem bylo testováno pět
architektur neuronových sítí: vícevrstvý perceptron, konvoluční neuronová
síť, rekurentní neuronová sít a jejich kombinace. Testování bylo provedeno
na české databázi CDCv2 a anglické RCV1-v2. Dosažené výsledky byly
následne porovnány s literaturou.
Anotace v angličtině
This Bechelor thesis focuses on the automatic text document classification
with neural networks. The porpuse is to verify the effect of different text preprocessing types on quality of the classification. For text preprocessing we
used tokanization, lemmatisation and stemming. Five neural network architectures
were tested: multi-layer perceptron, convolutional neural networks,
recurrent neural networks and their combinations. Testing was carried out
on czech datataset CDCv2 and english RCV1-v2. Achieved results were
compared with literature.
Bakalářská práce se zabývá automatickou klasifikací textových dokumentů
pomocí neuronových sítí. Cílem práce je zjistit vliv metody předzpracování
dokumentu na výslednou kvalitu klasifikace. Použité metody předzpracování
jsou tokenizace, lemmatizace a stemming. Celkem bylo testováno pět
architektur neuronových sítí: vícevrstvý perceptron, konvoluční neuronová
síť, rekurentní neuronová sít a jejich kombinace. Testování bylo provedeno
na české databázi CDCv2 a anglické RCV1-v2. Dosažené výsledky byly
následne porovnány s literaturou.
Anotace v angličtině
This Bechelor thesis focuses on the automatic text document classification
with neural networks. The porpuse is to verify the effect of different text preprocessing types on quality of the classification. For text preprocessing we
used tokanization, lemmatisation and stemming. Five neural network architectures
were tested: multi-layer perceptron, convolutional neural networks,
recurrent neural networks and their combinations. Testing was carried out
on czech datataset CDCv2 and english RCV1-v2. Achieved results were
compared with literature.