Portál ZČU - Prohlížení

Prohlížení (S025)

Hlavní nabídka Prohlížení IS/STAG

Najít Kvalifikační práce

Tisk/export:

Export dat do formátu PDF - který můžete pohodlně vytisknout...

Tento odkaz můžete zkopírovat a použít například jako záložku prohlížeče pro zobrazení aktuální pozice v Prohlížení IS/STAG.

Nepřihlášenému uživateli se zobrazují pouze již odevzdané práce.

Osobní čísla studentů se zobrazují pouze přihlášenému uživateli.

Nalezené termíny, počet: 1

Stránkování výsledků vyhledávání

Nalezeno 1 záznamů Tisk Export do Xls URL na seznam

Příjmení (rod. přijm.)	Jméno	Název	Stav práce		Vedoucí/školitelé	Oponenti	Typ práce	Dat. obhaj.	Název
Student	Typ práce	-	-	-	-	-	-	-	-	-	-
PATERA	Patrik	Extrakce údajů z heterogenních dokumentů pomocí šablon			Ekštein Kamil	Mautner Pavel	diplomová	22.06.2020	Extrakce údajů z heterogenních dokumentů pomocí šablon
Patrik PATERA	diplomová	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX

Informace o kvalifikační práci Extrakce údajů z heterogenních dokumentů pomocí šablon

Základní údaje

Anotace
Dokument, ke kterému přistupujete, podléhá autorskému zákonu. Jeho porušením se můžete vystavit trestnímu postihu!
Jméno	PATERA Patrik
Akad. rok	2019/2020
Zadávající pracoviště	KIV
Datum obhajoby	22. 6. 2020
Typ práce	diplomová
Stav práce	Dokončená práce s úspěšnou obhajobou (DUO).
Úplnost vyplnění požadovaných údajů	- Všechny požadované údaje o této VŠKP jsou vyplněny.
Hlavní téma	Extrakce údajů z heterogenních dokumentů pomocí šablon
Hlavní téma v angličtině	Information Extraction From Heterogeneous Documents Using Templates
Název dle studenta	Extrakce údajů z heterogenních dokumentů pomocí šablon
Název dle studenta v angličtině	Information Extraction From Heterogeneous Documents Using Templates
Souběžný název	-
Podnázev	-
Vedoucí	Ekštein Kamil, Ing. Ph.D.
Oponent	Mautner Pavel, Ing. Ph.D.
Anotace	Tato diplomová práce se zabývá problémy z oblasti počítačového vidění k automatizované extrakci užitečných informací z naskenovaných dokumentů (obrazových dat) dle uživatelsky definovaných šablon. Hlavním cílem bylo analyzovat používané techniky a nástroje zaměřující se na zpracování digitálních snímků s následným optickým rozpoznáním znaků (OCR) z textových oblastí. Na základě analýzy byl navržen a implementován software pro tvorbu šablon dokumentů s grafickým uživatelským rozhraním a modul pro práci s naskenovanými dokumenty, který podle příslušné šablony extrahuje oblasti s užitečnými informaci a ty předá OCR systému. Implementované algoritmy byly podrobeny evaluačním testům k získání přehledu o jejich funkčnosti a robustnosti s ohledem k zamýšlenému účelu, jejichž výstup byl shrnut v závěru této práce. Nejlépe vyhodnocené algoritmy s konfigurovatelnými vstupními parametry jsou v aplikaci nastaveny jako výchozí.
Anotace v angličtině	This master's thesis deals with the challenges of automatic content extraction from regions of interest located in scanned documents (images) on the basis of user's defined templates, as a part of the computer vision domain. The main goal was to analyse common techniques and frameworks used for digital image processing followed by optical character recognition (OCR) performed in the text areas. In consonance with the analysis, the software for template creation with an extensive user graphics interface was designed and implemented as well as the module to handle and extract the regions of interest defined by an appropriate template from scanned documents and subsequently passing them to the OCR system. The implemented algorithms were evaluated to get an overview of their functionality and robustness with regard to the subject matter, the results of which are summarized in the conclusion. As a result of the evaluation, the best-rated algorithms with configurable input parameters are set as the default ones in the application.
Klíčová slova	počítačové vidění, zpracování obrazu, hledání vzoru, extrakce informací, šablony dokumentů, OCR, Tesseract, OpenCV, C++
Klíčová slova v angličtině	computer vision, image processing, template matching, information extraction, document template, OCR, Tesseract, OpenCV, C++
Rozsah průvodní práce	131 s. (198189 znaků)
Jazyk	CZ
Tato diplomová práce se zabývá problémy z oblasti počítačového vidění k automatizované extrakci užitečných informací z naskenovaných dokumentů (obrazových dat) dle uživatelsky definovaných šablon. Hlavním cílem bylo analyzovat používané techniky a nástroje zaměřující se na zpracování digitálních snímků s následným optickým rozpoznáním znaků (OCR) z textových oblastí. Na základě analýzy byl navržen a implementován software pro tvorbu šablon dokumentů s grafickým uživatelským rozhraním a modul pro práci s naskenovanými dokumenty, který podle příslušné šablony extrahuje oblasti s užitečnými informaci a ty předá OCR systému. Implementované algoritmy byly podrobeny evaluačním testům k získání přehledu o jejich funkčnosti a robustnosti s ohledem k zamýšlenému účelu, jejichž výstup byl shrnut v závěru této práce. Nejlépe vyhodnocené algoritmy s konfigurovatelnými vstupními parametry jsou v aplikaci nastaveny jako výchozí.
Anotace v angličtině
This master's thesis deals with the challenges of automatic content extraction from regions of interest located in scanned documents (images) on the basis of user's defined templates, as a part of the computer vision domain. The main goal was to analyse common techniques and frameworks used for digital image processing followed by optical character recognition (OCR) performed in the text areas. In consonance with the analysis, the software for template creation with an extensive user graphics interface was designed and implemented as well as the module to handle and extract the regions of interest defined by an appropriate template from scanned documents and subsequently passing them to the OCR system. The implemented algorithms were evaluated to get an overview of their functionality and robustness with regard to the subject matter, the results of which are summarized in the conclusion. As a result of the evaluation, the best-rated algorithms with configurable input parameters are set as the default ones in the application.
Klíčová slova
počítačové vidění, zpracování obrazu, hledání vzoru, extrakce informací, šablony dokumentů, OCR, Tesseract, OpenCV, C++
Klíčová slova v angličtině
computer vision, image processing, template matching, information extraction, document template, OCR, Tesseract, OpenCV, C++
Zásady pro vypracování	Seznamte se s technikami počítačového vidění a OCR použitelnými k ověření shody analyzovaného dokumentu se šablonou a následné extrakci významných oblastí podle příslušné šablony, prozkoumejte potenciálně vhodné nástroje, např. OpenCV, Tesseract, apod. Navrhněte a implementujte software pro tvorbu šablon dokumentů a aplikaci (např. na základě frameworku OpenCV nebo podobného), která z naskenovaného dokumentu podle příslušné rozpoznané šablony extrahuje oblasti s užitečnými informacemi a tyto předá OCR systému (např. Tesseract nebo podobnému). Důkladně otestujte funkčnost a stabilitu implementovaného řešení. Vše systematicky zdokumentujte a popište.
Zásady pro vypracování
Seznamte se s technikami počítačového vidění a OCR použitelnými k ověření shody analyzovaného dokumentu se šablonou a následné extrakci významných oblastí podle příslušné šablony, prozkoumejte potenciálně vhodné nástroje, např. OpenCV, Tesseract, apod. Navrhněte a implementujte software pro tvorbu šablon dokumentů a aplikaci (např. na základě frameworku OpenCV nebo podobného), která z naskenovaného dokumentu podle příslušné rozpoznané šablony extrahuje oblasti s užitečnými informacemi a tyto předá OCR systému (např. Tesseract nebo podobnému). Důkladně otestujte funkčnost a stabilitu implementovaného řešení. Vše systematicky zdokumentujte a popište.
Seznam doporučené literatury	dodá vedoucí diplomové práce
Seznam doporučené literatury
dodá vedoucí diplomové práce
Přílohy volně vložené	1 CD, 1 poster
Přílohy vázané v práci	-
Převzato z knihovny	Ano
Plný text práce
Hodnocení z obhajoby práce	Výborně
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby	-
Soubor s průběhem obhajoby

Prohlížení - Portál ZČU

Navigace první úrovně

Navigace druhé úrovně

Prohlížení (S025)

Hlavní nabídka Prohlížení IS/STAG

Najít Kvalifikační práce

Nalezené termíny, počet: 1

Stránkování výsledků vyhledávání

Informace o kvalifikační práci Extrakce údajů z heterogenních dokumentů pomocí šablon