Portál ZČU - Prohlížení

Prohlížení (S025)

Hlavní nabídka Prohlížení IS/STAG

Najít Kvalifikační práce

Tisk/export:

Export dat do formátu PDF - který můžete pohodlně vytisknout...

Tento odkaz můžete zkopírovat a použít například jako záložku prohlížeče pro zobrazení aktuální pozice v Prohlížení IS/STAG.

Nepřihlášenému uživateli se zobrazují pouze již odevzdané práce.

Osobní čísla studentů se zobrazují pouze přihlášenému uživateli.

Nalezené termíny, počet: 1

Stránkování výsledků vyhledávání

Nalezeno 1 záznamů Tisk Export do Xls URL na seznam

Příjmení (rod. přijm.)	Jméno	Název	Stav práce		Vedoucí/školitelé	Oponenti	Typ práce	Dat. obhaj.	Název
Student	Typ práce	-	-	-	-	-	-	-	-	-	-
ŽELEZNÝ	Tomáš	Image Captioning using Deep Learning Image Captioning using Deep Learning			Hrúz Marek	Vyskočil Jiří	diplomová	22.06.2022	Image Captioning using Deep Learning
Tomáš ŽELEZNÝ	diplomová	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX	0XX

Informace o kvalifikační práci Image Captioning using Deep Learning

Základní údaje

Anotace
Dokument, ke kterému přistupujete, podléhá autorskému zákonu. Jeho porušením se můžete vystavit trestnímu postihu!
Jméno	ŽELEZNÝ Tomáš
Akad. rok	2021/2022
Zadávající pracoviště	KKY
Datum obhajoby	22. 6. 2022
Typ práce	diplomová
Stav práce	Dokončená práce s úspěšnou obhajobou (DUO).
Úplnost vyplnění požadovaných údajů	- Všechny požadované údaje o této VŠKP jsou vyplněny.
Hlavní téma	Popis obrázků pomocí metod hlubokého učení
Hlavní téma v angličtině	Image captioning using deep learning
Název dle studenta	Image Captioning using Deep Learning
Název dle studenta v angličtině	Image Captioning using Deep Learning
Souběžný název	-
Podnázev	-
Vedoucí	Hrúz Marek, Ing. Ph.D.
Oponent	Vyskočil Jiří, Ing.
Anotace	V této práci se zabývám technikou automatického popisu obrázků, založenou na existující metodě Oscar. Pomocí detekční sítě Faster-R-CNN vhodně předzpracovávám obrázky tak, aby mohly být dále použity metodou Oscar. Spojením těchto dvou metod vytvářím systém, který umožňuje vygenerování popisku pro libovolný obrázek. Tento systém je poté vyhodnocen na metrikách BLEU-4: 0.312, METEOR: 0.272, CIDEr: 1.02, a SPICE: 0.201, což je pokles oproti původním. V práci se tak dále zabývám důvody, které k tomu vedly. V rámci ablační studie se věnuji zkoumání závislosti jednotlivých modalit metody Oscar. Výsledky experimentu naznačují že Oscar je závislý na obou modalitách, vizuální modalita převažuje. V závěru práce diskutuji různé případy chování mého popisovacího systému, kdy měl generovat popisky k obrázkům s pro něj neznámými objekty.
Anotace v angličtině	In this work, I discuss an automatic image captioning technique based on an existing method Oscar. Using a Faster-R-CNN detection network, I pre-process the images so that they can be further used by Oscar. By combining these two methods, I create a pipeline that allows me to generate a caption for any image. I evaluate its performance using metrics BLEU-4: 0.312, METEOR: 0.272, CIDEr: 1.02, and SPICE: 0.201, which is a drop from the original performance. Thus, I further discuss the causes in this work. Within the ablation study, I investigate the impact of individual modalities of Oscar. The results of the experiment suggest that Oscar is dependent on both modalities, with the visual modality. In the end, I discuss the interesting cases of the behavior when the pipeline is supposed to generate captions for images with objects unknown to it.
Klíčová slova	Popis obrázků, hluboké učení, počítačové vidění, strojové učení, detekce objektů
Klíčová slova v angličtině	Image captioning, deep learning, computer vision, machine learning, object detection
Rozsah průvodní práce	45
Jazyk	AN
V této práci se zabývám technikou automatického popisu obrázků, založenou na existující metodě Oscar. Pomocí detekční sítě Faster-R-CNN vhodně předzpracovávám obrázky tak, aby mohly být dále použity metodou Oscar. Spojením těchto dvou metod vytvářím systém, který umožňuje vygenerování popisku pro libovolný obrázek. Tento systém je poté vyhodnocen na metrikách BLEU-4: 0.312, METEOR: 0.272, CIDEr: 1.02, a SPICE: 0.201, což je pokles oproti původním. V práci se tak dále zabývám důvody, které k tomu vedly. V rámci ablační studie se věnuji zkoumání závislosti jednotlivých modalit metody Oscar. Výsledky experimentu naznačují že Oscar je závislý na obou modalitách, vizuální modalita převažuje. V závěru práce diskutuji různé případy chování mého popisovacího systému, kdy měl generovat popisky k obrázkům s pro něj neznámými objekty.
Anotace v angličtině
In this work, I discuss an automatic image captioning technique based on an existing method Oscar. Using a Faster-R-CNN detection network, I pre-process the images so that they can be further used by Oscar. By combining these two methods, I create a pipeline that allows me to generate a caption for any image. I evaluate its performance using metrics BLEU-4: 0.312, METEOR: 0.272, CIDEr: 1.02, and SPICE: 0.201, which is a drop from the original performance. Thus, I further discuss the causes in this work. Within the ablation study, I investigate the impact of individual modalities of Oscar. The results of the experiment suggest that Oscar is dependent on both modalities, with the visual modality. In the end, I discuss the interesting cases of the behavior when the pipeline is supposed to generate captions for images with objects unknown to it.
Klíčová slova
Popis obrázků, hluboké učení, počítačové vidění, strojové učení, detekce objektů
Klíčová slova v angličtině
Image captioning, deep learning, computer vision, machine learning, object detection
Zásady pro vypracování	Seznamte se s metodami popisu obrázků - tzv. image captioning. Zvolte vhodnou metodu a implementujte ji. Otestujte tuto metodu na standardní datové sadě. Shrňte dosažené výsledky, případně navrhněte vylepšení.
Zásady pro vypracování
Seznamte se s metodami popisu obrázků - tzv. image captioning. Zvolte vhodnou metodu a implementujte ji. Otestujte tuto metodu na standardní datové sadě. Shrňte dosažené výsledky, případně navrhněte vylepšení.
Seznam doporučené literatury	Li, X., Yin, X., Li, C., Zhang, P., Hu, X., Zhang, L., ... & Gao, J. (2020, August). Oscar: Object-semantics aligned pre-training for vision-language tasks. In European Conference on Computer Vision (pp. 121-137). Springer, Cham. Cui, Y., Yang, G., Veit, A., Huang, X., & Belongie, S. (2018). Learning to evaluate image captioning. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 5804-5812).
Seznam doporučené literatury
Li, X., Yin, X., Li, C., Zhang, P., Hu, X., Zhang, L., ... & Gao, J. (2020, August). Oscar: Object-semantics aligned pre-training for vision-language tasks. In European Conference on Computer Vision (pp. 121-137). Springer, Cham. Cui, Y., Yang, G., Veit, A., Huang, X., & Belongie, S. (2018). Learning to evaluate image captioning. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 5804-5812).
Přílohy volně vložené	-
Přílohy vázané v práci	-
Převzato z knihovny	Ano
Plný text práce
Hodnocení z obhajoby práce	Výborně
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby	-
Soubor s průběhem obhajoby

Prohlížení - Portál ZČU

Navigace první úrovně

Navigace druhé úrovně

Prohlížení (S025)

Hlavní nabídka Prohlížení IS/STAG

Najít Kvalifikační práce

Nalezené termíny, počet: 1

Stránkování výsledků vyhledávání

Informace o kvalifikační práci Image Captioning using Deep Learning