V teoretické části práce je představena obecná teorie dopředných, rekurentních a konvolučních neuronových sítí. Následuje podrobný popis Transformer architektury, použitých modelů a datasetů pro detekci objektů. V praktické části práce byla navržena architektura modelu pro detekci objektů v obrazu s využitím textových dotazů. Dotazy mohly být jednoslovné nebo ve formě vět. Pro obě varianty bylo natrénováno několik modelů s různými kombinacemi parametrů. Na závěr byly tyto modely vyhodnoceny a byla navržena některá vylepšení.
Anotace v angličtině
In the theoretical part of the thesis, the general theory of feedforward, recurrent and convolutional neural networks is presented. This is followed by a detailed description of the Transformer architecture, important models and datasets used for object detection. In the practical part of the thesis, a model architecture has been proposed for object detection using textual queries. The queries could be a single word or in the form of sentences. For both variants, several models were trained with different parameter combinations. Lastly, these models were evaluated and improvements were proposed.
Klíčová slova
neuronové sítě, Transformer, BERT, RoBERTa, Vision Transformer, transfer learning, COCO, detekce objektů, textové dotazy, detekce objektů s využitím textových dotazů
Klíčová slova v angličtině
neural networks, Transformer, BERT, RoBERTa, Vision Transformer, transfer learning, COCO, object detection, textual queries, object detection using textual queries
Rozsah průvodní práce
49 s. (80000 znaků).
Jazyk
CZ
Anotace
V teoretické části práce je představena obecná teorie dopředných, rekurentních a konvolučních neuronových sítí. Následuje podrobný popis Transformer architektury, použitých modelů a datasetů pro detekci objektů. V praktické části práce byla navržena architektura modelu pro detekci objektů v obrazu s využitím textových dotazů. Dotazy mohly být jednoslovné nebo ve formě vět. Pro obě varianty bylo natrénováno několik modelů s různými kombinacemi parametrů. Na závěr byly tyto modely vyhodnoceny a byla navržena některá vylepšení.
Anotace v angličtině
In the theoretical part of the thesis, the general theory of feedforward, recurrent and convolutional neural networks is presented. This is followed by a detailed description of the Transformer architecture, important models and datasets used for object detection. In the practical part of the thesis, a model architecture has been proposed for object detection using textual queries. The queries could be a single word or in the form of sentences. For both variants, several models were trained with different parameter combinations. Lastly, these models were evaluated and improvements were proposed.
Klíčová slova
neuronové sítě, Transformer, BERT, RoBERTa, Vision Transformer, transfer learning, COCO, detekce objektů, textové dotazy, detekce objektů s využitím textových dotazů
Klíčová slova v angličtině
neural networks, Transformer, BERT, RoBERTa, Vision Transformer, transfer learning, COCO, object detection, textual queries, object detection using textual queries