Diplomová práce se zabývá úlohou rozpoznávání činností z videonahrávek. Pro řešení této úlohy byla zvolena metoda I3D, která transformuje konvoluční neuronovou síť tak, aby mohla pracovat s časo-prostorovými informacemi uloženými ve videích. Jako backbone pro I3D byl zvolen model ResNet50. V práci budou prováděny experimenty s datasetem HAA500, na který budou aplikovány metodiky předzpracování videa pomocí segmentace a optického toku. Modely natrénované na odlišných datech se v závěru práce budou mezi sebou porovnávat.
Anotace v angličtině
This work deals with the task of action recognition from video recordings. The I3D method was chosen to solve this task. This metod inflates convolutional neural networks so that they can work with spatio-temporal information stored in videos. The ResNet50 model was chosen as the backbone for I3D. Experiments in this work will be conducted with the HAA500 dataset. On this dataset will be applied video preprocessing methodologies using segmentation and optical flow. The models trained on different data will be compared with each other at the end of the research work.
Diplomová práce se zabývá úlohou rozpoznávání činností z videonahrávek. Pro řešení této úlohy byla zvolena metoda I3D, která transformuje konvoluční neuronovou síť tak, aby mohla pracovat s časo-prostorovými informacemi uloženými ve videích. Jako backbone pro I3D byl zvolen model ResNet50. V práci budou prováděny experimenty s datasetem HAA500, na který budou aplikovány metodiky předzpracování videa pomocí segmentace a optického toku. Modely natrénované na odlišných datech se v závěru práce budou mezi sebou porovnávat.
Anotace v angličtině
This work deals with the task of action recognition from video recordings. The I3D method was chosen to solve this task. This metod inflates convolutional neural networks so that they can work with spatio-temporal information stored in videos. The ResNet50 model was chosen as the backbone for I3D. Experiments in this work will be conducted with the HAA500 dataset. On this dataset will be applied video preprocessing methodologies using segmentation and optical flow. The models trained on different data will be compared with each other at the end of the research work.