Diplomová práce se zabývá problematikou velkých dat v biologii. Představuje termín velkých dat a nabízí přehled významných biologických databází. U těchto databází popisuje reprezentaci uložených dat a přístupy, kterými lze data získat. Dále práce obsahuje informace o některých metodách, které lze využít k analýze velkých dat v oblasti komparativní genomiky. Práce představuje současná paradigmata zpracování velkých dat a popisuje jednotlivé nástroje, které lze ke zpracování dat využívat. Tyto nástroje jsou v práci srovnány a některé z nich následně používány pro provádění experimentů týkajících se klasifikace variant lidského genomu podle etnicity.
Klasifikace byla provedena nástrojem KNIME samostatně a také v kombinaci s Apache Sparkem. Provedené experimenty ukázaly, že optimálního zpracování velkých biologických dat lze dosáhnout distribuovaným zpracováním ve frameworku Apache Spark. Výsledky práce lze aplikovat na existující projekty. Bylo navrženo řešení pro analýzu velkých elektrofyziologických dat uložených v EEG/ERP Portálu.
Annotation in English
This master thesis focuses on Big Data analytics in biology. After introducing this term, it provides an overview of important biological databases and describes a representation of stored data and approaches that can be used to obtain them. The thesis also contains the brief description of used methods for analysis of Big Data in comparative genomics. The thesis introduces current paradigms of processing Big Data, describes tools used for analytics and compares them. Some of these tools are then used for the classification variants of human genomes by ethnicity.
The classification was done using KNIME as a standalone tool and in combination with Apache Spark. The experiments showed that distributed processing of big data in framework Apache Spark was optimal. Results can be applied on existing projects. This thesis also proposes a solution for analysis of the big data stored in the EEG/ERP Portal.
Keywords
velká data, biologické databáze, KNIME, Apache Spark
Keywords in English
Big Data, biological databases, KNIME, Apache Spark
Length of the covering note
85 s.
Language
CZ
Annotation
Diplomová práce se zabývá problematikou velkých dat v biologii. Představuje termín velkých dat a nabízí přehled významných biologických databází. U těchto databází popisuje reprezentaci uložených dat a přístupy, kterými lze data získat. Dále práce obsahuje informace o některých metodách, které lze využít k analýze velkých dat v oblasti komparativní genomiky. Práce představuje současná paradigmata zpracování velkých dat a popisuje jednotlivé nástroje, které lze ke zpracování dat využívat. Tyto nástroje jsou v práci srovnány a některé z nich následně používány pro provádění experimentů týkajících se klasifikace variant lidského genomu podle etnicity.
Klasifikace byla provedena nástrojem KNIME samostatně a také v kombinaci s Apache Sparkem. Provedené experimenty ukázaly, že optimálního zpracování velkých biologických dat lze dosáhnout distribuovaným zpracováním ve frameworku Apache Spark. Výsledky práce lze aplikovat na existující projekty. Bylo navrženo řešení pro analýzu velkých elektrofyziologických dat uložených v EEG/ERP Portálu.
Annotation in English
This master thesis focuses on Big Data analytics in biology. After introducing this term, it provides an overview of important biological databases and describes a representation of stored data and approaches that can be used to obtain them. The thesis also contains the brief description of used methods for analysis of Big Data in comparative genomics. The thesis introduces current paradigms of processing Big Data, describes tools used for analytics and compares them. Some of these tools are then used for the classification variants of human genomes by ethnicity.
The classification was done using KNIME as a standalone tool and in combination with Apache Spark. The experiments showed that distributed processing of big data in framework Apache Spark was optimal. Results can be applied on existing projects. This thesis also proposes a solution for analysis of the big data stored in the EEG/ERP Portal.
Keywords
velká data, biologické databáze, KNIME, Apache Spark
Keywords in English
Big Data, biological databases, KNIME, Apache Spark
Research Plan
Prostudujte a popište základní myšlenky konceptu velkých dat.
Prostudujte volně dostupné databáze velkých (nejlépe biologických) dat a vyberte vhodnou databázi pro provádění následných experimentů.
Prostudujte a popište analytické metody a techniky vhodné pro analýzu velkých dat, vyberte metody a techniky vhodné pro vybranou doménu (databázi), výběr zdůvodněte.
Prostudujte a popište vhodné nástroje využitelné pro analýzu vybraných velkých dat.
S využitím dostupných nástrojů (bod 4) aplikujte vybrané metody (bod 3) na vybraná velká data (bod 2), tyto případy užití pečlivě vyberte a zdokumentujte.
Kriticky zhodnoťte získané výsledky.
Research Plan
Prostudujte a popište základní myšlenky konceptu velkých dat.
Prostudujte volně dostupné databáze velkých (nejlépe biologických) dat a vyberte vhodnou databázi pro provádění následných experimentů.
Prostudujte a popište analytické metody a techniky vhodné pro analýzu velkých dat, vyberte metody a techniky vhodné pro vybranou doménu (databázi), výběr zdůvodněte.
Prostudujte a popište vhodné nástroje využitelné pro analýzu vybraných velkých dat.
S využitím dostupných nástrojů (bod 4) aplikujte vybrané metody (bod 3) na vybraná velká data (bod 2), tyto případy užití pečlivě vyberte a zdokumentujte.