Hodnota správné informace je nedocenitelná a tato informace musí být nějak nalezena. Tato práce se zaobírá principy a metodami vyhledávání textu v rozsáhlých zdrojích. Typicky jde o fulltextové vyhledávání v indexovaných zdrojích. Obsahuje stručný teoretický základ, vhodný k pochopení běžných principů, na kterých je fulltextové vyhledávání založeno, jako například struktury indexovaných zdrojů, metody vyhledávání v těchto zdrojích apod. Ve druhé části práce je popsána konkrétní aplikace fulltextového vyhledávače založeného na open-source řešení. Demonstrace je založena na populární knihovně Apache Lucene. Popisuje stěžejní objekty knihovny a způsoby, jakými se provádí konkrétní věci potřebné během vyhledávání. Oproti implementaci obyčejného vyhledávače obsahuje práce navíc popisy vylepšení na lexikální úrovni, jako je využití stemmování či pojmenovaných entit při vyhledávání. Po přečtení práce by měl čtenář nabýt dostatečných znalostí k tomu, aby implementoval svůj fulltextový vyhledávač.
Anotace v angličtině
Power of right information is enormous and information needs to be find somehow. This thesis contains principles and methods used in fulltext searching in large collections of data. Contents quick theory overview, useful for better understanding of common basics of fulltext searching problem, such as index structures or search methods within these indexes. Other part describes how to apply these knowledges into real application based on open-source solution. For these purposes was chosen popular library called Apache Lucene. Important objects from library are mentioned as well as implementation of search basics with Lucene library. Against "simple" fulltext search application, this one tries to use lexical analysis (like stemming or named entity) to improve search result. After you read this thesis, you might have sufficient knowledge to implement your own fulltext search application based on Lucene.
searching, indexing, stemming, information retrieval, apache lucene, named entities
Rozsah průvodní práce
50 s. (73800 zn.), příl. 16 s.
Jazyk
CZ
Anotace
Hodnota správné informace je nedocenitelná a tato informace musí být nějak nalezena. Tato práce se zaobírá principy a metodami vyhledávání textu v rozsáhlých zdrojích. Typicky jde o fulltextové vyhledávání v indexovaných zdrojích. Obsahuje stručný teoretický základ, vhodný k pochopení běžných principů, na kterých je fulltextové vyhledávání založeno, jako například struktury indexovaných zdrojů, metody vyhledávání v těchto zdrojích apod. Ve druhé části práce je popsána konkrétní aplikace fulltextového vyhledávače založeného na open-source řešení. Demonstrace je založena na populární knihovně Apache Lucene. Popisuje stěžejní objekty knihovny a způsoby, jakými se provádí konkrétní věci potřebné během vyhledávání. Oproti implementaci obyčejného vyhledávače obsahuje práce navíc popisy vylepšení na lexikální úrovni, jako je využití stemmování či pojmenovaných entit při vyhledávání. Po přečtení práce by měl čtenář nabýt dostatečných znalostí k tomu, aby implementoval svůj fulltextový vyhledávač.
Anotace v angličtině
Power of right information is enormous and information needs to be find somehow. This thesis contains principles and methods used in fulltext searching in large collections of data. Contents quick theory overview, useful for better understanding of common basics of fulltext searching problem, such as index structures or search methods within these indexes. Other part describes how to apply these knowledges into real application based on open-source solution. For these purposes was chosen popular library called Apache Lucene. Important objects from library are mentioned as well as implementation of search basics with Lucene library. Against "simple" fulltext search application, this one tries to use lexical analysis (like stemming or named entity) to improve search result. After you read this thesis, you might have sufficient knowledge to implement your own fulltext search application based on Lucene.
searching, indexing, stemming, information retrieval, apache lucene, named entities
Zásady pro vypracování
Prostudujte literaturu k problematice indexovaného vyhledávání. Nastudujte vyhledávací modely i způsoby organizace indexu. Seznamte se s existujícími projekty pro indexované vyhledávání.
Analyzujte dodaná data od vedoucího práce určená k indexování a vyhledávání.
Zjistěte možnosti indexování a vyhledávání textových dat obohacených o sémantické informace a meta informace (např. pojmenované entity, téma, tag, datum indexace, jazyk textu atp.).
Navrhněte a implementujte systém pro indexované vyhledávání nad dodanými daty obohacenými o sémantické informace a meta informace. Je žádoucí, pokud bude systém vycházet z existujícího volně dostupného řešení.
Otestujte úspěšnost vyhledávání ve vytvořeném systému a navrhněte další vylepšení.
Zásady pro vypracování
Prostudujte literaturu k problematice indexovaného vyhledávání. Nastudujte vyhledávací modely i způsoby organizace indexu. Seznamte se s existujícími projekty pro indexované vyhledávání.
Analyzujte dodaná data od vedoucího práce určená k indexování a vyhledávání.
Zjistěte možnosti indexování a vyhledávání textových dat obohacených o sémantické informace a meta informace (např. pojmenované entity, téma, tag, datum indexace, jazyk textu atp.).
Navrhněte a implementujte systém pro indexované vyhledávání nad dodanými daty obohacenými o sémantické informace a meta informace. Je žádoucí, pokud bude systém vycházet z existujícího volně dostupného řešení.
Otestujte úspěšnost vyhledávání ve vytvořeném systému a navrhněte další vylepšení.