Algoritmus PageRank patří mezi úspěšně používané algoritmy umožňující řazení uzlů sítě na základě vstupních hran a významnosti uzlů, ze kterých tyto hrany vedou. Používán je například v interne-tových vyhledavačích (např. Google.com), kde se vedle fulltextového vyhledávání podílí na řazení výsledků hledání, a již několikrát byl též úspěšně uplatněn při vyhodnocování informačních sítí. Klasický algoritmus PageRank byl navržen pro vyhodnocování webové sítě, kde uzly představují webové stránky a hrany reprezentují hypertextové odkazy mezi nimi, přičemž z uzlu může vést do jiného uzlu maximálně jedna hrana (tj. hrana pouze říká, že z první webové stránky na druhou existuje hypertextový odkaz, ale neříká, kolik odkazů).
Tato práce rozšiřuje algoritmus PageRank tak, aby uvažoval množství hran vedoucích z jednoho uzlu do druhého (tj. aby hrany vyjadřovaly např. množství hyper-textových odkazů vedoucích z první webové stránky na druhou) a též rozšiřuje algoritmus PageRank tak, aby se zamezilo ubývání hodnoty součtu PageRanku všech uzlů sítě způsobené vlivem ubývání hodnoty PageRanku v uzlech bez výstupních hran.
Tato práce poté využívá těchto algoritmů PageRank pro vyhodnocování infor-mačních sítí (sítí citací a sítí spolupráce) za účelem získání pořadí autorů a afiliací na základě vzájemného citování a vzájemné spolupráce (spoluautorství). Též jsou v práci ukázány metody pro porovnání výsledných řazení (tzv. koeficienty korelace) a výsledná pořadí autorů jsou srovnána s vítězi každoročně udílené ceny - E. F. Codd Innovations Award.
Annotation in English
PageRank algorithm is one of the successfully used algorithms for ranking nodes based on the in-links and the significance of nodes from which the in-links lead. Used in Internet search engines (e.g. Google.com), where it, in addition to the full-text search, participates in sorting of search results, and it has already been successfully applied in the evaluation of information networks. The classic PageRank algorithm was designed to evaluate web network where nodes represent Web-sites and edges represent hyperlinks between them. However, there can be only one edge leading from one node to the other. (i.e. edge only says that there is a hyperlink reference but does not say how many hyperlinks).
This thesis extends the PageRank algorithm to cover the amount of edges leading from one node to the other node (i.e. so that the edges express e.g. amount of hyperlinks leading from the first Web-site to the other Web-site). It also extends the PageRank algorithm to avoid the loss of the value which represents the sum of PageRank of all nodes in the network. It is caused by nodes with no out-links.
This thesis uses modified PageRank algorithms for the evaluation of information networks (citation networks and cooperation networks) in order to obtain the sequence of authors and affiliations based on mutual citation and mutual cooperation (co-authorship). In this thesis are also presented methods comparing the final sortings (the correlation coefficients). The final sequences of authors are compared with the winners of annual award - E. F. Codd Innovations Award.
PageRank, citation analysis, cooperation analysis, rankings, evaluation, modification of PageRank, PageRank without danglings, PageRank with the amount of edges, CiteSeer, DBLP, correlation coefficients.
Length of the covering note
92 s.
Language
CZ
Annotation
Algoritmus PageRank patří mezi úspěšně používané algoritmy umožňující řazení uzlů sítě na základě vstupních hran a významnosti uzlů, ze kterých tyto hrany vedou. Používán je například v interne-tových vyhledavačích (např. Google.com), kde se vedle fulltextového vyhledávání podílí na řazení výsledků hledání, a již několikrát byl též úspěšně uplatněn při vyhodnocování informačních sítí. Klasický algoritmus PageRank byl navržen pro vyhodnocování webové sítě, kde uzly představují webové stránky a hrany reprezentují hypertextové odkazy mezi nimi, přičemž z uzlu může vést do jiného uzlu maximálně jedna hrana (tj. hrana pouze říká, že z první webové stránky na druhou existuje hypertextový odkaz, ale neříká, kolik odkazů).
Tato práce rozšiřuje algoritmus PageRank tak, aby uvažoval množství hran vedoucích z jednoho uzlu do druhého (tj. aby hrany vyjadřovaly např. množství hyper-textových odkazů vedoucích z první webové stránky na druhou) a též rozšiřuje algoritmus PageRank tak, aby se zamezilo ubývání hodnoty součtu PageRanku všech uzlů sítě způsobené vlivem ubývání hodnoty PageRanku v uzlech bez výstupních hran.
Tato práce poté využívá těchto algoritmů PageRank pro vyhodnocování infor-mačních sítí (sítí citací a sítí spolupráce) za účelem získání pořadí autorů a afiliací na základě vzájemného citování a vzájemné spolupráce (spoluautorství). Též jsou v práci ukázány metody pro porovnání výsledných řazení (tzv. koeficienty korelace) a výsledná pořadí autorů jsou srovnána s vítězi každoročně udílené ceny - E. F. Codd Innovations Award.
Annotation in English
PageRank algorithm is one of the successfully used algorithms for ranking nodes based on the in-links and the significance of nodes from which the in-links lead. Used in Internet search engines (e.g. Google.com), where it, in addition to the full-text search, participates in sorting of search results, and it has already been successfully applied in the evaluation of information networks. The classic PageRank algorithm was designed to evaluate web network where nodes represent Web-sites and edges represent hyperlinks between them. However, there can be only one edge leading from one node to the other. (i.e. edge only says that there is a hyperlink reference but does not say how many hyperlinks).
This thesis extends the PageRank algorithm to cover the amount of edges leading from one node to the other node (i.e. so that the edges express e.g. amount of hyperlinks leading from the first Web-site to the other Web-site). It also extends the PageRank algorithm to avoid the loss of the value which represents the sum of PageRank of all nodes in the network. It is caused by nodes with no out-links.
This thesis uses modified PageRank algorithms for the evaluation of information networks (citation networks and cooperation networks) in order to obtain the sequence of authors and affiliations based on mutual citation and mutual cooperation (co-authorship). In this thesis are also presented methods comparing the final sortings (the correlation coefficients). The final sequences of authors are compared with the winners of annual award - E. F. Codd Innovations Award.
PageRank, citation analysis, cooperation analysis, rankings, evaluation, modification of PageRank, PageRank without danglings, PageRank with the amount of edges, CiteSeer, DBLP, correlation coefficients.
Research Plan
Seznamte se s metodou PageRank pro výpočet významnosti Web stránek systému Google.
Vytvořte zkušební kolekci článků a jí odpovídající grafy citací a spoluautorství. Zjistěte základní charakteristiky grafů.
Následně na získané grafy aplikujte PageRank a vyhodnoťte významnost autorů.
Research Plan
Seznamte se s metodou PageRank pro výpočet významnosti Web stránek systému Google.
Vytvořte zkušební kolekci článků a jí odpovídající grafy citací a spoluautorství. Zjistěte základní charakteristiky grafů.
Následně na získané grafy aplikujte PageRank a vyhodnoťte významnost autorů.