dc.contributor.advisor | Platoš, Jan | |
dc.contributor.author | Mikula, Martin | |
dc.date.accessioned | 2019-06-26T04:33:33Z | |
dc.date.available | 2019-06-26T04:33:33Z | |
dc.date.issued | 2019 | |
dc.identifier.other | OSD002 | |
dc.identifier.uri | http://hdl.handle.net/10084/136261 | |
dc.description.abstract | Cílem této diplomové práce je zdokumentovat možnosti zpracování dat Wikipedie. V první části popisuje způsob, jak tato data získat, zpracovat a uložit pro další analýzu. Přitom je na databázi nahlíženo jako na síť a zaměření je na provázání stránek mezi sebou pomocí odkazů.
Samotná analýza probíhá v prostředí Python. Práce popisuje, jak vytvořit graf a jak nad tímto grafem spočítat základní vlastnosti a metriky. Dále je zdokumentován postup hledání komunit v grafu včetně vlastní implementace algoritmu Label Propagation. Prezentovány jsou výsledky jednotlivých kroků. | cs |
dc.description.abstract | Goal of this master thesis is to describe options of how to process data from Wikipedia. First part is about how to get the data, process them and save for further analysis. The database is viewed as a network, so it's focused on pages and their connections through links.
The analysis is made in Python environment. Thesis describes how to create a graph and how to calculate his basic properties an metrices. It further documents the procedure of finding the communities, including custom implementation of Label Propagation algorithm. Presented are results of each step. | en |
dc.format.extent | 12172018 bytes | |
dc.format.mimetype | application/pdf | |
dc.language.iso | cs | |
dc.publisher | Vysoká škola báňská - Technická univerzita Ostrava | cs |
dc.subject | Wikipedie | cs |
dc.subject | analýza dat | cs |
dc.subject | zpracování dat | cs |
dc.subject | C# | cs |
dc.subject | Python | cs |
dc.subject | siť | cs |
dc.subject | graf | cs |
dc.subject | CSR | cs |
dc.subject | NetworkX | cs |
dc.subject | Gephi | cs |
dc.subject | word cloud | cs |
dc.subject | Wikipedia | en |
dc.subject | data analysis | en |
dc.subject | data processing | en |
dc.subject | C# | en |
dc.subject | Python | en |
dc.subject | network | en |
dc.subject | graph | en |
dc.subject | CSR | en |
dc.subject | NetworkX | en |
dc.subject | word cloud | en |
dc.title | Zpracování dat s Wikipedie | cs |
dc.title.alternative | Wikipedia Data Processing | en |
dc.type | Diplomová práce | cs |
dc.contributor.referee | Dráždilová, Pavla | |
dc.date.accepted | 2019-05-29 | |
dc.thesis.degree-name | Ing. | |
dc.thesis.degree-level | Magisterský studijní program | cs |
dc.thesis.degree-grantor | Vysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky | cs |
dc.description.department | 460 - Katedra informatiky | cs |
dc.thesis.degree-program | Informační a komunikační technologie | cs |
dc.thesis.degree-branch | Informatika a výpočetní technika | cs |
dc.description.result | velmi dobře | cs |
dc.identifier.sender | S2724 | |
dc.identifier.thesis | MIK0095_FEI_N2647_2612T025_2019 | |
dc.rights.access | openAccess | |