dc.contributor.advisor | Tvrdíková, Milena | cs |
dc.contributor.author | Derján, Lukáš | cs |
dc.date.accessioned | 2015-07-22T09:08:32Z | |
dc.date.available | 2015-07-22T09:08:32Z | |
dc.date.issued | 2015 | cs |
dc.identifier.other | OSD002 | cs |
dc.identifier.uri | http://hdl.handle.net/10084/107001 | |
dc.description | Import 22/07/2015 | cs |
dc.description.abstract | V rámci diplomové práce je analyzována práce s velkoobjemovými a nestrukturovanými daty, neboli Big Data. Čtenáři je objasněna architektura Big Data orientovaného řešení a její srovnání s tradiční architekturou Business Intelligence. Právě tradiční Business Intelligence nástroje a řešení stále nejsou technologicky připraveny pro zpracování Big Data, což dalo za vznik jak novým přístupům v paralelním zpracování dat, tak vzniku nových, Big Data orientovaných, technologií. Důležitou roli ve spojení s Big Data hraje datová analytika. Pomocí relevantních analýz mohou organizace získat více informací o svých zákaznících, odhalit v datech skryté souvislosti a zvýšit tak své zisky i věrnost zákazníků.
Platformou, která je technologicky připravená pro zpracování a analýzu Big Data, je Apache Hadoop. Tato platforma je více přiblížena nejen v teoretické části, kde je i je definován pojem Big Data a problematika paralelního zpracování dat, ale i v rámci části praktické, kdy platforma slouží pro analytické zpracování vybraného datového souboru. Diplomová práce tak popisuje základní rysy programového frameworku MapReduce i distribuovaného souborového systému HDFS, dohromady tvořící implementaci Hadoop.
Z hlediska uplatnitelnosti se tedy jedná o implementaci analytické úlohy dle zákaznických požadavků s reálným výstupem. Stále vyšší počet nasazení analytických platforem nad stávajícími BI řešeními v organizacích a stále narůstající objem veřejně dostupných dat, je pak ze sociálního hlediska potenciálně problematická oblast, která dříve, či později narazí na bariéry osobního soukromí.
Praktická část práce vychází ze zadání projektu zákaznické společnosti, v rámci které byla vypracovávána. Projekt je zaměřen na zjištění vhodnosti Big Data platformy Hadoop pro spouštění analytických úloh nad relativně malými soubory. K ověření vhodnosti sloužila analýza n-gramů v rámci vybraného datového souboru, kdy byla využita kromě klasického MapReduce frameworku i in-memory řešení Spark a TEZ. Závěry diplomové práce pak sloužily jako vstup pro podporu dalšího rozhodování ohledně budování Big Data architektury v rámci organizace a nutných transformací stávajících BI řešení pro platformu Hadoop. | cs |
dc.description.abstract | The diploma thesis focuses on analysing the way of working and processing the high-volume unstructured datasets, called Big Data. Reader will find out more about the architecture of Big Data-oriented solutions and its comparison with the traditional architecture of Business Intelligence solutions (BI). Now traditional Business Intelligence tools and solutions are still not technologically ready for processing Big Data. This has led into emergence of new approaches to parallel data processing and the new Big Data-oriented, technologies. Data analytics is playing an important role when talking about the Big Data. If using relevant analysis, organizations can get more information about their customers, uncover hidden relationships in data and increase their profits and customers loyalty.
There is a platform that is technologically ready for processing and analysing Big Data. The Apache Hadoop. This platform is more described within the theoretical part, where the terms of Big Data and parallel data processing are explained, as well as in practical part of the diploma thesis, where the platform is used for analytical processing of the pre-selected data file. Thus basic features of a programming framework MapReduce and a distributed file system HDFS (together forming the Hadoop implementation) are explained.
In terms of applicability the implementation of analytical tasks according to customer requirements is the real outcome. An increasing number of analytical platforms deployment on top of existing BI solutions in organizations and the ever-increasing volume of publicly available data, is then in social terms, a potentially problematic area that sooner or later hit the barriers personal privacy.
The practical part of the thesis is based on the project requirements from the client company. The project is focused on finding the suitability of Big Data Hadoop platform for running analytical tasks over the relatively small datasets. To verify the suitability the n-gram analysis was used the selected data file. MapReduce framework as well as in-memory solutions Spark and TEZ has been used as the engines within the Hadoop platform. The conclusions of the thesis has been used as input for further decisions making regarding building the Big Data architecture within the organization and evaluation necessary transformation of existing BI solution for Hadoop platform. | en |
dc.format.extent | 2993836 bytes | cs |
dc.format.mimetype | application/pdf | cs |
dc.language.iso | cs | cs |
dc.publisher | Vysoká škola báňská - Technická univerzita Ostrava | cs |
dc.subject | Big Data | cs |
dc.subject | Apache Hadoop | cs |
dc.subject | Datová analytika | cs |
dc.subject | Paralelní zpracování dat | cs |
dc.subject | Business Intelligence | cs |
dc.subject | n-gram analýza | cs |
dc.subject | in-memory řešení | cs |
dc.subject | Hive | cs |
dc.subject | MapReduce | cs |
dc.subject | Spark | cs |
dc.subject | TEZ | cs |
dc.subject | Big Data | en |
dc.subject | Apache Hadoop | en |
dc.subject | Data analysis | en |
dc.subject | Parallel data processing | en |
dc.subject | Business Intelligence | en |
dc.subject | n-gram analysis | en |
dc.subject | in-memory solutions | en |
dc.subject | Hive | en |
dc.subject | MapReduce | en |
dc.subject | Spark | en |
dc.subject | TEZ | en |
dc.title | Paralelní zpracování dat a možnosti datové analytiky v rámci Big Data | cs |
dc.title.alternative | Parallel Data Processing and the Possibilities of Data Analytics within the Big Data Concept | en |
dc.type | Diplomová práce | cs |
dc.contributor.referee | Dragolov, Daniel | cs |
dc.date.accepted | 2015-06-02 | cs |
dc.thesis.degree-name | Ing. | cs |
dc.thesis.degree-level | Magisterský studijní program | cs |
dc.thesis.degree-grantor | Vysoká škola báňská - Technická univerzita Ostrava. Ekonomická fakulta | cs |
dc.description.department | 155 - Katedra aplikované informatiky | cs |
dc.thesis.degree-program | Systémové inženýrství a informatika | cs |
dc.thesis.degree-branch | Systémové inženýrství a informatika | cs |
dc.description.result | výborně | cs |
dc.identifier.sender | S2751 | cs |
dc.identifier.thesis | DER0007_EKF_N6209_6209T025_2015 | |
dc.rights.access | openAccess | |