Paralelní zpracování dat a možnosti datové analytiky v rámci Big Data

Derján, Lukáš

dc.contributor.advisor	Tvrdíková, Milena	cs
dc.contributor.author	Derján, Lukáš	cs
dc.date.accessioned	2015-07-22T09:08:32Z
dc.date.available	2015-07-22T09:08:32Z
dc.date.issued	2015	cs
dc.identifier.other	OSD002	cs
dc.identifier.uri	http://hdl.handle.net/10084/107001
dc.description	Import 22/07/2015	cs
dc.description.abstract	V rámci diplomové práce je analyzována práce s velkoobjemovými a nestrukturovanými daty, neboli Big Data. Čtenáři je objasněna architektura Big Data orientovaného řešení a její srovnání s tradiční architekturou Business Intelligence. Právě tradiční Business Intelligence nástroje a řešení stále nejsou technologicky připraveny pro zpracování Big Data, což dalo za vznik jak novým přístupům v paralelním zpracování dat, tak vzniku nových, Big Data orientovaných, technologií. Důležitou roli ve spojení s Big Data hraje datová analytika. Pomocí relevantních analýz mohou organizace získat více informací o svých zákaznících, odhalit v datech skryté souvislosti a zvýšit tak své zisky i věrnost zákazníků. Platformou, která je technologicky připravená pro zpracování a analýzu Big Data, je Apache Hadoop. Tato platforma je více přiblížena nejen v teoretické části, kde je i je definován pojem Big Data a problematika paralelního zpracování dat, ale i v rámci části praktické, kdy platforma slouží pro analytické zpracování vybraného datového souboru. Diplomová práce tak popisuje základní rysy programového frameworku MapReduce i distribuovaného souborového systému HDFS, dohromady tvořící implementaci Hadoop. Z hlediska uplatnitelnosti se tedy jedná o implementaci analytické úlohy dle zákaznických požadavků s reálným výstupem. Stále vyšší počet nasazení analytických platforem nad stávajícími BI řešeními v organizacích a stále narůstající objem veřejně dostupných dat, je pak ze sociálního hlediska potenciálně problematická oblast, která dříve, či později narazí na bariéry osobního soukromí. Praktická část práce vychází ze zadání projektu zákaznické společnosti, v rámci které byla vypracovávána. Projekt je zaměřen na zjištění vhodnosti Big Data platformy Hadoop pro spouštění analytických úloh nad relativně malými soubory. K ověření vhodnosti sloužila analýza n-gramů v rámci vybraného datového souboru, kdy byla využita kromě klasického MapReduce frameworku i in-memory řešení Spark a TEZ. Závěry diplomové práce pak sloužily jako vstup pro podporu dalšího rozhodování ohledně budování Big Data architektury v rámci organizace a nutných transformací stávajících BI řešení pro platformu Hadoop.	cs
dc.description.abstract	The diploma thesis focuses on analysing the way of working and processing the high-volume unstructured datasets, called Big Data. Reader will find out more about the architecture of Big Data-oriented solutions and its comparison with the traditional architecture of Business Intelligence solutions (BI). Now traditional Business Intelligence tools and solutions are still not technologically ready for processing Big Data. This has led into emergence of new approaches to parallel data processing and the new Big Data-oriented, technologies. Data analytics is playing an important role when talking about the Big Data. If using relevant analysis, organizations can get more information about their customers, uncover hidden relationships in data and increase their profits and customers loyalty. There is a platform that is technologically ready for processing and analysing Big Data. The Apache Hadoop. This platform is more described within the theoretical part, where the terms of Big Data and parallel data processing are explained, as well as in practical part of the diploma thesis, where the platform is used for analytical processing of the pre-selected data file. Thus basic features of a programming framework MapReduce and a distributed file system HDFS (together forming the Hadoop implementation) are explained. In terms of applicability the implementation of analytical tasks according to customer requirements is the real outcome. An increasing number of analytical platforms deployment on top of existing BI solutions in organizations and the ever-increasing volume of publicly available data, is then in social terms, a potentially problematic area that sooner or later hit the barriers personal privacy. The practical part of the thesis is based on the project requirements from the client company. The project is focused on finding the suitability of Big Data Hadoop platform for running analytical tasks over the relatively small datasets. To verify the suitability the n-gram analysis was used the selected data file. MapReduce framework as well as in-memory solutions Spark and TEZ has been used as the engines within the Hadoop platform. The conclusions of the thesis has been used as input for further decisions making regarding building the Big Data architecture within the organization and evaluation necessary transformation of existing BI solution for Hadoop platform.	en
dc.format.extent	2993836 bytes	cs
dc.format.mimetype	application/pdf	cs
dc.language.iso	cs	cs
dc.publisher	Vysoká škola báňská - Technická univerzita Ostrava	cs
dc.subject	Big Data	cs
dc.subject	Apache Hadoop	cs
dc.subject	Datová analytika	cs
dc.subject	Paralelní zpracování dat	cs
dc.subject	Business Intelligence	cs
dc.subject	n-gram analýza	cs
dc.subject	in-memory řešení	cs
dc.subject	Hive	cs
dc.subject	MapReduce	cs
dc.subject	Spark	cs
dc.subject	TEZ	cs
dc.subject	Big Data	en
dc.subject	Apache Hadoop	en
dc.subject	Data analysis	en
dc.subject	Parallel data processing	en
dc.subject	Business Intelligence	en
dc.subject	n-gram analysis	en
dc.subject	in-memory solutions	en
dc.subject	Hive	en
dc.subject	MapReduce	en
dc.subject	Spark	en
dc.subject	TEZ	en
dc.title	Paralelní zpracování dat a možnosti datové analytiky v rámci Big Data	cs
dc.title.alternative	Parallel Data Processing and the Possibilities of Data Analytics within the Big Data Concept	en
dc.type	Diplomová práce	cs
dc.contributor.referee	Dragolov, Daniel	cs
dc.date.accepted	2015-06-02	cs
dc.thesis.degree-name	Ing.	cs
dc.thesis.degree-level	Magisterský studijní program	cs
dc.thesis.degree-grantor	Vysoká škola báňská - Technická univerzita Ostrava. Ekonomická fakulta	cs
dc.description.department	155 - Katedra aplikované informatiky	cs
dc.thesis.degree-program	Systémové inženýrství a informatika	cs
dc.thesis.degree-branch	Systémové inženýrství a informatika	cs
dc.description.result	výborně	cs
dc.identifier.sender	S2751	cs
dc.identifier.thesis	DER0007_EKF_N6209_6209T025_2015
dc.rights.access	openAccess

Soubory tohoto záznamu

Název:: DER0007_EKF_N6209_6209T025_2015.pdf
Velikost:: 2.855Mb
Formát:: PDF

Zobrazit/otevřít

Název:: DER0007_EKF_N6209_6209T025_201 ...
Velikost:: 485.3Kb
Formát:: PDF
Popis:: Posudek vedoucího – Tvrdíková, ...

Zobrazit/otevřít

Název:: DER0007_EKF_N6209_6209T025_201 ...
Velikost:: 704.1Kb
Formát:: PDF
Popis:: Posudek oponenta – Dragolov, Daniel

Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Vysokoškolské kvalifikační práce Ekonomické fakulty / Theses and dissertations of Faculty of Economics (EKF) [36614]
Kolekce obsahuje bibliografické záznamy vysokoškolských kvalifikačních prací Ekonomické fakulty.

Zobrazit minimální záznam