Zobrazit minimální záznam

dc.contributor.advisorTvrdíková, Milenacs
dc.contributor.authorDerján, Lukášcs
dc.date.accessioned2015-07-22T09:08:32Z
dc.date.available2015-07-22T09:08:32Z
dc.date.issued2015cs
dc.identifier.otherOSD002cs
dc.identifier.urihttp://hdl.handle.net/10084/107001
dc.descriptionImport 22/07/2015cs
dc.description.abstractV rámci diplomové práce je analyzována práce s velkoobjemovými a nestrukturovanými daty, neboli Big Data. Čtenáři je objasněna architektura Big Data orientovaného řešení a její srovnání s tradiční architekturou Business Intelligence. Právě tradiční Business Intelligence nástroje a řešení stále nejsou technologicky připraveny pro zpracování Big Data, což dalo za vznik jak novým přístupům v paralelním zpracování dat, tak vzniku nových, Big Data orientovaných, technologií. Důležitou roli ve spojení s Big Data hraje datová analytika. Pomocí relevantních analýz mohou organizace získat více informací o svých zákaznících, odhalit v datech skryté souvislosti a zvýšit tak své zisky i věrnost zákazníků. Platformou, která je technologicky připravená pro zpracování a analýzu Big Data, je Apache Hadoop. Tato platforma je více přiblížena nejen v teoretické části, kde je i je definován pojem Big Data a problematika paralelního zpracování dat, ale i v rámci části praktické, kdy platforma slouží pro analytické zpracování vybraného datového souboru. Diplomová práce tak popisuje základní rysy programového frameworku MapReduce i distribuovaného souborového systému HDFS, dohromady tvořící implementaci Hadoop. Z hlediska uplatnitelnosti se tedy jedná o implementaci analytické úlohy dle zákaznických požadavků s reálným výstupem. Stále vyšší počet nasazení analytických platforem nad stávajícími BI řešeními v organizacích a stále narůstající objem veřejně dostupných dat, je pak ze sociálního hlediska potenciálně problematická oblast, která dříve, či později narazí na bariéry osobního soukromí. Praktická část práce vychází ze zadání projektu zákaznické společnosti, v rámci které byla vypracovávána. Projekt je zaměřen na zjištění vhodnosti Big Data platformy Hadoop pro spouštění analytických úloh nad relativně malými soubory. K ověření vhodnosti sloužila analýza n-gramů v rámci vybraného datového souboru, kdy byla využita kromě klasického MapReduce frameworku i in-memory řešení Spark a TEZ. Závěry diplomové práce pak sloužily jako vstup pro podporu dalšího rozhodování ohledně budování Big Data architektury v rámci organizace a nutných transformací stávajících BI řešení pro platformu Hadoop.cs
dc.description.abstractThe diploma thesis focuses on analysing the way of working and processing the high-volume unstructured datasets, called Big Data. Reader will find out more about the architecture of Big Data-oriented solutions and its comparison with the traditional architecture of Business Intelligence solutions (BI). Now traditional Business Intelligence tools and solutions are still not technologically ready for processing Big Data. This has led into emergence of new approaches to parallel data processing and the new Big Data-oriented, technologies. Data analytics is playing an important role when talking about the Big Data. If using relevant analysis, organizations can get more information about their customers, uncover hidden relationships in data and increase their profits and customers loyalty. There is a platform that is technologically ready for processing and analysing Big Data. The Apache Hadoop. This platform is more described within the theoretical part, where the terms of Big Data and parallel data processing are explained, as well as in practical part of the diploma thesis, where the platform is used for analytical processing of the pre-selected data file. Thus basic features of a programming framework MapReduce and a distributed file system HDFS (together forming the Hadoop implementation) are explained. In terms of applicability the implementation of analytical tasks according to customer requirements is the real outcome. An increasing number of analytical platforms deployment on top of existing BI solutions in organizations and the ever-increasing volume of publicly available data, is then in social terms, a potentially problematic area that sooner or later hit the barriers personal privacy. The practical part of the thesis is based on the project requirements from the client company. The project is focused on finding the suitability of Big Data Hadoop platform for running analytical tasks over the relatively small datasets. To verify the suitability the n-gram analysis was used the selected data file. MapReduce framework as well as in-memory solutions Spark and TEZ has been used as the engines within the Hadoop platform. The conclusions of the thesis has been used as input for further decisions making regarding building the Big Data architecture within the organization and evaluation necessary transformation of existing BI solution for Hadoop platform.en
dc.format.extent2993836 bytescs
dc.format.mimetypeapplication/pdfcs
dc.language.isocscs
dc.publisherVysoká škola báňská - Technická univerzita Ostravacs
dc.subjectBig Datacs
dc.subjectApache Hadoopcs
dc.subjectDatová analytikacs
dc.subjectParalelní zpracování datcs
dc.subjectBusiness Intelligencecs
dc.subjectn-gram analýzacs
dc.subjectin-memory řešenícs
dc.subjectHivecs
dc.subjectMapReducecs
dc.subjectSparkcs
dc.subjectTEZcs
dc.subjectBig Dataen
dc.subjectApache Hadoopen
dc.subjectData analysisen
dc.subjectParallel data processingen
dc.subjectBusiness Intelligenceen
dc.subjectn-gram analysisen
dc.subjectin-memory solutionsen
dc.subjectHiveen
dc.subjectMapReduceen
dc.subjectSparken
dc.subjectTEZen
dc.titleParalelní zpracování dat a možnosti datové analytiky v rámci Big Datacs
dc.title.alternativeParallel Data Processing and the Possibilities of Data Analytics within the Big Data Concepten
dc.typeDiplomová prácecs
dc.contributor.refereeDragolov, Danielcs
dc.date.accepted2015-06-02cs
dc.thesis.degree-nameIng.cs
dc.thesis.degree-levelMagisterský studijní programcs
dc.thesis.degree-grantorVysoká škola báňská - Technická univerzita Ostrava. Ekonomická fakultacs
dc.description.department155 - Katedra aplikované informatikycs
dc.thesis.degree-programSystémové inženýrství a informatikacs
dc.thesis.degree-branchSystémové inženýrství a informatikacs
dc.description.resultvýborněcs
dc.identifier.senderS2751cs
dc.identifier.thesisDER0007_EKF_N6209_6209T025_2015
dc.rights.accessopenAccess


Soubory tohoto záznamu

Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam