Zpracování velkých objemů nestrukturovaných dat na platformě Hadoop

dc.contributor.advisorSkácelík, Jiřícs
dc.contributor.authorProuza, Martincs
dc.contributor.consultantKrátký, Michalcs
dc.contributor.refereeBača, Radimcs
dc.date.accepted2015-06-03cs
dc.date.accessioned2015-07-22T09:19:24Z
dc.date.available2015-07-22T09:19:24Z
dc.date.issued2015cs
dc.descriptionImport 22/07/2015cs
dc.description.abstractTato práce se zabývá zpracováním nestrukturovaného textu na platformě Hadoop. První část se zaměřuje na důvody vzniku konceptu Big Data. Vysvětlím problematiku dat dnešní doby a ukážu, proč jsou běžné databázové systémy nevhodné pro práci s nestrukturovanými či velkými objemy dat. Další část je zaměřená na teorii konceptu Big Data a jeho zpracování na platformě Hadoop. Představím Hadoop architekturu, a jak se liší od běžného databázového skladu. Také vysvětlím teorii paralelního zpracování dat, a jak je toto paralelní zpracování řešeno na platformě Hadoop. Poslední část se zabývá praktickou částí řešení zpracování obsahu nestrukturovaných serverových logů na platformě Hadoop. Jakým způsobem jsme schopni tato data analyzovat a získat z nich využitelné informace. Výsledek této části budu prezentovat v reportingovém programu QlikView. Výsledek byl rovněž zpracován na klasické SQL databázi, aby se porovnal přínos Hadoop platformy při zpracování nestrukturovaných dat.cs
dc.description.abstractThis thesis is concerned with processing unstructured text on Hadoop platform. First part focuses on the reasons of creation Big Data concept. I explain data issue of these days and show, why common database systems are inappropriate for working with huge amounts of unstructured data. The next part focuses on theory about Big Data concept and processing on Hadoop platform. I introduce Hadoop architecture and how it differs from common warehouse database. I also explain parallel data processing theory and how parallel processing is solved on Hadoop platform. The last part focuses on practical part to solve processing huge amounts of unstructured server logs on Hadoop platform. How can we analyze these data and get some valuable information from them. The result will be presented in reporting program QlikView. Result was also processed on classic SQL database, to compare Hadoop platform contribution in processing unstructured data.en
dc.description.department460 - Katedra informatikycs
dc.description.resultdobřecs
dc.format.extent3155157 bytescs
dc.format.mimetypeapplication/pdfcs
dc.identifier.otherOSD002cs
dc.identifier.senderS2724cs
dc.identifier.thesisPRO0099_FEI_B2647_2612R025_2015
dc.identifier.urihttp://hdl.handle.net/10084/108911
dc.language.isocscs
dc.publisherVysoká škola báňská - Technická univerzita Ostravacs
dc.rights.accessopenAccess
dc.subjectDistribuovaný souborový systém, Hadoop, HDFS, MapReduce, nestrukturovaná data, NoSQL, paralelní zpracování dat, QlikView, ngram, Hivecs
dc.subjectDistributed file system, Hadoop, HDFS, MapReduce, NoSQL, parallel data processing, QlikView, unstructured data, ngram, Hiveen
dc.thesis.degree-branchInformatika a výpočetní technikacs
dc.thesis.degree-grantorVysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatikycs
dc.thesis.degree-levelBakalářský studijní programcs
dc.thesis.degree-nameBc.cs
dc.thesis.degree-programInformační a komunikační technologiecs
dc.titleZpracování velkých objemů nestrukturovaných dat na platformě Hadoopcs
dc.title.alternativeProcessing Large Volumes of Unstructured Data on Hadoop Platformen
dc.typeBakalářská prácecs

Files

Original bundle

Now showing 1 - 4 out of 4 results
Loading...
Thumbnail Image
Name:
PRO0099_FEI_B2647_2612R025_2015.pdf
Size:
3.01 MB
Format:
Adobe Portable Document Format
Loading...
Thumbnail Image
Name:
PRO0099_FEI_B2647_2612R025_2015_priloha.zip
Size:
51.73 MB
Format:
Unknown data format
Loading...
Thumbnail Image
Name:
PRO0099_FEI_B2647_2612R025_2015_posudek_vedouci_Skacelik_Jiri.pdf
Size:
572.93 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího – Skácelík, Jiří
Loading...
Thumbnail Image
Name:
PRO0099_FEI_B2647_2612R025_2015_posudek_oponent_Baca_Radim.pdf
Size:
54.13 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta – Bača, Radim