Show simple item record

dc.contributor.advisorKudělka, Milošcs
dc.contributor.authorBlanár, Štefancs
dc.date.accessioned2014-08-05T10:07:31Z
dc.date.available2014-08-05T10:07:31Z
dc.date.issued2014cs
dc.identifier.otherOSD002cs
dc.identifier.urihttp://hdl.handle.net/10084/103914
dc.descriptionImport 05/08/2014cs
dc.description.abstractV této diplomové práci jsem se zabýval problematikou extrakce zpráv z webu, což je problém tématicky spadající pod dobře známý problém dolování strukturovaných dat z HTML dokumentů na Internetu. Vypracoval jsem průzkum různých stávajících přístupů k tomuto problému, který je shrnut na začátku této práce. Dále jsem se věnoval zkoumání stávajících wrapperů a jejich možných uplatnění při řešení problému extrakce zpráv z webu. Také jsem vypracoval rozsáhlé pozorování nejznámějších zpravodajských portálů a zpráv na nich. Poté jsem získané poznatky aplikoval při tvorbě vlastních řešení tohoto problému. Definoval jsem, co je zpráva a jak se liší od informace. Vlastní řešení jsem následně otestoval v reálných podmínkách na skutečných, dobře známých zpravodajských webových portálech. Výsledky tohoto testování jsou prezentované v závěru práce.cs
dc.description.abstractThe main goal of this diploma thesis is to perform large – scale research about text mining methods especially text mining of structured data from web, concrete from HTML documents, what is well-known problem. Results of this research will be summarized in fist part of this document. Next I probe a few web wrapper’s, especially I’ll try to find some existing wrapper, which could be used as solution for extraction news from web. I also perform an extensive observation of the most famous news portals and news on them. Finally acquired knowledge will be used for developing my own solution of problem extraction news from web pages. I’ll define what web news is and how they differs from information. Then I test my solution in real conditions on real well known news portals. All results of this testing will be presented in last chapter of this thesis.en
dc.format.extent4571258 bytescs
dc.format.mimetypeapplication/pdfcs
dc.language.isocscs
dc.publisherVysoká škola báňská - Technická univerzita Ostravacs
dc.subjecttext miningcs
dc.subjectregulérní výrazcs
dc.subjectextrakcecs
dc.subjectzprávacs
dc.subjectInternetcs
dc.subjectwebcs
dc.subjectURLcs
dc.subjectmetodacs
dc.subjectalgoritmuscs
dc.subjectReLIEcs
dc.subjectONTEAcs
dc.subjectDOMcs
dc.subjectXMLcs
dc.subjectHTMLcs
dc.subjectXPathcs
dc.subjectMDFcs
dc.subjectTPCcs
dc.subjectNCSCAcs
dc.subjectTTRcs
dc.subjectwrappercs
dc.subjectcrawlercs
dc.subjectautomatický wrappercs
dc.subjectpoloautomatický wrappercs
dc.subjectklíčová slovacs
dc.subjectschémacs
dc.subjecttext miningen
dc.subjectregular expressionen
dc.subjectextractionen
dc.subjectnewsen
dc.subjectInterneten
dc.subjectWeben
dc.subjectURLen
dc.subjectmethoden
dc.subjectalgorithmen
dc.subjectReLIEen
dc.subjectONTEAen
dc.subjectDOMen
dc.subjectXMLen
dc.subjectHTMLen
dc.subjectXPathen
dc.subjectMDFen
dc.subjectTPCen
dc.subjectNCSCAen
dc.subjectTTRen
dc.subjectwrapperen
dc.subjectcrawleren
dc.subjectautomatic wrapperen
dc.subjectsemi-automatic wrapperen
dc.subjectkeywordsen
dc.subjectschemeen
dc.titleExtrakce zpráv z webových stránekcs
dc.title.alternativeNews Extraction from Web Pagesen
dc.typeDiplomová prácecs
dc.contributor.refereeHorák, Zdeněkcs
dc.date.accepted2014-06-11cs
dc.thesis.degree-nameIng.cs
dc.thesis.degree-levelMagisterský studijní programcs
dc.thesis.degree-grantorVysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatikycs
dc.description.department460 - Katedra informatikycs
dc.thesis.degree-programInformační a komunikační technologiecs
dc.thesis.degree-branchInformatika a výpočetní technikacs
dc.description.resultvýborněcs
dc.identifier.senderS2724cs
dc.identifier.thesisBLA0043_FEI_N2647_2612T025_2014
dc.rights.accessopenAccess


Files in this item

This item appears in the following Collection(s)

Show simple item record