dc.contributor.advisor | Kudělka, Miloš | cs |
dc.contributor.author | Blanár, Štefan | cs |
dc.date.accessioned | 2014-08-05T10:07:31Z | |
dc.date.available | 2014-08-05T10:07:31Z | |
dc.date.issued | 2014 | cs |
dc.identifier.other | OSD002 | cs |
dc.identifier.uri | http://hdl.handle.net/10084/103914 | |
dc.description | Import 05/08/2014 | cs |
dc.description.abstract | V této diplomové práci jsem se zabýval problematikou extrakce zpráv z webu, což je problém tématicky spadající pod dobře známý problém dolování strukturovaných dat z HTML dokumentů na Internetu. Vypracoval jsem průzkum různých stávajících přístupů k tomuto problému, který je shrnut na začátku této práce. Dále jsem se věnoval zkoumání stávajících wrapperů a jejich možných uplatnění při řešení problému extrakce zpráv z webu. Také jsem vypracoval rozsáhlé pozorování nejznámějších zpravodajských portálů a zpráv na nich. Poté jsem získané poznatky aplikoval při tvorbě vlastních řešení tohoto problému. Definoval jsem, co je zpráva a jak se liší od informace. Vlastní řešení jsem následně otestoval v reálných podmínkách na skutečných, dobře známých zpravodajských webových portálech. Výsledky tohoto testování jsou prezentované v závěru práce. | cs |
dc.description.abstract | The main goal of this diploma thesis is to perform large – scale research about text mining methods especially text mining of structured data from web, concrete from HTML documents, what is well-known problem. Results of this research will be summarized in fist part of this document. Next I probe a few web wrapper’s, especially I’ll try to find some existing wrapper, which could be used as solution for extraction news from web. I also perform an extensive observation of the most famous news portals and news on them. Finally acquired knowledge will be used for developing my own solution of problem extraction news from web pages. I’ll define what web news is and how they differs from information. Then I test my solution in real conditions on real well known news portals. All results of this testing will be presented in last chapter of this thesis. | en |
dc.format.extent | 4571258 bytes | cs |
dc.format.mimetype | application/pdf | cs |
dc.language.iso | cs | cs |
dc.publisher | Vysoká škola báňská - Technická univerzita Ostrava | cs |
dc.subject | text mining | cs |
dc.subject | regulérní výraz | cs |
dc.subject | extrakce | cs |
dc.subject | zpráva | cs |
dc.subject | Internet | cs |
dc.subject | web | cs |
dc.subject | URL | cs |
dc.subject | metoda | cs |
dc.subject | algoritmus | cs |
dc.subject | ReLIE | cs |
dc.subject | ONTEA | cs |
dc.subject | DOM | cs |
dc.subject | XML | cs |
dc.subject | HTML | cs |
dc.subject | XPath | cs |
dc.subject | MDF | cs |
dc.subject | TPC | cs |
dc.subject | NCSCA | cs |
dc.subject | TTR | cs |
dc.subject | wrapper | cs |
dc.subject | crawler | cs |
dc.subject | automatický wrapper | cs |
dc.subject | poloautomatický wrapper | cs |
dc.subject | klíčová slova | cs |
dc.subject | schéma | cs |
dc.subject | text mining | en |
dc.subject | regular expression | en |
dc.subject | extraction | en |
dc.subject | news | en |
dc.subject | Internet | en |
dc.subject | Web | en |
dc.subject | URL | en |
dc.subject | method | en |
dc.subject | algorithm | en |
dc.subject | ReLIE | en |
dc.subject | ONTEA | en |
dc.subject | DOM | en |
dc.subject | XML | en |
dc.subject | HTML | en |
dc.subject | XPath | en |
dc.subject | MDF | en |
dc.subject | TPC | en |
dc.subject | NCSCA | en |
dc.subject | TTR | en |
dc.subject | wrapper | en |
dc.subject | crawler | en |
dc.subject | automatic wrapper | en |
dc.subject | semi-automatic wrapper | en |
dc.subject | keywords | en |
dc.subject | scheme | en |
dc.title | Extrakce zpráv z webových stránek | cs |
dc.title.alternative | News Extraction from Web Pages | en |
dc.type | Diplomová práce | cs |
dc.contributor.referee | Horák, Zdeněk | cs |
dc.date.accepted | 2014-06-11 | cs |
dc.thesis.degree-name | Ing. | cs |
dc.thesis.degree-level | Magisterský studijní program | cs |
dc.thesis.degree-grantor | Vysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky | cs |
dc.description.department | 460 - Katedra informatiky | cs |
dc.thesis.degree-program | Informační a komunikační technologie | cs |
dc.thesis.degree-branch | Informatika a výpočetní technika | cs |
dc.description.result | výborně | cs |
dc.identifier.sender | S2724 | cs |
dc.identifier.thesis | BLA0043_FEI_N2647_2612T025_2014 | |
dc.rights.access | openAccess | |