Sledování frekvence slov v internetových zpravodajských serverech
| dc.contributor.advisor | Bača, Radim | cs |
| dc.contributor.author | Činčala, Radoslav | cs |
| dc.contributor.referee | Krátký, Michal | cs |
| dc.date.accepted | 2013-06-11 | cs |
| dc.date.accessioned | 2013-06-26T11:16:59Z | |
| dc.date.available | 2013-06-26T11:16:59Z | |
| dc.date.issued | 2012 | cs |
| dc.description | Import 26/06/2013 | cs |
| dc.description.abstract | Cieľom tejto práce je spracovanie článkov na verejných českých spravodajských serveroch. Výstupom je frekvencia najčastejších slov v určitom časovom intervale alebo na určitom spravodajskom serveri. Formát článkov sa na jednotlivých serveroch značne odlišuje a strojové extrahovanie hlavného textu článku nie je jednoduché. Práca sa zaoberá predovšetkým metódami extrakcie dát z článkov, aby bolo možné jednoducho pridávať do sledovania ďalšie spravodajské servery. Výsledným riešením je vytvorenie robustného nástroja pre strojové extrahovanie dát z článkov na spravodajských serveroch a nástroj, ktorý umožňuje jednoduché a rýchle pridávanie spravodajských serverov do automatického sledovania a strojovej extrakcie. Extrahované dáta sú následne spracovávané a uložené do databázy spolu s frekvenciami jednotlivých slov a ďalšími súvisiacimi dátami tak, aby bolo možné získať štatistické údaje pre rôzne časové intervaly a pre rôzne servery. Výstup extrakcie dát je možné ovplyvniť zoznamami stop slov a ekvivalentných slov, ktoré je možné jednoducho dynamicky meniť. Prácu s nástrojom umožňuje jednoduché webové užívateľské rozhranie, ktoré dovoľuje efektívne vyhľadávanie frekvencie slov v danom časovom intervale alebo na danom serveri. | cs |
| dc.description.abstract | The aim of this work is processing of articles on public Czech news servers. Output is frequency of the most frequent words in a certain period of time or at certain news server. Format of articles is considerably different in dependence on particular server and mechanical extracting of article's main body is not easy. The work is primarily concerned with methods of extracting data from articles for purpose of easily adding of other news servers to monitoring. The resulting solution is creation of robust tool for mechanical data extraction from articles in news servers and tool that allows easy and fast news servers adding to automatically monitoring and mechanical extraction. Extracted data are then processed and stored into a database along with the frequencies of individual words and other related data in order to obtain statistics for different time intervals and for different servers. The output of data extraction can be influenced by lists of stop words and equivalent words, which can be easily changed dynamically. Work with tool allows simple web interface that allows efficient searching of words frequency in a given time interval or in a given server. | en |
| dc.description.department | 460 - Katedra informatiky | cs |
| dc.description.result | výborně | cs |
| dc.format.extent | 9112162 bytes | cs |
| dc.format.mimetype | application/pdf | cs |
| dc.identifier.other | OSD002 | cs |
| dc.identifier.sender | S2724 | cs |
| dc.identifier.thesis | CIN020_FEI_N2647_2612T025_2012 | |
| dc.identifier.uri | http://hdl.handle.net/10084/98628 | |
| dc.language.iso | cs | cs |
| dc.publisher | Vysoká škola báňská - Technická univerzita Ostrava | cs |
| dc.rights.access | openAccess | |
| dc.subject | čas, článok, databáza, extrahovanie, frekvencia, informácia, internetová žurnalistika, java, jazyk HTML, lematizácia, rss kanál, slovo, spravodajský server, získavanie informácií | cs |
| dc.subject | time, article, database, extraction, frequency, information, internet journalism, java, HTML language, lemming, rss feed, word, news server, information retrieval | en |
| dc.thesis.degree-branch | Informatika a výpočetní technika | cs |
| dc.thesis.degree-grantor | Vysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky | cs |
| dc.thesis.degree-level | Magisterský studijní program | cs |
| dc.thesis.degree-name | Ing. | cs |
| dc.thesis.degree-program | Informační a komunikační technologie | cs |
| dc.title | Sledování frekvence slov v internetových zpravodajských serverech | cs |
| dc.title.alternative | Word Frequency in the Internet News Servers | en |
| dc.type | Diplomová práce | cs |
Files
Original bundle
1 - 4 out of 4 results
Loading...
- Name:
- CIN020_FEI_N2647_2612T025_2012.pdf
- Size:
- 8.69 MB
- Format:
- Adobe Portable Document Format
Loading...
- Name:
- CIN020_FEI_N2647_2612T025_2012_priloha.zip
- Size:
- 7.65 MB
- Format:
- Unknown data format
Loading...
- Name:
- CIN020_FEI_N2647_2612T025_2012_posudek_vedouci_Baca_Radim.pdf
- Size:
- 49.82 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek vedoucího – Bača, Radim
Loading...
- Name:
- CIN020_FEI_N2647_2612T025_2012_posudek_oponent_Kratky_Michal.pdf
- Size:
- 52.6 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek oponenta – Krátký, Michal