Sledování frekvence slov v internetových zpravodajských serverech

dc.contributor.advisorBača, Radimcs
dc.contributor.authorČinčala, Radoslavcs
dc.contributor.refereeKrátký, Michalcs
dc.date.accepted2013-06-11cs
dc.date.accessioned2013-06-26T11:16:59Z
dc.date.available2013-06-26T11:16:59Z
dc.date.issued2012cs
dc.descriptionImport 26/06/2013cs
dc.description.abstractCieľom tejto práce je spracovanie článkov na verejných českých spravodajských serveroch. Výstupom je frekvencia najčastejších slov v určitom časovom intervale alebo na určitom spravodajskom serveri. Formát článkov sa na jednotlivých serveroch značne odlišuje a strojové extrahovanie hlavného textu článku nie je jednoduché. Práca sa zaoberá predovšetkým metódami extrakcie dát z článkov, aby bolo možné jednoducho pridávať do sledovania ďalšie spravodajské servery. Výsledným riešením je vytvorenie robustného nástroja pre strojové extrahovanie dát z článkov na spravodajských serveroch a nástroj, ktorý umožňuje jednoduché a rýchle pridávanie spravodajských serverov do automatického sledovania a strojovej extrakcie. Extrahované dáta sú následne spracovávané a uložené do databázy spolu s frekvenciami jednotlivých slov a ďalšími súvisiacimi dátami tak, aby bolo možné získať štatistické údaje pre rôzne časové intervaly a pre rôzne servery. Výstup extrakcie dát je možné ovplyvniť zoznamami stop slov a ekvivalentných slov, ktoré je možné jednoducho dynamicky meniť. Prácu s nástrojom umožňuje jednoduché webové užívateľské rozhranie, ktoré dovoľuje efektívne vyhľadávanie frekvencie slov v danom časovom intervale alebo na danom serveri.cs
dc.description.abstractThe aim of this work is processing of articles on public Czech news servers. Output is frequency of the most frequent words in a certain period of time or at certain news server. Format of articles is considerably different in dependence on particular server and mechanical extracting of article's main body is not easy. The work is primarily concerned with methods of extracting data from articles for purpose of easily adding of other news servers to monitoring. The resulting solution is creation of robust tool for mechanical data extraction from articles in news servers and tool that allows easy and fast news servers adding to automatically monitoring and mechanical extraction. Extracted data are then processed and stored into a database along with the frequencies of individual words and other related data in order to obtain statistics for different time intervals and for different servers. The output of data extraction can be influenced by lists of stop words and equivalent words, which can be easily changed dynamically. Work with tool allows simple web interface that allows efficient searching of words frequency in a given time interval or in a given server.en
dc.description.department460 - Katedra informatikycs
dc.description.resultvýborněcs
dc.format.extent9112162 bytescs
dc.format.mimetypeapplication/pdfcs
dc.identifier.otherOSD002cs
dc.identifier.senderS2724cs
dc.identifier.thesisCIN020_FEI_N2647_2612T025_2012
dc.identifier.urihttp://hdl.handle.net/10084/98628
dc.language.isocscs
dc.publisherVysoká škola báňská - Technická univerzita Ostravacs
dc.rights.accessopenAccess
dc.subjectčas, článok, databáza, extrahovanie, frekvencia, informácia, internetová žurnalistika, java, jazyk HTML, lematizácia, rss kanál, slovo, spravodajský server, získavanie informáciícs
dc.subjecttime, article, database, extraction, frequency, information, internet journalism, java, HTML language, lemming, rss feed, word, news server, information retrievalen
dc.thesis.degree-branchInformatika a výpočetní technikacs
dc.thesis.degree-grantorVysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatikycs
dc.thesis.degree-levelMagisterský studijní programcs
dc.thesis.degree-nameIng.cs
dc.thesis.degree-programInformační a komunikační technologiecs
dc.titleSledování frekvence slov v internetových zpravodajských serverechcs
dc.title.alternativeWord Frequency in the Internet News Serversen
dc.typeDiplomová prácecs

Files

Original bundle

Now showing 1 - 4 out of 4 results
Loading...
Thumbnail Image
Name:
CIN020_FEI_N2647_2612T025_2012.pdf
Size:
8.69 MB
Format:
Adobe Portable Document Format
Loading...
Thumbnail Image
Name:
CIN020_FEI_N2647_2612T025_2012_priloha.zip
Size:
7.65 MB
Format:
Unknown data format
Loading...
Thumbnail Image
Name:
CIN020_FEI_N2647_2612T025_2012_posudek_vedouci_Baca_Radim.pdf
Size:
49.82 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího – Bača, Radim
Loading...
Thumbnail Image
Name:
CIN020_FEI_N2647_2612T025_2012_posudek_oponent_Kratky_Michal.pdf
Size:
52.6 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta – Krátký, Michal