Určování podobnosti dokumentů s použitím tradičních výpočetních metod a spolupráce davu

dc.contributor.advisorŠaloun, Petr
dc.contributor.authorCigánková, Barbora
dc.contributor.refereeSeidl, David
dc.date.accepted2018-06-04
dc.date.accessioned2018-06-26T08:07:53Z
dc.date.available2018-06-26T08:07:53Z
dc.date.issued2018
dc.description.abstractDiplomová práce se zabývá kategorizací textových dokumentů a jejím následným zlepšováním pomocí spolupráce davu. Jejím cílem je návrh a vytvoření prototypu klasifikátoru textových dokumentů na základě jejich podobnosti a návrh zhodnocení a následné zlepšování kategorizace s využitím spolupráce davu. Ke kategorizaci dokumentů byl vybrán algoritmus N-gramů, který byl následně implementován v jazyce Java. Dále bylo vytvořeno rozhraní pro spolupráci davu s využitím CMS WordPress. Účelem rozhraní je, kromě sběru dat, také zhodnocení správnosti kategorizace, na základě kterého je následně rozšiřována testovací sada dokumentů klasifikátoru, čímž je úspěšnost kategorizace zvyšována. Obě části práce by měly sloužit jako základ pro chystaný projekt TAČR Éta mezi Ostravskou univerzitou v Ostravě a Vysokou školou báňskou - Technickou univerzitou Ostrava.cs
dc.description.abstractThe master thesis deals with categorization of text documents and its improvement through crowdsourcing. Its goal is to design and implement text documents classifier prototype based on documents similarity and to design evaluation and improvements of categorization using crowdsourcing. For categorization the N-grams algorithm has been chosen, which was implemented in Java. Next, interface for crowdsourcing was created using CMS WordPress. In addition to data collection, the purpose of interface is to evaluate categorization accuracy, which leads to extension of classifier's test data set, thus the categorization is more successful. Both parts of the thesis should serve as base for prepared project between University of Ostrava and VŠB - Technical university of Ostrava.en
dc.description.department460 - Katedra informatikycs
dc.description.resultvýborněcs
dc.format.extent4213505 bytes
dc.format.mimetypeapplication/pdf
dc.identifier.otherOSD002
dc.identifier.senderS2724
dc.identifier.thesisCIG0032_FEI_N2647_2612T025_2018
dc.identifier.urihttp://hdl.handle.net/10084/128595
dc.language.isocs
dc.publisherVysoká škola báňská - Technická univerzita Ostravacs
dc.rights.accessopenAccess
dc.subjectKategorizacecs
dc.subjecttextové dokumentycs
dc.subjectpřirozený jazykcs
dc.subjectpodobnost dokumentůcs
dc.subjectN-gramycs
dc.subjectspolupráce davucs
dc.subjectWordPresscs
dc.subjectJavacs
dc.subjectPHPcs
dc.subjectCategorizationen
dc.subjecttext documentsen
dc.subjectnatural languageen
dc.subjectdocuments similarityen
dc.subjectN-gramsen
dc.subjectcrowdsourcingen
dc.subjectWordPressen
dc.subjectJavaen
dc.subjectPHPen
dc.thesis.degree-branchInformatika a výpočetní technikacs
dc.thesis.degree-grantorVysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatikycs
dc.thesis.degree-levelMagisterský studijní programcs
dc.thesis.degree-nameIng.
dc.thesis.degree-programInformační a komunikační technologiecs
dc.titleUrčování podobnosti dokumentů s použitím tradičních výpočetních metod a spolupráce davucs
dc.title.alternativeDocument Categorization Using Traditional Algorithms and Crowd Sourcingen
dc.typeDiplomová prácecs

Files

Original bundle

Now showing 1 - 4 out of 4 results
Loading...
Thumbnail Image
Name:
CIG0032_FEI_N2647_2612T025_2018.pdf
Size:
4.02 MB
Format:
Adobe Portable Document Format
Description:
Text práce
Loading...
Thumbnail Image
Name:
CIG0032_FEI_N2647_2612T025_2018_priloha.zip
Size:
19.62 MB
Format:
Unknown data format
Description:
Příloha
Loading...
Thumbnail Image
Name:
CIG0032_FEI_N2647_2612T025_2018_posudek_vedouci_Saloun_Petr.pdf
Size:
49.08 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího – Šaloun, Petr
Loading...
Thumbnail Image
Name:
CIG0032_FEI_N2647_2612T025_2018_posudek_oponent_Seidl_David.pdf
Size:
49.34 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta – Seidl, David