Určování podobnosti dokumentů s použitím tradičních výpočetních metod a spolupráce davu
| dc.contributor.advisor | Šaloun, Petr | |
| dc.contributor.author | Cigánková, Barbora | |
| dc.contributor.referee | Seidl, David | |
| dc.date.accepted | 2018-06-04 | |
| dc.date.accessioned | 2018-06-26T08:07:53Z | |
| dc.date.available | 2018-06-26T08:07:53Z | |
| dc.date.issued | 2018 | |
| dc.description.abstract | Diplomová práce se zabývá kategorizací textových dokumentů a jejím následným zlepšováním pomocí spolupráce davu. Jejím cílem je návrh a vytvoření prototypu klasifikátoru textových dokumentů na základě jejich podobnosti a návrh zhodnocení a následné zlepšování kategorizace s využitím spolupráce davu. Ke kategorizaci dokumentů byl vybrán algoritmus N-gramů, který byl následně implementován v jazyce Java. Dále bylo vytvořeno rozhraní pro spolupráci davu s využitím CMS WordPress. Účelem rozhraní je, kromě sběru dat, také zhodnocení správnosti kategorizace, na základě kterého je následně rozšiřována testovací sada dokumentů klasifikátoru, čímž je úspěšnost kategorizace zvyšována. Obě části práce by měly sloužit jako základ pro chystaný projekt TAČR Éta mezi Ostravskou univerzitou v Ostravě a Vysokou školou báňskou - Technickou univerzitou Ostrava. | cs |
| dc.description.abstract | The master thesis deals with categorization of text documents and its improvement through crowdsourcing. Its goal is to design and implement text documents classifier prototype based on documents similarity and to design evaluation and improvements of categorization using crowdsourcing. For categorization the N-grams algorithm has been chosen, which was implemented in Java. Next, interface for crowdsourcing was created using CMS WordPress. In addition to data collection, the purpose of interface is to evaluate categorization accuracy, which leads to extension of classifier's test data set, thus the categorization is more successful. Both parts of the thesis should serve as base for prepared project between University of Ostrava and VŠB - Technical university of Ostrava. | en |
| dc.description.department | 460 - Katedra informatiky | cs |
| dc.description.result | výborně | cs |
| dc.format.extent | 4213505 bytes | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.other | OSD002 | |
| dc.identifier.sender | S2724 | |
| dc.identifier.thesis | CIG0032_FEI_N2647_2612T025_2018 | |
| dc.identifier.uri | http://hdl.handle.net/10084/128595 | |
| dc.language.iso | cs | |
| dc.publisher | Vysoká škola báňská - Technická univerzita Ostrava | cs |
| dc.rights.access | openAccess | |
| dc.subject | Kategorizace | cs |
| dc.subject | textové dokumenty | cs |
| dc.subject | přirozený jazyk | cs |
| dc.subject | podobnost dokumentů | cs |
| dc.subject | N-gramy | cs |
| dc.subject | spolupráce davu | cs |
| dc.subject | WordPress | cs |
| dc.subject | Java | cs |
| dc.subject | PHP | cs |
| dc.subject | Categorization | en |
| dc.subject | text documents | en |
| dc.subject | natural language | en |
| dc.subject | documents similarity | en |
| dc.subject | N-grams | en |
| dc.subject | crowdsourcing | en |
| dc.subject | WordPress | en |
| dc.subject | Java | en |
| dc.subject | PHP | en |
| dc.thesis.degree-branch | Informatika a výpočetní technika | cs |
| dc.thesis.degree-grantor | Vysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky | cs |
| dc.thesis.degree-level | Magisterský studijní program | cs |
| dc.thesis.degree-name | Ing. | |
| dc.thesis.degree-program | Informační a komunikační technologie | cs |
| dc.title | Určování podobnosti dokumentů s použitím tradičních výpočetních metod a spolupráce davu | cs |
| dc.title.alternative | Document Categorization Using Traditional Algorithms and Crowd Sourcing | en |
| dc.type | Diplomová práce | cs |
Files
Original bundle
1 - 4 out of 4 results
Loading...
- Name:
- CIG0032_FEI_N2647_2612T025_2018.pdf
- Size:
- 4.02 MB
- Format:
- Adobe Portable Document Format
- Description:
- Text práce
Loading...
- Name:
- CIG0032_FEI_N2647_2612T025_2018_priloha.zip
- Size:
- 19.62 MB
- Format:
- Unknown data format
- Description:
- Příloha
Loading...
- Name:
- CIG0032_FEI_N2647_2612T025_2018_posudek_vedouci_Saloun_Petr.pdf
- Size:
- 49.08 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek vedoucího – Šaloun, Petr
Loading...
- Name:
- CIG0032_FEI_N2647_2612T025_2018_posudek_oponent_Seidl_David.pdf
- Size:
- 49.34 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek oponenta – Seidl, David