dc.contributor.advisor | Šaloun, Petr | |
dc.contributor.author | Kubica, Jan | |
dc.date.accessioned | 2020-07-20T12:06:40Z | |
dc.date.available | 2020-07-20T12:06:40Z | |
dc.date.issued | 2020 | |
dc.identifier.other | OSD002 | |
dc.identifier.uri | http://hdl.handle.net/10084/140472 | |
dc.description.abstract | Zaměřením této práce byla problematika zpracovávání textu v přirozeném jazyce a jeho kategorizace. Konkrétním cílem bylo vyvinout program pro zpracování textů v češtině a angličtině a jejich následnou analýzu. Po zvážení výběru jazyka pro implementaci byl vybrán programovací jazyk Python a pro extrakci dat z internetu byla využita jeho knihovna Scrapy. Lemmatizace textů je realizována skrze knihovnu Majka. Program umí, po naučení z dodaných datasetů, porovnat několik možných algoritmů pro kategorizaci textu a nové data do daných kategorií zařadit. V programu je také implementováno shlukování textů pro kategorizaci bez počátečních datasetů. | cs |
dc.description.abstract | The aim of this work was the issue of text processing in natural language and its categorization, and specifically to develop a program for processing texts in Czech and English and their subsequent analysis. After considering the choice of language for implementation was selected programming language Python and its Scrapy library was used to extract data from the Internet. Lemmatization of texts is realized through its library Majka. The program can, after learning from the supplied datasets, compare several possible algorithms for text categorization and include new data in the given categories. The program also implements grouping of texts for categorization without initial datasets. | en |
dc.format.extent | 2533435 bytes | |
dc.format.mimetype | application/pdf | |
dc.language.iso | cs | |
dc.publisher | Vysoká škola báňská - Technická univerzita Ostrava | cs |
dc.subject | Kategorizace textu, Scrapy, Python, Majka, web crawler, strojové učení | cs |
dc.subject | Text categorization, Scrapy, Python, Majka, web crawler, machine learning | en |
dc.title | Zpracování a kategorizace textů v přirozeném jazyce | cs |
dc.title.alternative | Natural Text Processing and its Categorization | en |
dc.type | Bakalářská práce | cs |
dc.contributor.referee | Andrešič, David | |
dc.date.accepted | 2020-06-23 | |
dc.thesis.degree-name | Bc. | |
dc.thesis.degree-level | Bakalářský studijní program | cs |
dc.thesis.degree-grantor | Vysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky | cs |
dc.description.department | 460 - Katedra informatiky | cs |
dc.thesis.degree-program | Informační a komunikační technologie | cs |
dc.thesis.degree-branch | Informatika a výpočetní technika | cs |
dc.description.result | výborně | cs |
dc.identifier.sender | S2724 | |
dc.identifier.thesis | KUB0506_FEI_B2647_2612R025_2020 | |
dc.rights.access | openAccess | |