Zpracování a kategorizace textů v přirozeném jazyce

dc.contributor.advisorŠaloun, Petr
dc.contributor.authorKubica, Jan
dc.contributor.refereeAndrešič, David
dc.date.accepted2020-06-23
dc.date.accessioned2020-07-20T12:06:40Z
dc.date.available2020-07-20T12:06:40Z
dc.date.issued2020
dc.description.abstractZaměřením této práce byla problematika zpracovávání textu v přirozeném jazyce a jeho kategorizace. Konkrétním cílem bylo vyvinout program pro zpracování textů v češtině a angličtině a jejich následnou analýzu. Po zvážení výběru jazyka pro implementaci byl vybrán programovací jazyk Python a pro extrakci dat z internetu byla využita jeho knihovna Scrapy. Lemmatizace textů je realizována skrze knihovnu Majka. Program umí, po naučení z dodaných datasetů, porovnat několik možných algoritmů pro kategorizaci textu a nové data do daných kategorií zařadit. V programu je také implementováno shlukování textů pro kategorizaci bez počátečních datasetů.cs
dc.description.abstractThe aim of this work was the issue of text processing in natural language and its categorization, and specifically to develop a program for processing texts in Czech and English and their subsequent analysis. After considering the choice of language for implementation was selected programming language Python and its Scrapy library was used to extract data from the Internet. Lemmatization of texts is realized through its library Majka. The program can, after learning from the supplied datasets, compare several possible algorithms for text categorization and include new data in the given categories. The program also implements grouping of texts for categorization without initial datasets.en
dc.description.department460 - Katedra informatikycs
dc.description.resultvýborněcs
dc.format.extent2533435 bytes
dc.format.mimetypeapplication/pdf
dc.identifier.otherOSD002
dc.identifier.senderS2724
dc.identifier.thesisKUB0506_FEI_B2647_2612R025_2020
dc.identifier.urihttp://hdl.handle.net/10084/140472
dc.language.isocs
dc.publisherVysoká škola báňská - Technická univerzita Ostravacs
dc.rights.accessopenAccess
dc.subjectKategorizace textu, Scrapy, Python, Majka, web crawler, strojové učenícs
dc.subjectText categorization, Scrapy, Python, Majka, web crawler, machine learningen
dc.thesis.degree-branchInformatika a výpočetní technikacs
dc.thesis.degree-grantorVysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatikycs
dc.thesis.degree-levelBakalářský studijní programcs
dc.thesis.degree-nameBc.
dc.thesis.degree-programInformační a komunikační technologiecs
dc.titleZpracování a kategorizace textů v přirozeném jazycecs
dc.title.alternativeNatural Text Processing and its Categorizationen
dc.typeBakalářská prácecs

Files

Original bundle

Now showing 1 - 4 out of 4 results
Loading...
Thumbnail Image
Name:
KUB0506_FEI_B2647_2612R025_2020.pdf
Size:
2.42 MB
Format:
Adobe Portable Document Format
Description:
Text práce
Loading...
Thumbnail Image
Name:
KUB0506_FEI_B2647_2612R025_2020_priloha.zip
Size:
5.85 MB
Format:
Unknown data format
Description:
Příloha
Loading...
Thumbnail Image
Name:
KUB0506_FEI_B2647_2612R025_2020_posudek_vedouci_Saloun_Petr.pdf
Size:
55.22 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího – Šaloun, Petr
Loading...
Thumbnail Image
Name:
KUB0506_FEI_B2647_2612R025_2020_posudek_oponent_Andresic_David.pdf
Size:
92.48 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta – Andrešič, David