dc.contributor.advisor | Němec, Radek | |
dc.contributor.author | Švaňa, Miloš | |
dc.date.accessioned | 2019-06-26T04:22:06Z | |
dc.date.available | 2019-06-26T04:22:06Z | |
dc.date.issued | 2019 | |
dc.identifier.other | OSD002 | |
dc.identifier.uri | http://hdl.handle.net/10084/135365 | |
dc.description.abstract | In today’s world aid of computers is needed to process large quantities of text data. One of the tasks that can be automated is text document classification. Most classification algorithms require numerical input. Because of that, methods for transforming text into numerical vectors, i.e. vectorization, had to be developed.
In this thesis we study different vectorization methods while solving a problem of author identification, using speeches made during Slovak national parliament meetings as training data. We compare well established bag-of-words family of vectorization methods with novel word-graph based approaches. Bag-of-words methods are considered intuitive but come with a number of disadvantages. Most notably, numerical vectors produced are sparse and high-dimensional. These issues are addressed by the word-graph based vectorization. Main goal of the thesis is to answer the question, whether these new approach is better for solving complex text classification problems.
Tested vectorization methods are further combined with multiple algorithms for training classification models. These combinations are then compared in terms of classification accuracy and training time. Two dataset variants are examined during experiments: first having similar number of documents for each class and second having significant differences in number of samples available for different authors.
The results show that bag-of-words provide better performance than originally proposed word-graph algorithm. We propose a set of modifications which, when applied, significantly improve classification accuracy. We find this modified model useful especially in combination with the decision tree classification method as it provides reasonable accuracy and the added benefit of easy interpretability. | en |
dc.description.abstract | V dnešní době je k zpracování velkého množství textových dat nutná asistence počítačů. Jedním z úkolů, které je možné automatizovat, je klasifikace textových dokumentů. Většina algoritmů pro klasifikaci však vyžaduje číselný vstup. To znamená nutnost existence metod pro převod textu do do podoby číselných vektorů. Tento proces je často označován jako vektorizace.
V této práci studujeme různé způsoby vektorizace na ukázkovém problému identifikace autora textu. Jako trénovací data jsou použité přepisy vystoupení politiků v Národní radě Slovenské republiky. Zaměřujeme se na dva typy vektorizace: běžně používanou rodinu metod bag-of-words a nové přístupy založené na konstrukci tzv. word-grafu. Metody bag-of-words lze považovat za intuitivní, na druhou stranu jsou ale spojené s řadou nevýhod. Nejvýznamnější z nich je řídkost a vysoký počet dimenzí výsledného vektoru. Tyhle nedostatky se snaží word-graph metody odstranit. Hlavním cílem této práce je zjistit, jestli je tento nový přístup lepší pro řešení komplexních klasifikačních problémů.
Testované metody vektorizace jsou kombinovány s různými algoritmy pro trénovaní klasifikačních modelů. Tyto kombinace pak mezi sebou porovnáváme z pohledu přesnosti klasifikace a doby nutné pro natrénování. Použité jsou přitom dvě varianty datasetů: jeden s podobným počtem dokumentů pro každého autora, a druhý, kde se počet vzorků pro dostupných pro jednotlivé třídy značně liší.
Výsledky ukazují, že tradiční bag-of-words metody poskytují při klasifikaci větší přesnost než původní word-graph algoritmus. Z tohoto důvodu dále navrhujeme sadu modifikací, které značně přesnost klasifikace zvyšují. Tento upravený model považujeme za obzvláště užitečný v kombinaci s klasifikací pomocí rozhodovacích stromů. Tato varianta poskytuje relativně vysokou přesnost a unikátní benefit lehké interpretace modelu. | cs |
dc.format.extent | 10140823 bytes | |
dc.format.mimetype | application/pdf | |
dc.language.iso | en | |
dc.publisher | Vysoká škola báňská - Technická univerzita Ostrava | cs |
dc.subject | natural language processing | en |
dc.subject | machine learning | en |
dc.subject | classification | en |
dc.subject | text processing | en |
dc.subject | author identification | en |
dc.subject | vectorization | en |
dc.subject | bag-of-words | en |
dc.subject | word-graph | en |
dc.subject | zpracování přirozeného jazyka | cs |
dc.subject | strojové učení | cs |
dc.subject | klasifikace | cs |
dc.subject | zpracování textu | cs |
dc.subject | identifikace autora | cs |
dc.subject | vektorizace | cs |
dc.subject | bag-of-words | cs |
dc.subject | word-graph | cs |
dc.title | Automatic Identification of Slovak Text Author using Machine-Learning Methods | en |
dc.title.alternative | Automatic Identification of Slovak Text Author using Machine-Learning Methods | cs |
dc.type | Diplomová práce | cs |
dc.contributor.referee | Martiník, Ivo | |
dc.date.accepted | 2019-05-28 | |
dc.thesis.degree-name | Ing. | |
dc.thesis.degree-level | Magisterský studijní program | cs |
dc.thesis.degree-grantor | Vysoká škola báňská - Technická univerzita Ostrava. Ekonomická fakulta | cs |
dc.description.department | 157 - Katedra systémového inženýrství | cs |
dc.thesis.degree-program | Systémové inženýrství a informatika | cs |
dc.thesis.degree-branch | Informatika v ekonomice | cs |
dc.description.result | výborně | cs |
dc.identifier.sender | S2751 | |
dc.identifier.thesis | SVA0158_EKF_N6209_6209T017_2019 | |
dc.rights.access | openAccess | |