Automatic Identification of Slovak Text Author using Machine-Learning Methods

Švaňa, Miloš

dc.contributor.advisor	Němec, Radek
dc.contributor.author	Švaňa, Miloš
dc.date.accessioned	2019-06-26T04:22:06Z
dc.date.available	2019-06-26T04:22:06Z
dc.date.issued	2019
dc.identifier.other	OSD002
dc.identifier.uri	http://hdl.handle.net/10084/135365
dc.description.abstract	In today’s world aid of computers is needed to process large quantities of text data. One of the tasks that can be automated is text document classification. Most classification algorithms require numerical input. Because of that, methods for transforming text into numerical vectors, i.e. vectorization, had to be developed. In this thesis we study different vectorization methods while solving a problem of author identification, using speeches made during Slovak national parliament meetings as training data. We compare well established bag-of-words family of vectorization methods with novel word-graph based approaches. Bag-of-words methods are considered intuitive but come with a number of disadvantages. Most notably, numerical vectors produced are sparse and high-dimensional. These issues are addressed by the word-graph based vectorization. Main goal of the thesis is to answer the question, whether these new approach is better for solving complex text classification problems. Tested vectorization methods are further combined with multiple algorithms for training classification models. These combinations are then compared in terms of classification accuracy and training time. Two dataset variants are examined during experiments: first having similar number of documents for each class and second having significant differences in number of samples available for different authors. The results show that bag-of-words provide better performance than originally proposed word-graph algorithm. We propose a set of modifications which, when applied, significantly improve classification accuracy. We find this modified model useful especially in combination with the decision tree classification method as it provides reasonable accuracy and the added benefit of easy interpretability.	en
dc.description.abstract	V dnešní době je k zpracování velkého množství textových dat nutná asistence počítačů. Jedním z úkolů, které je možné automatizovat, je klasifikace textových dokumentů. Většina algoritmů pro klasifikaci však vyžaduje číselný vstup. To znamená nutnost existence metod pro převod textu do do podoby číselných vektorů. Tento proces je často označován jako vektorizace. V této práci studujeme různé způsoby vektorizace na ukázkovém problému identifikace autora textu. Jako trénovací data jsou použité přepisy vystoupení politiků v Národní radě Slovenské republiky. Zaměřujeme se na dva typy vektorizace: běžně používanou rodinu metod bag-of-words a nové přístupy založené na konstrukci tzv. word-grafu. Metody bag-of-words lze považovat za intuitivní, na druhou stranu jsou ale spojené s řadou nevýhod. Nejvýznamnější z nich je řídkost a vysoký počet dimenzí výsledného vektoru. Tyhle nedostatky se snaží word-graph metody odstranit. Hlavním cílem této práce je zjistit, jestli je tento nový přístup lepší pro řešení komplexních klasifikačních problémů. Testované metody vektorizace jsou kombinovány s různými algoritmy pro trénovaní klasifikačních modelů. Tyto kombinace pak mezi sebou porovnáváme z pohledu přesnosti klasifikace a doby nutné pro natrénování. Použité jsou přitom dvě varianty datasetů: jeden s podobným počtem dokumentů pro každého autora, a druhý, kde se počet vzorků pro dostupných pro jednotlivé třídy značně liší. Výsledky ukazují, že tradiční bag-of-words metody poskytují při klasifikaci větší přesnost než původní word-graph algoritmus. Z tohoto důvodu dále navrhujeme sadu modifikací, které značně přesnost klasifikace zvyšují. Tento upravený model považujeme za obzvláště užitečný v kombinaci s klasifikací pomocí rozhodovacích stromů. Tato varianta poskytuje relativně vysokou přesnost a unikátní benefit lehké interpretace modelu.	cs
dc.format.extent	10140823 bytes
dc.format.mimetype	application/pdf
dc.language.iso	en
dc.publisher	Vysoká škola báňská - Technická univerzita Ostrava	cs
dc.subject	natural language processing	en
dc.subject	machine learning	en
dc.subject	classification	en
dc.subject	text processing	en
dc.subject	author identification	en
dc.subject	vectorization	en
dc.subject	bag-of-words	en
dc.subject	word-graph	en
dc.subject	zpracování přirozeného jazyka	cs
dc.subject	strojové učení	cs
dc.subject	klasifikace	cs
dc.subject	zpracování textu	cs
dc.subject	identifikace autora	cs
dc.subject	vektorizace	cs
dc.subject	bag-of-words	cs
dc.subject	word-graph	cs
dc.title	Automatic Identification of Slovak Text Author using Machine-Learning Methods	en
dc.title.alternative	Automatic Identification of Slovak Text Author using Machine-Learning Methods	cs
dc.type	Diplomová práce	cs
dc.contributor.referee	Martiník, Ivo
dc.date.accepted	2019-05-28
dc.thesis.degree-name	Ing.
dc.thesis.degree-level	Magisterský studijní program	cs
dc.thesis.degree-grantor	Vysoká škola báňská - Technická univerzita Ostrava. Ekonomická fakulta	cs
dc.description.department	157 - Katedra systémového inženýrství	cs
dc.thesis.degree-program	Systémové inženýrství a informatika	cs
dc.thesis.degree-branch	Informatika v ekonomice	cs
dc.description.result	výborně	cs
dc.identifier.sender	S2751
dc.identifier.thesis	SVA0158_EKF_N6209_6209T017_2019
dc.rights.access	openAccess

Soubory tohoto záznamu

Název:: SVA0158_EKF_N6209_6209T017_2019.pdf
Velikost:: 9.671Mb
Formát:: PDF
Popis:: Text práce

Zobrazit/otevřít

Název:: SVA0158_EKF_N6209_6209T017_201 ...
Velikost:: 601.3Kb
Formát:: Neznámý
Popis:: Příloha

Zobrazit/otevřít

Název:: SVA0158_EKF_N6209_6209T017_201 ...
Velikost:: 255.8Kb
Formát:: PDF
Popis:: Posudek vedoucího – Němec, Radek

Zobrazit/otevřít

Název:: SVA0158_EKF_N6209_6209T017_201 ...
Velikost:: 1.947Mb
Formát:: PDF
Popis:: Posudek oponenta – Martiník, Ivo

Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Vysokoškolské kvalifikační práce Ekonomické fakulty / Theses and dissertations of Faculty of Economics (EKF) [36614]
Kolekce obsahuje bibliografické záznamy vysokoškolských kvalifikačních prací Ekonomické fakulty.

Zobrazit minimální záznam