Zobrazit minimální záznam

dc.contributor.advisorNěmec, Radek
dc.contributor.authorŠvaňa, Miloš
dc.date.accessioned2019-06-26T04:22:06Z
dc.date.available2019-06-26T04:22:06Z
dc.date.issued2019
dc.identifier.otherOSD002
dc.identifier.urihttp://hdl.handle.net/10084/135365
dc.description.abstractIn today’s world aid of computers is needed to process large quantities of text data. One of the tasks that can be automated is text document classification. Most classification algorithms require numerical input. Because of that, methods for transforming text into numerical vectors, i.e. vectorization, had to be developed. In this thesis we study different vectorization methods while solving a problem of author identification, using speeches made during Slovak national parliament meetings as training data. We compare well established bag-of-words family of vectorization methods with novel word-graph based approaches. Bag-of-words methods are considered intuitive but come with a number of disadvantages. Most notably, numerical vectors produced are sparse and high-dimensional. These issues are addressed by the word-graph based vectorization. Main goal of the thesis is to answer the question, whether these new approach is better for solving complex text classification problems. Tested vectorization methods are further combined with multiple algorithms for training classification models. These combinations are then compared in terms of classification accuracy and training time. Two dataset variants are examined during experiments: first having similar number of documents for each class and second having significant differences in number of samples available for different authors. The results show that bag-of-words provide better performance than originally proposed word-graph algorithm. We propose a set of modifications which, when applied, significantly improve classification accuracy. We find this modified model useful especially in combination with the decision tree classification method as it provides reasonable accuracy and the added benefit of easy interpretability.en
dc.description.abstractV dnešní době je k zpracování velkého množství textových dat nutná asistence počítačů. Jedním z úkolů, které je možné automatizovat, je klasifikace textových dokumentů. Většina algoritmů pro klasifikaci však vyžaduje číselný vstup. To znamená nutnost existence metod pro převod textu do do podoby číselných vektorů. Tento proces je často označován jako vektorizace. V této práci studujeme různé způsoby vektorizace na ukázkovém problému identifikace autora textu. Jako trénovací data jsou použité přepisy vystoupení politiků v Národní radě Slovenské republiky. Zaměřujeme se na dva typy vektorizace: běžně používanou rodinu metod bag-of-words a nové přístupy založené na konstrukci tzv. word-grafu. Metody bag-of-words lze považovat za intuitivní, na druhou stranu jsou ale spojené s řadou nevýhod. Nejvýznamnější z nich je řídkost a vysoký počet dimenzí výsledného vektoru. Tyhle nedostatky se snaží word-graph metody odstranit. Hlavním cílem této práce je zjistit, jestli je tento nový přístup lepší pro řešení komplexních klasifikačních problémů. Testované metody vektorizace jsou kombinovány s různými algoritmy pro trénovaní klasifikačních modelů. Tyto kombinace pak mezi sebou porovnáváme z pohledu přesnosti klasifikace a doby nutné pro natrénování. Použité jsou přitom dvě varianty datasetů: jeden s podobným počtem dokumentů pro každého autora, a druhý, kde se počet vzorků pro dostupných pro jednotlivé třídy značně liší. Výsledky ukazují, že tradiční bag-of-words metody poskytují při klasifikaci větší přesnost než původní word-graph algoritmus. Z tohoto důvodu dále navrhujeme sadu modifikací, které značně přesnost klasifikace zvyšují. Tento upravený model považujeme za obzvláště užitečný v kombinaci s klasifikací pomocí rozhodovacích stromů. Tato varianta poskytuje relativně vysokou přesnost a unikátní benefit lehké interpretace modelu.cs
dc.format.extent10140823 bytes
dc.format.mimetypeapplication/pdf
dc.language.isoen
dc.publisherVysoká škola báňská - Technická univerzita Ostravacs
dc.subjectnatural language processingen
dc.subjectmachine learningen
dc.subjectclassificationen
dc.subjecttext processingen
dc.subjectauthor identificationen
dc.subjectvectorizationen
dc.subjectbag-of-wordsen
dc.subjectword-graphen
dc.subjectzpracování přirozeného jazykacs
dc.subjectstrojové učenícs
dc.subjectklasifikacecs
dc.subjectzpracování textucs
dc.subjectidentifikace autoracs
dc.subjectvektorizacecs
dc.subjectbag-of-wordscs
dc.subjectword-graphcs
dc.titleAutomatic Identification of Slovak Text Author using Machine-Learning Methodsen
dc.title.alternativeAutomatic Identification of Slovak Text Author using Machine-Learning Methodscs
dc.typeDiplomová prácecs
dc.contributor.refereeMartiník, Ivo
dc.date.accepted2019-05-28
dc.thesis.degree-nameIng.
dc.thesis.degree-levelMagisterský studijní programcs
dc.thesis.degree-grantorVysoká škola báňská - Technická univerzita Ostrava. Ekonomická fakultacs
dc.description.department157 - Katedra systémového inženýrstvícs
dc.thesis.degree-programSystémové inženýrství a informatikacs
dc.thesis.degree-branchInformatika v ekonomicecs
dc.description.resultvýborněcs
dc.identifier.senderS2751
dc.identifier.thesisSVA0158_EKF_N6209_6209T017_2019
dc.rights.accessopenAccess


Soubory tohoto záznamu

Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam