Identifikácia autorov v textových dokumentoch

dc.contributor.advisorPlatoš, Jan
dc.contributor.authorMackovčáková, Sabína
dc.contributor.refereeVašinek, Michal
dc.date.accepted2024-06-05
dc.date.accessioned2024-06-27T17:25:13Z
dc.date.available2024-06-27T17:25:13Z
dc.date.issued2024
dc.description.abstractPráce se zabývá identifikací autorů v textových dokumentech. Cílem práce je otestovat modely strojového učení, neuronových sítí a hlubokých neuronových sítí a jejich vhodnost pro úlohy zpracování přirozeného jazyka a identifikace autorů v textových dokumentech. Teoretická část pojednává o přípravě dat před jejich použitím jako vstupu do modelů. Pojednává o technikách, které se používají pro předzpracování, dále jsou diskutovány formy vektorizace a vkládání slov. Jsou zde popsány jednotlivé modely z oblasti strojového učení, neuronových sítí a transformer modelů. V praktické části bylo provedeno několik experimentů, které jsou diskutovány a vyhodnoceny na základě 4 metrik - accuracy, recall, precision, f1 score. Byly testovány vyvážené a nevyvážené datové sady mezi sebou, několik typů vektorizací a nastavení jejich parametrů a modely byly přizpůsobeny tak, aby dosáhly co nejvyšší přesnosti.cs
dc.description.abstractThe thesis deals with the identification of authors in text documents. The aim of the work is to test machine learning, neural network and deep neural network models and their suitability for natural language processing and author identification tasks in text documents. The theoretical part discusses the preparation of data before using it as input to the models. It discusses the techniques that are used for preprocessing, and also discusses forms of vectorization and word embedding. Individual models from the fields of machine learning, neural networks and transformer models are described. In the practical part, several experiments have been conducted and are discussed and evaluated based on 4 metrics - accuracy, recall, precision, f1 score. Balanced and unbalanced datasets were tested against each other, several types of vectorizations and their parameter settings were tested and models were adjusted to achieve the highest accuracy.en
dc.description.department460 - Katedra informatikycs
dc.description.resultvelmi dobřecs
dc.format.extent3005997 bytes
dc.format.mimetypeapplication/pdf
dc.identifier.otherOSD002
dc.identifier.senderS2724
dc.identifier.thesisMAC0514_FEI_N0613A140034_2024
dc.identifier.urihttp://hdl.handle.net/10084/153765
dc.language.isosk
dc.publisherVysoká škola báňská – Technická univerzita Ostravacs
dc.rights.accessopenAccess
dc.subjectidentifikace autorstvícs
dc.subjectzpracování přirozeného jazykacs
dc.subjectzpracování textucs
dc.subjectstrojové učenícs
dc.subjectneuronové sítěcs
dc.subjectkonvoluční neuronové sítěcs
dc.subjectrekurentní neuronové sítěcs
dc.subjectarchitektura Transformercs
dc.subjectBertcs
dc.subjectDistilBertcs
dc.subjectElectracs
dc.subjectauthorship identificationen
dc.subjectnatural language processingen
dc.subjecttext processingen
dc.subjectmachine learningen
dc.subjectneural networksen
dc.subjectconvolutional neural networksen
dc.subjectrecurrent neural networksen
dc.subjecttransformer architectureen
dc.subjectBerten
dc.subjectDistilBerten
dc.subjectElectraen
dc.thesis.degree-grantorVysoká škola báňská – Technická univerzita Ostrava. Fakulta elektrotechniky a informatikycs
dc.thesis.degree-levelMagisterský studijní programcs
dc.thesis.degree-nameIng.
dc.thesis.degree-programInformatikacs
dc.titleIdentifikácia autorov v textových dokumentochsk
dc.title.alternativeIdentifikace autorů v textových dokumentechcs
dc.title.alternativeIdentification of Authors in Text Documentsen
dc.typeDiplomová prácecs

Files

Original bundle

Now showing 1 - 5 out of 5 results
Loading...
Thumbnail Image
Name:
MAC0514_FEI_N0613A140034_2024.pdf
Size:
2.87 MB
Format:
Adobe Portable Document Format
Description:
Text práce
Loading...
Thumbnail Image
Name:
MAC0514_FEI_N0613A140034_2024_zadani.pdf
Size:
126.17 KB
Format:
Adobe Portable Document Format
Description:
Zadání
Loading...
Thumbnail Image
Name:
MAC0514_FEI_N0613A140034_2024_priloha.7z
Size:
357.79 MB
Format:
Unknown data format
Description:
Příloha
Loading...
Thumbnail Image
Name:
MAC0514_FEI_N0613A140034_2024_posudek_vedouci_Platos_Jan.pdf
Size:
145.76 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího – Platoš, Jan
Loading...
Thumbnail Image
Name:
MAC0514_FEI_N0613A140034_2024_posudek_oponent_Vasinek_Michal.pdf
Size:
147.45 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta – Vašinek, Michal