Identifikácia autorov v textových dokumentoch
| dc.contributor.advisor | Platoš, Jan | |
| dc.contributor.author | Mackovčáková, Sabína | |
| dc.contributor.referee | Vašinek, Michal | |
| dc.date.accepted | 2024-06-05 | |
| dc.date.accessioned | 2024-06-27T17:25:13Z | |
| dc.date.available | 2024-06-27T17:25:13Z | |
| dc.date.issued | 2024 | |
| dc.description.abstract | Práce se zabývá identifikací autorů v textových dokumentech. Cílem práce je otestovat modely strojového učení, neuronových sítí a hlubokých neuronových sítí a jejich vhodnost pro úlohy zpracování přirozeného jazyka a identifikace autorů v textových dokumentech. Teoretická část pojednává o přípravě dat před jejich použitím jako vstupu do modelů. Pojednává o technikách, které se používají pro předzpracování, dále jsou diskutovány formy vektorizace a vkládání slov. Jsou zde popsány jednotlivé modely z oblasti strojového učení, neuronových sítí a transformer modelů. V praktické části bylo provedeno několik experimentů, které jsou diskutovány a vyhodnoceny na základě 4 metrik - accuracy, recall, precision, f1 score. Byly testovány vyvážené a nevyvážené datové sady mezi sebou, několik typů vektorizací a nastavení jejich parametrů a modely byly přizpůsobeny tak, aby dosáhly co nejvyšší přesnosti. | cs |
| dc.description.abstract | The thesis deals with the identification of authors in text documents. The aim of the work is to test machine learning, neural network and deep neural network models and their suitability for natural language processing and author identification tasks in text documents. The theoretical part discusses the preparation of data before using it as input to the models. It discusses the techniques that are used for preprocessing, and also discusses forms of vectorization and word embedding. Individual models from the fields of machine learning, neural networks and transformer models are described. In the practical part, several experiments have been conducted and are discussed and evaluated based on 4 metrics - accuracy, recall, precision, f1 score. Balanced and unbalanced datasets were tested against each other, several types of vectorizations and their parameter settings were tested and models were adjusted to achieve the highest accuracy. | en |
| dc.description.department | 460 - Katedra informatiky | cs |
| dc.description.result | velmi dobře | cs |
| dc.format.extent | 3005997 bytes | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.other | OSD002 | |
| dc.identifier.sender | S2724 | |
| dc.identifier.thesis | MAC0514_FEI_N0613A140034_2024 | |
| dc.identifier.uri | http://hdl.handle.net/10084/153765 | |
| dc.language.iso | sk | |
| dc.publisher | Vysoká škola báňská – Technická univerzita Ostrava | cs |
| dc.rights.access | openAccess | |
| dc.subject | identifikace autorství | cs |
| dc.subject | zpracování přirozeného jazyka | cs |
| dc.subject | zpracování textu | cs |
| dc.subject | strojové učení | cs |
| dc.subject | neuronové sítě | cs |
| dc.subject | konvoluční neuronové sítě | cs |
| dc.subject | rekurentní neuronové sítě | cs |
| dc.subject | architektura Transformer | cs |
| dc.subject | Bert | cs |
| dc.subject | DistilBert | cs |
| dc.subject | Electra | cs |
| dc.subject | authorship identification | en |
| dc.subject | natural language processing | en |
| dc.subject | text processing | en |
| dc.subject | machine learning | en |
| dc.subject | neural networks | en |
| dc.subject | convolutional neural networks | en |
| dc.subject | recurrent neural networks | en |
| dc.subject | transformer architecture | en |
| dc.subject | Bert | en |
| dc.subject | DistilBert | en |
| dc.subject | Electra | en |
| dc.thesis.degree-grantor | Vysoká škola báňská – Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky | cs |
| dc.thesis.degree-level | Magisterský studijní program | cs |
| dc.thesis.degree-name | Ing. | |
| dc.thesis.degree-program | Informatika | cs |
| dc.title | Identifikácia autorov v textových dokumentoch | sk |
| dc.title.alternative | Identifikace autorů v textových dokumentech | cs |
| dc.title.alternative | Identification of Authors in Text Documents | en |
| dc.type | Diplomová práce | cs |
Files
Original bundle
1 - 5 out of 5 results
Loading...
- Name:
- MAC0514_FEI_N0613A140034_2024.pdf
- Size:
- 2.87 MB
- Format:
- Adobe Portable Document Format
- Description:
- Text práce
Loading...
- Name:
- MAC0514_FEI_N0613A140034_2024_zadani.pdf
- Size:
- 126.17 KB
- Format:
- Adobe Portable Document Format
- Description:
- Zadání
Loading...
- Name:
- MAC0514_FEI_N0613A140034_2024_priloha.7z
- Size:
- 357.79 MB
- Format:
- Unknown data format
- Description:
- Příloha
Loading...
- Name:
- MAC0514_FEI_N0613A140034_2024_posudek_vedouci_Platos_Jan.pdf
- Size:
- 145.76 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek vedoucího – Platoš, Jan
Loading...
- Name:
- MAC0514_FEI_N0613A140034_2024_posudek_oponent_Vasinek_Michal.pdf
- Size:
- 147.45 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek oponenta – Vašinek, Michal