dc.contributor.advisor | Platoš, Jan | |
dc.contributor.author | Kožušník, Petr | |
dc.date.accessioned | 2024-10-08T08:41:02Z | |
dc.date.available | 2024-10-08T08:41:02Z | |
dc.date.issued | 2024 | |
dc.identifier.other | OSD002 | |
dc.identifier.uri | http://hdl.handle.net/10084/155077 | |
dc.description.abstract | Tato práce se zabývá využitím hlubokých neuronových sítí, zejména modelů transformer, v oblasti zpracování přirozeného jazyka (NLP). Poskytuje obecný přehled fungování neuronových sítí, popisuje její základní principy, aplikace a motivace pro jejich použití v NLP. Model transformer je popsán přesněji s~cílem objasnit jeho inovativní architekturu, včetně mechanismu pozornosti, a~vysvětlit jeho výhody.
Práce si klade za cíl přispět k~poznatkům o fungování transformerů, zhodnotit jejich vliv na~pokrok v řešení NLP a posloužit jako reference pro oblast zpracování přirozeného jazyka pomocí hlubokých neuronových sítí. Součástí výstupu práce jsou volně dostupné referenční řešení úloh, nebo datová sada, připravená pro úlohy maskovaného modelování jazyka a predikce následující věty, podobná datovým sadám užívaným k~předtrénování současných state-of-the-art modelů, jako je BERT.
Dále je součástí implementace vzorového transformer modelu, včetně jeho předtrénování a zkoumána jeho výkonnost v úloze extraktivního odpovídání na~otázky.
Jednotlivé úlohy, na~kterých je demonstrována zejména výkonnost jazykových modelů a problematika správného předzpracování dat jsou řešeny pomocí ladění modelu disilBERT. | cs |
dc.description.abstract | This paper explores the use of deep neural networks, particularly transformer models, in the field of natural language processing (NLP). It provides a general overview of how neural networks work, describing its basic principles, applications and motivations for their use in NLP. The transformer model is described in more detail in order to explain its innovative architecture, including its attention mechanism, and to explain its advantages.
The paper aims to contribute to~knowledge about the operation of transformers, to evaluate their impact on~advances in NLP solutions, and to serve as a reference for the field of natural language processing using deep neural networks. The output of the work includes freely available reference solutions to the problems, or dataset, prepared for masked language modeling and next-sentence prediction tasks, similar to the dataset used to~pre-train current state-of-the-art models such as BERT.
Furthermore, the implementation of the sample transformer model, including its pre-training, is included and its performance in the extractive question answering task is investigated.
In particular, individual tasks on~which the performance of language models and the issue of correct data preprocessing are demonstrated are solved by tuning the disilBERT model. | en |
dc.format.extent | 988238 bytes | |
dc.format.mimetype | application/pdf | |
dc.language.iso | cs | |
dc.publisher | Vysoká škola báňská – Technická univerzita Ostrava | cs |
dc.subject | strojové učení | cs |
dc.subject | umělé neuronové sítě | cs |
dc.subject | hluboké učení, zpracování přirozeného jazyka | cs |
dc.subject | klasifikace textu | cs |
dc.subject | rozpoznávání pojmenovaných entit | cs |
dc.subject | extraktivní odpovídání na~otázky | cs |
dc.subject | model transformer | cs |
dc.subject | mechanismus pozornosti | cs |
dc.subject | velké jazykové modely | cs |
dc.subject | vektory vložení | cs |
dc.subject | distilBERT | cs |
dc.subject | trénování modelů | cs |
dc.subject | jemné ladění | cs |
dc.subject | předzpracování dat | cs |
dc.subject | hyperparametrizace | cs |
dc.subject | machine learning | en |
dc.subject | artificial neural networks | en |
dc.subject | deep learning, natural language processing | en |
dc.subject | text classification | en |
dc.subject | named entity recognition | en |
dc.subject | extractive question answering | en |
dc.subject | model transformer | en |
dc.subject | attention mechanism | en |
dc.subject | large language models | en |
dc.subject | embedding vectors | en |
dc.subject | distilBERT | en |
dc.subject | model training | en |
dc.subject | fine tuning | en |
dc.subject | data preprocessing | en |
dc.subject | hyperparametrization | en |
dc.title | Zpracování textu pomocí hlubokých neuronových sítí | cs |
dc.title.alternative | Text Processing using Neural Networks | en |
dc.type | Diplomová práce | cs |
dc.contributor.referee | Vašinek, Michal | |
dc.date.accepted | 2024-08-06 | |
dc.thesis.degree-name | Ing. | |
dc.thesis.degree-level | Magisterský studijní program | cs |
dc.thesis.degree-grantor | Vysoká škola báňská – Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky | cs |
dc.description.department | 460 - Katedra informatiky | cs |
dc.thesis.degree-program | Informační a komunikační technologie | cs |
dc.thesis.degree-branch | Informatika a výpočetní technika | cs |
dc.description.result | velmi dobře | cs |
dc.identifier.sender | S2724 | |
dc.identifier.thesis | KOZ0265_FEI_N2647_2612T025_2024 | |
dc.rights.access | openAccess | |