Zobrazit minimální záznam

dc.contributor.advisorPlatoš, Jan
dc.contributor.authorKožušník, Petr
dc.date.accessioned2024-10-08T08:41:02Z
dc.date.available2024-10-08T08:41:02Z
dc.date.issued2024
dc.identifier.otherOSD002
dc.identifier.urihttp://hdl.handle.net/10084/155077
dc.description.abstractTato práce se zabývá využitím hlubokých neuronových sítí, zejména modelů transformer, v oblasti zpracování přirozeného jazyka (NLP). Poskytuje obecný přehled fungování neuronových sítí, popisuje její základní principy, aplikace a motivace pro jejich použití v NLP. Model transformer je popsán přesněji s~cílem objasnit jeho inovativní architekturu, včetně mechanismu pozornosti, a~vysvětlit jeho výhody. Práce si klade za cíl přispět k~poznatkům o fungování transformerů, zhodnotit jejich vliv na~pokrok v řešení NLP a posloužit jako reference pro oblast zpracování přirozeného jazyka pomocí hlubokých neuronových sítí. Součástí výstupu práce jsou volně dostupné referenční řešení úloh, nebo datová sada, připravená pro úlohy maskovaného modelování jazyka a predikce následující věty, podobná datovým sadám užívaným k~předtrénování současných state-of-the-art modelů, jako je BERT. Dále je součástí implementace vzorového transformer modelu, včetně jeho předtrénování a zkoumána jeho výkonnost v úloze extraktivního odpovídání na~otázky. Jednotlivé úlohy, na~kterých je demonstrována zejména výkonnost jazykových modelů a problematika správného předzpracování dat jsou řešeny pomocí ladění modelu disilBERT.cs
dc.description.abstractThis paper explores the use of deep neural networks, particularly transformer models, in the field of natural language processing (NLP). It provides a general overview of how neural networks work, describing its basic principles, applications and motivations for their use in NLP. The transformer model is described in more detail in order to explain its innovative architecture, including its attention mechanism, and to explain its advantages. The paper aims to contribute to~knowledge about the operation of transformers, to evaluate their impact on~advances in NLP solutions, and to serve as a reference for the field of natural language processing using deep neural networks. The output of the work includes freely available reference solutions to the problems, or dataset, prepared for masked language modeling and next-sentence prediction tasks, similar to the dataset used to~pre-train current state-of-the-art models such as BERT. Furthermore, the implementation of the sample transformer model, including its pre-training, is included and its performance in the extractive question answering task is investigated. In particular, individual tasks on~which the performance of language models and the issue of correct data preprocessing are demonstrated are solved by tuning the disilBERT model.en
dc.format.extent988238 bytes
dc.format.mimetypeapplication/pdf
dc.language.isocs
dc.publisherVysoká škola báňská – Technická univerzita Ostravacs
dc.subjectstrojové učenícs
dc.subjectumělé neuronové sítěcs
dc.subjecthluboké učení, zpracování přirozeného jazykacs
dc.subjectklasifikace textucs
dc.subjectrozpoznávání pojmenovaných entitcs
dc.subjectextraktivní odpovídání na~otázkycs
dc.subjectmodel transformercs
dc.subjectmechanismus pozornostics
dc.subjectvelké jazykové modelycs
dc.subjectvektory vloženícs
dc.subjectdistilBERTcs
dc.subjecttrénování modelůcs
dc.subjectjemné laděnícs
dc.subjectpředzpracování datcs
dc.subjecthyperparametrizacecs
dc.subjectmachine learningen
dc.subjectartificial neural networksen
dc.subjectdeep learning, natural language processingen
dc.subjecttext classificationen
dc.subjectnamed entity recognitionen
dc.subjectextractive question answeringen
dc.subjectmodel transformeren
dc.subjectattention mechanismen
dc.subjectlarge language modelsen
dc.subjectembedding vectorsen
dc.subjectdistilBERTen
dc.subjectmodel trainingen
dc.subjectfine tuningen
dc.subjectdata preprocessingen
dc.subjecthyperparametrizationen
dc.titleZpracování textu pomocí hlubokých neuronových sítícs
dc.title.alternativeText Processing using Neural Networksen
dc.typeDiplomová prácecs
dc.contributor.refereeVašinek, Michal
dc.date.accepted2024-08-06
dc.thesis.degree-nameIng.
dc.thesis.degree-levelMagisterský studijní programcs
dc.thesis.degree-grantorVysoká škola báňská – Technická univerzita Ostrava. Fakulta elektrotechniky a informatikycs
dc.description.department460 - Katedra informatikycs
dc.thesis.degree-programInformační a komunikační technologiecs
dc.thesis.degree-branchInformatika a výpočetní technikacs
dc.description.resultvelmi dobřecs
dc.identifier.senderS2724
dc.identifier.thesisKOZ0265_FEI_N2647_2612T025_2024
dc.rights.accessopenAccess


Soubory tohoto záznamu

Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam