Zobrazit minimální záznam

dc.contributor.advisorPlatoš, Jan
dc.contributor.authorSikorová, Alexandra
dc.date.accessioned2025-06-23T11:50:12Z
dc.date.available2025-06-23T11:50:12Z
dc.date.issued2025
dc.identifier.otherOSD002
dc.identifier.urihttp://hdl.handle.net/10084/157035
dc.description.abstractTato diplomová práce se zaměřuje na metody přepisu audiozáznamů do textové podoby se zvláštním důrazem na přesnost přepisu. Práce shrnuje principy automatického rozpoznávání řeči, klasické přístupy využívající skryté Markovovy modely a Gaussovské směsné modely, moderní metody založené na hlubokých neuronových sítích a end-to-end architektury. Hlavní pozornost je věnována modelu Whisper, který byl implementován a experimentálně vyhodnocen. Pro ověření výkonu byly provedeny experimenty s různými technikami zpracování dat, modifikacemi modelu a úpravou trénovacích parametrů. Výsledky ukazují, že jemné doladění modelu, včetně použití augmentace audia a přidání hustých či adaptér vrstev, vede k významnému zlepšení přesnosti přepisu měřené pomocí metrik WER a CER. Přínosem práce je praktická implementace efektivního systému přepisu řeči v českém jazyce a analýza vlivu jednotlivých experimentálních metod na kvalitu přepisu.cs
dc.description.abstractThis master's thesis focuses on methods for transcribing audio recordings into text, with a particular emphasis on transcription accuracy. The work summarizes the principles of automatic speech recognition, including traditional approaches based on Hidden Markov Models and Gaussian Mixture Models, as well as modern methods using deep neural networks and end-to-end architectures. Special attention is given to the Whisper model, which was implemented and experimentally evaluated. To validate the system’s performance, experiments were conducted involving data processing techniques, model modifications, and training parameter adjustments. The results show that fine-tuning the model, including audio augmentation and the addition of dense or adapter layers, significantly improves transcription accuracy measured by WER and CER metrics. The contribution of the thesis lies in the practical implementation of an efficient Czech speech transcription system and the analysis of the impact of various experimental methods on transcription quality.en
dc.format.extent3427656 bytes
dc.format.mimetypeapplication/pdf
dc.language.isocs
dc.publisherVysoká škola báňská – Technická univerzita Ostravacs
dc.subjectautomatické rozpoznávání řečics
dc.subjectpřepis zvuku na textcs
dc.subjectmodel Whispercs
dc.subjecthluboké učenícs
dc.subjectmetriky WER a CERcs
dc.subjectaugmentace audiacs
dc.subjectneuronové sítěcs
dc.subjectčeský jazykcs
dc.subjectautomatic speech recognitionen
dc.subjectaudio-to-text transcriptionen
dc.subjectWhisper modelen
dc.subjectdeep learningen
dc.subjectWER and CER metricsen
dc.subjectaudio augmentationen
dc.subjectneural networksen
dc.subjectCzech languageen
dc.titlePřepis audiozáznamů do textové podobycs
dc.title.alternativeTranscription of Audio Recordings into Text Formen
dc.typeDiplomová prácecs
dc.contributor.refereeSvoboda, Radek
dc.date.accepted2025-06-04
dc.thesis.degree-nameIng.
dc.thesis.degree-levelMagisterský studijní programcs
dc.thesis.degree-grantorVysoká škola báňská – Technická univerzita Ostrava. Fakulta elektrotechniky a informatikycs
dc.description.department460 - Katedra informatikycs
dc.thesis.degree-programInformatikacs
dc.description.resultvýborněcs
dc.identifier.senderS2724
dc.identifier.thesisSIK0185_FEI_N0613A140034_2025
dc.rights.accessopenAccess


Soubory tohoto záznamu

Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam