dc.contributor.advisor | Platoš, Jan | |
dc.contributor.author | Sikorová, Alexandra | |
dc.date.accessioned | 2025-06-23T11:50:12Z | |
dc.date.available | 2025-06-23T11:50:12Z | |
dc.date.issued | 2025 | |
dc.identifier.other | OSD002 | |
dc.identifier.uri | http://hdl.handle.net/10084/157035 | |
dc.description.abstract | Tato diplomová práce se zaměřuje na metody přepisu audiozáznamů do textové podoby se zvláštním důrazem na přesnost přepisu. Práce shrnuje principy automatického rozpoznávání řeči, klasické přístupy využívající skryté Markovovy modely a Gaussovské směsné modely, moderní metody založené na hlubokých neuronových sítích a end-to-end architektury. Hlavní pozornost je věnována modelu Whisper, který byl implementován a experimentálně vyhodnocen. Pro ověření výkonu byly provedeny experimenty s různými technikami zpracování dat, modifikacemi modelu a úpravou trénovacích parametrů. Výsledky ukazují, že jemné doladění modelu, včetně použití augmentace audia a přidání hustých či adaptér vrstev, vede k významnému zlepšení přesnosti přepisu měřené pomocí metrik WER a CER. Přínosem práce je praktická implementace efektivního systému přepisu řeči v českém jazyce a analýza vlivu jednotlivých experimentálních metod na kvalitu přepisu. | cs |
dc.description.abstract | This master's thesis focuses on methods for transcribing audio recordings into text, with a particular emphasis on transcription accuracy. The work summarizes the principles of automatic speech recognition, including traditional approaches based on Hidden Markov Models and Gaussian Mixture Models, as well as modern methods using deep neural networks and end-to-end architectures. Special attention is given to the Whisper model, which was implemented and experimentally evaluated. To validate the system’s performance, experiments were conducted involving data processing techniques, model modifications, and training parameter adjustments. The results show that fine-tuning the model, including audio augmentation and the addition of dense or adapter layers, significantly improves transcription accuracy measured by WER and CER metrics. The contribution of the thesis lies in the practical implementation of an efficient Czech speech transcription system and the analysis of the impact of various experimental methods on transcription quality. | en |
dc.format.extent | 3427656 bytes | |
dc.format.mimetype | application/pdf | |
dc.language.iso | cs | |
dc.publisher | Vysoká škola báňská – Technická univerzita Ostrava | cs |
dc.subject | automatické rozpoznávání řeči | cs |
dc.subject | přepis zvuku na text | cs |
dc.subject | model Whisper | cs |
dc.subject | hluboké učení | cs |
dc.subject | metriky WER a CER | cs |
dc.subject | augmentace audia | cs |
dc.subject | neuronové sítě | cs |
dc.subject | český jazyk | cs |
dc.subject | automatic speech recognition | en |
dc.subject | audio-to-text transcription | en |
dc.subject | Whisper model | en |
dc.subject | deep learning | en |
dc.subject | WER and CER metrics | en |
dc.subject | audio augmentation | en |
dc.subject | neural networks | en |
dc.subject | Czech language | en |
dc.title | Přepis audiozáznamů do textové podoby | cs |
dc.title.alternative | Transcription of Audio Recordings into Text Form | en |
dc.type | Diplomová práce | cs |
dc.contributor.referee | Svoboda, Radek | |
dc.date.accepted | 2025-06-04 | |
dc.thesis.degree-name | Ing. | |
dc.thesis.degree-level | Magisterský studijní program | cs |
dc.thesis.degree-grantor | Vysoká škola báňská – Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky | cs |
dc.description.department | 460 - Katedra informatiky | cs |
dc.thesis.degree-program | Informatika | cs |
dc.description.result | výborně | cs |
dc.identifier.sender | S2724 | |
dc.identifier.thesis | SIK0185_FEI_N0613A140034_2025 | |
dc.rights.access | openAccess | |