dc.contributor.advisor | Klimsza, Lucjan | |
dc.contributor.author | Okon, Aleš | |
dc.date.accessioned | 2025-06-23T11:47:02Z | |
dc.date.available | 2025-06-23T11:47:02Z | |
dc.date.issued | 2025 | |
dc.identifier.other | OSD002 | |
dc.identifier.uri | http://hdl.handle.net/10084/156062 | |
dc.description.abstract | Práce se zabývá vývojem softwarového řešení pro semi-automatizovanou extrakci environmentálních, sociálních a governance (ESG) aktivit a klíčových hospodářských ukazatelů z podnikových dokumentů. Cílem bylo vytvořit nástroj, jenž využívá moderní techniky umělé inteligence a data miningu k analýze strojově čitelných výročních zpráv a ESG reportů a dokáže z nich extrahovat relevantní informace o ESG aktivitách dle evropského standardu ESRS, zároveň pak vypočítá finanční metriky a kvantifikuje kvalitativní ESG data.
Pro účely práce byl sestaven korpus přibližně 30 veřejně dostupných výročních zpráv českých společností z let 2019–2023. Dokumenty byly strojově předzpracovány (extrakce textu z PDF/DOCX, OCR tam, kde bylo nutné), segmentovány do tzv. „chunků“ o max. 50 000 znacích a opatřeny instrukcemi obsahujícími úplný rejstřík témat ESRS. Softwarový prototyp byl implementován v Pythonu s využitím knihoven PyPDF2, python-docx, tkinter a pyperclip, přičemž interakce s velkým jazykovým modelem (GPT-o3) probíhala formou kopírování promptů do schránky.
Testování na vybraných dokumentech prokázalo, že model po obdržení kompletního promptu spolehlivě generuje tabulky přiřazující jednotlivá témata ESRS, počítá celkové i dílčí ESG skóre a extrahuje finanční ukazatele (tržby, EBITDA, čistý zisk, celková aktiva, ROA, ROE). Strojová extrakce dosáhla průměrné shody 84 % v porovnání s ruční anotací v tematických kategoriích a 97 % přesnosti v identifikaci číselných údajů.
Výsledky potvrzují, že vyvinuté softwarové řešení splňuje jak hlavní výzkumnou otázku – zda lze AI-nástrojem automatizovaně analyzovat a extrahovat klíčové ESG a ekonomické informace z podnikových dokumentů, tak vedlejší otázku, zda je možné kvantifikovat kvalitativní ESG data. Součástí práce jsou doporučení pro manažerskou praxi a návrhy dalšího rozvoje prototypu, včetně plné automatizace API volání, rozšíření metriky hodnocení a nasazení v multilingválním prostředí. | cs |
dc.description.abstract | The thesis deals with the development of a software solution for the semi-automated extraction of environmental, social, and governance (ESG) activities and key financial indicators from corporate documents. Its aim was to create a tool that leverages modern artificial intelligence and data-mining techniques to analyze machine-readable annual reports and ESG disclosures, extract relevant information on ESG activities in accordance with the European Sustainability Reporting Standards (ESRS), compute financial metrics, and quantify qualitative ESG data.
For this purpose, a corpus of approximately 30 publicly available annual reports of Czech companies from 2019 to 2023 was assembled. Documents were preprocessed automatically (text extraction from PDF/DOCX, OCR where necessary), segmented into “chunks” of up to 50,000 characters, and annotated with instructions containing the complete index of ESRS topics. The software prototype was implemented in Python using the PyPDF2, python-docx, tkinter, and pyperclip libraries, with interaction with the large language model (GPT-o3) carried out by copying prompts to the clipboard.
Testing on selected documents demonstrated that, once provided with the full prompt, the model reliably generates tables mapping individual ESRS topics, calculates overall and sub-scores for ESG, and extracts financial indicators (revenue, EBITDA, net profit, total assets, ROA, ROE). The automated extraction achieved an average agreement of 84 % with manual annotation in thematic categories and 97 % accuracy in identifying numerical values.
The results confirm that the developed software solution satisfies both the primary research question—whether an AI-driven tool can automatically analyze and extract key ESG and financial information from corporate documents—and the secondary question of whether it is possible to quantify qualitative ESG data. The thesis also includes recommendations for managerial practice and proposals for further prototype development, including full automation of API calls, expansion of evaluation metrics, and deployment in a multilingual environment. | en |
dc.format.extent | 1269041 bytes | |
dc.format.mimetype | application/pdf | |
dc.language.iso | cs | |
dc.publisher | Vysoká škola báňská – Technická univerzita Ostrava | cs |
dc.subject | ESG | cs |
dc.subject | ESRS | cs |
dc.subject | extrakce dat | cs |
dc.subject | zpracování přirozeného jazyka | cs |
dc.subject | strojové učení | cs |
dc.subject | data mining | cs |
dc.subject | optické rozpoznávání znaků | cs |
dc.subject | výroční zprávy | cs |
dc.subject | velké jazykové modely | cs |
dc.subject | Python | cs |
dc.subject | automatizovaná analýza dokumentů | cs |
dc.subject | hospodářské ukazatele | cs |
dc.subject | ESG | en |
dc.subject | ESRS | en |
dc.subject | Data extraction | en |
dc.subject | Natural Language Processing | en |
dc.subject | Machine Learning | en |
dc.subject | Data mining | en |
dc.subject | Optical Character Recognition | en |
dc.subject | Annual reports | en |
dc.subject | Large Language Models | en |
dc.subject | Python | en |
dc.subject | Automated document analysis | en |
dc.subject | Financial indicators | en |
dc.title | Využití AI a data miningu k analýze vlivu ESG na hospodářské výsledky podniku | cs |
dc.title.alternative | Using AI and Data Mining to Analyze the Impact of ESG on Business Performance | en |
dc.type | Bakalářská práce | cs |
dc.contributor.referee | Žižka, Ivo | |
dc.date.accepted | 2025-06-02 | |
dc.thesis.degree-name | Bc. | |
dc.thesis.degree-level | Bakalářský studijní program | cs |
dc.thesis.degree-grantor | Vysoká škola báňská – Technická univerzita Ostrava. Ekonomická fakulta | cs |
dc.description.department | 115 - Katedra managementu | cs |
dc.thesis.degree-program | Ekonomika a management | cs |
dc.thesis.degree-branch | Management | cs |
dc.description.result | velmi dobře | cs |
dc.identifier.sender | S2751 | |
dc.identifier.thesis | OKO0006_EKF_B0413A050012_S03_2025 | |
dc.rights.access | openAccess | |