Evolutionary and Neural Approaches in OCR Error Correction

Nguyen, Dung Quoc

dc.contributor.advisor	Krömer, Pavel
dc.contributor.author	Nguyen, Dung Quoc
dc.date.accessioned	2022-12-19T12:04:58Z
dc.date.available	2022-12-19T12:04:58Z
dc.date.issued	2022
dc.identifier.other	OSD002
dc.identifier.uri	http://hdl.handle.net/10084/149025
dc.description.abstract	Optical Character Recognition (OCR) systems help to digitize paper-based archives. However, the poor quality of scanned documents and the limitations of text recognition techniques result in different types of errors in digitized texts, known as OCR texts. OCR errors impact the readability of OCR texts and suspend their readiness for information retrieval and search applications. Post-processing is an essential and important step in improving the quality of OCR texts by detecting and correcting OCR errors. Different approaches to OCR post-processing have been proposed, including corpus-based language models, machine learning, evolutionary algorithms, and statistical and neural machine translation. However, the current OCR error detection and correction results justify that it is still challenging when dealing with low-quality OCR texts in different languages, especially for historical documents. In this thesis, we present an overview of related works on OCR post-processing; provide statistical study of OCR errors and their causes; develop statistical, evolutionary, optimization-based, and neural methods for OCR error correction; and evaluate them on English and Vietnamese benchmark OCR text datasets. In particular, the main contributions of the dissertation thesis are as follows: 1. Designing and constructing the Vietnamese OCR text dataset for model training and evaluation. 2. Studying and providing the statistical analyses of OCR errors and their possible causes. 3. Proposing the algorithms for extracting and creating correction character patterns from training data, and for generating correction candidates with correction character patterns. 4. Proposing the automatic OCR post-processing models that include preprocessing, error detection, and error correction phases using language models and error models. 5. Proposing three kinds of methods for OCR error correction including statistical language model (SLM), evolutionary and optimization algorithms, and neural machine translation (NMT). Our proposed evolutionary and optimization-based methods are the first approaches that employ the evolutionary and optimization algorithms to solve the OCR error correction problem. 6. Our proposed OCR post-processing models can be used as a tool for OCR post-processing in various domains and languages.	en
dc.description.abstract	Systémy optického rozpoznávání znaků (OCR) pomáhají digitalizovat archivy textových dokumentů. Nízká kvalita skenovaných dokumentů a omezení metod rozpoznávání textu však mají v digitalizovaných textech, známých jako OCR texty, za následek různé typy chyb. Chyby v OCR ovlivňují čitelnost OCR textů a snižují jejich připravenost k použití pro vyhledávání informací a vyhledávací aplikace. Následné zpracování (post-processing) je při zlepšování kvality textů OCR pomocí detekce a opravy chyb nezbytným a důležitým krokem. Byly navrženy různé metody pro následné zpracování OCR textů, včetně jazykových modelů založených na korpusu, strojového učení, evolučních algoritmů a statistického a neurálního strojového překladu. Výsledky současných metod pro detekci chyb v OCR a oprav textů však dokládají, že je tento proces při práci s nekvalitními texty OCR v různých jazycích stále náročný, zejména u historických dokumentů. V této disertační práci uvádíme přehled souvisejících prací na téma následného zpracování OCR textů; provádíme statistické vyhodncení chyb v OCR a jejich příčin; navrhujeme statistické, evoluční, optimalizační a neuronové metody pro korekci chyb v OCR; a vyhodnocujeme je na testovacích datových sadách anglických a vietnamských OCR textů. Hlavní přínosy této disertační práce jsou zejména následující: 1. Návrh a konstrukce datového souboru vietnamských OCR textů pro trénování a hodnocení modelů. 2. Studium a statistická analýza chyb v OCR a jejich možných příčin. 3. Návrh algoritmů pro extrahování a vytváření vzorů znaků pro korekci textu z trénovacích dat a pro generování kandidátských vzorů znaků pro korekci textu. 4. Navrhování modelů automatického následného zpracování OCR, které zahrnují fáze předběžného zpracování, detekce chyb a opravy chyb, na základě jazykových modelů a modelů chyb. 5. Návrh tří druhů metod pro opravu chyb v OCR včetně statistického jazykového modelu (SLM), evolučních a optimalizačních algoritmů a neuronového strojového překladu (NMT). Navržené evoluční a optimalizační metody jsou prvními přístupy, které využívají evoluční a optimalizační algoritmy k řešení problému opravy chyb v OCR. 6. Naše navrhované modely OCR post-processingu lze použít jako nástroj pro následné zpracování OCR textů v různých aplikačních doménách a jazycích.	cs
dc.format	107 stran : ilustrace
dc.format.extent	4373730 bytes
dc.format.mimetype	application/pdf
dc.language.iso	en
dc.publisher	Vysoká škola báňská – Technická univerzita Ostrava	cs
dc.subject	OCR	en
dc.subject	post-processing	en
dc.subject	error detection	en
dc.subject	error correction	en
dc.subject	language model	en
dc.subject	error model	en
dc.subject	evolutionary algorithm	en
dc.subject	machine translation	en
dc.subject	OCR	cs
dc.subject	následné zpracování	cs
dc.subject	detekce chyb	cs
dc.subject	oprava chyb	cs
dc.subject	jazykový model	cs
dc.subject	model chyb	cs
dc.subject	evoluční algoritmus	cs
dc.subject	strojový překlad	cs
dc.title	Evolutionary and Neural Approaches in OCR Error Correction	en
dc.title.alternative	Evoluční a neurální přístupy v OCR korekci chyb	cs
dc.type	Disertační práce	cs
dc.identifier.signature	202300063
dc.identifier.location	ÚK/Sklad diplomových prací
dc.contributor.referee	Ludwig, Simone
dc.contributor.referee	Dvorský, Jiří
dc.contributor.referee	Šenkeřík, Roman
dc.date.accepted	2022-11-23
dc.thesis.degree-name	Ph.D.
dc.thesis.degree-level	Doktorský studijní program	cs
dc.thesis.degree-grantor	Vysoká škola báňská – Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky	cs
dc.description.department	460 - Katedra informatiky	cs
dc.thesis.degree-program	Informatika	cs
dc.description.result	vyhověl	cs
dc.identifier.sender	S2724
dc.identifier.thesis	NGU0049_FEI_P0613D140006_2022
dc.rights.access	openAccess

Soubory tohoto záznamu

Název:: NGU0049_FEI_P0613D140006_2022.pdf
Velikost:: 4.171Mb
Formát:: PDF
Popis:: Text práce

Zobrazit/otevřít

Název:: NGU0049_FEI_P0613D140006_2022_ ...
Velikost:: 56.99Kb
Formát:: PDF
Popis:: Posudek oponenta – Dvorský, Jiří

Zobrazit/otevřít

Název:: NGU0049_FEI_P0613D140006_2022_ ...
Velikost:: 105.8Kb
Formát:: PDF
Popis:: Posudek oponenta – Ludwig, Simone

Zobrazit/otevřít

Název:: NGU0049_FEI_P0613D140006_2022_ ...
Velikost:: 57.58Kb
Formát:: PDF
Popis:: Posudek oponenta – Šenkeřík, Roman

Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Vysokoškolské kvalifikační práce Fakulty elektrotechniky a informatiky / Theses and dissertations of Faculty of Electrical Engineering and Computer Science (FEI) [13253]
Kolekce obsahuje vysokoškolské kvalifikační práce Fakulty elektrotechniky a informatiky.

Zobrazit minimální záznam