Data Compression Approach for Plagiarism Detection

Soori, Hussein Khaled Hussein

dc.contributor.advisor	Snášel, Václav
dc.contributor.author	Soori, Hussein Khaled Hussein
dc.date.accessioned	2016-12-13T12:07:16Z
dc.date.available	2016-12-13T12:07:16Z
dc.date.issued	2016
dc.identifier.other	OSD002	cs
dc.identifier.uri	http://hdl.handle.net/10084/116542
dc.description	Import 13/01/2017	cs
dc.description.abstract	In our digital era, the need for plagiarism detection tools is growing with the tremendous number of documents produced on daily basis in and outside academia in all fields of science. This includes, reports, students’ assignments, undergraduate and graduate theses and dissertations. While some students use cut and paste methods, some other students resort to different ways of plagiarism including, changing the sentence structure, paraphrasing and replacing words with their synonyms. This thesis focuses on creating textual plagiarism detection tools for detecting plagiarism of Arabic and Czech texts by implementing initial parts of a compression algorithm with its modifications where text similarity can be measured by compression-based similarity metrics. Next, it expands on this work by integrating this technique with a Czech synonyms thesaurus and a Czech stemmer to detect semantic plagiarism, including, paraphrasing and restructuring of Czech texts. On the other hand,stemming and syllabification are very important in information retrieval, data mining and language processing. Creating good stemming and syllabification rules is crucial. The demand goes even higher with languages spoken by wider population, such as Arabic language. This thesis presents a novel method for syllabification of Arabic text based on Arabic vowel letters. The thesis also presents a light stemming method for Arabic language. To fine-tune the results of this method, an online parser is used, before stemming, to better categorize the different parts of speech and, later, the output words are matched with an electronic dictionary.	en
dc.description.abstract	V naší digitální éře, je potřeba nástrojů pro detekci plagiátorství z důvodů obrovského počtu denně rostoucích dokumentů ať již v akademické sféře či mimo ni. Patří zde zprávy, úkoly studentů, bakalářské, magisterské či disertační práce. Zatímco někteří studenti používají metodu vyjmou a vložit, další skupina studentů se uchyluje k různým způsobům plagiátorství, včetně změn struktur vět, parafrázovaní i nahrazení slov jejich synonymem.Tato práce je zaměřena na vytvoření nástroje pro detekci textového plagiátorství při odhalování plagiátů v arabských a českých textech, dále na provádění počátečních částí kompresního algoritmu s jejími modifikacemi, kde podobnost textu může být měřena na základě podobnosti kompresními-metrik. Dále se tato práce zaměřuje na to, že začleňuje tuto techniku v lexikonu českých synonym a v českém stemmer, kde odhaluje sémantické plagiátorství včetně parafrázování a restrukturalizace českých textů. Na druhé straně hledání kořenů slov a schopnost rozdělování slov na slabiky je velmi důležité v oblastech vyhledávání informací, dolování dat a zpracování jazyka. Vytvoření kvalitních pravidel pro rozklad na slabiky a hledání kořene slov je stěžejní. Ještě vyšší poptávka je u jazyků, jimiž hovoří širší populace, jako je například arabština. Tato práce představuje novou metodu pro rozklad arabských slov na slabiky, založenou na arabských samohláskách. Práce také představuje snadnou metodu pro hledání kořenů slov pro arabský jazyk. Pro doladění výsledku této metody, je nutné před použitím hledání kořenů slov, využít on-line syntetického analyzátoru. Ten se využívá pro lepší kategorizaci různých slovní druhů. Po té, tyto výstupní slova je nutné porovnat pomocí elektronického slovníku.	cs
dc.format	87 s. : il.	cs
dc.format.extent	2609865 bytes
dc.format.mimetype	application/pdf
dc.language.iso	en
dc.publisher	Vysoká škola báňská - Technická univerzita Ostrava	cs
dc.subject	syllabification, stemming, data compression, similarity, plagiarism detection, text plagiarism	en
dc.subject	rozklad na slabiky, hledání kořenů slov, komprese dat, podobnost, detekce plagiátů, textové plagiátorství	cs
dc.title	Data Compression Approach for Plagiarism Detection	en
dc.title.alternative	Metoda komprese dat pro detekci plagiátorství	cs
dc.type	Disertační práce	cs
dc.identifier.signature	201600193	cs
dc.identifier.location	ÚK/Sklad diplomových prací
dc.contributor.referee	Dvorský, Jiří	cs
dc.contributor.referee	Ouddane, Nabil	cs
dc.contributor.referee	Abraham, Ajith	cs
dc.date.accepted	2016-09-09
dc.thesis.degree-name	Ph.D.
dc.thesis.degree-level	Doktorský studijní program	cs
dc.thesis.degree-grantor	Vysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky	cs
dc.description.department	460 - Katedra informatiky
dc.thesis.degree-program	Informatika, komunikační technologie a aplikovaná matematika	cs
dc.thesis.degree-branch	Informatika	cs
dc.description.result	vyhověl	cs
dc.identifier.sender	S2724	cs
dc.identifier.thesis	SOO0002_FEI_P1807_1801V001_2016
dc.rights.access	openAccess

Files in this item

Name:: SOO0002_FEI_P1807_1801V001_2016.pdf
Size:: 2.488Mb
Format:: PDF

View/Open

Name:: SOO0002_FEI_P1807_1801V001_201 ...
Size:: 1.508Mb
Format:: PDF

View/Open

Name:: SOO0002_FEI_P1807_1801V001_201 ...
Size:: 91.98Kb
Format:: PDF
Description:: Posudek oponenta – Abraham, Ajith

View/Open

Name:: SOO0002_FEI_P1807_1801V001_201 ...
Size:: 600.6Kb
Format:: PDF
Description:: Posudek oponenta – Dvorský, Jiří

View/Open

Name:: SOO0002_FEI_P1807_1801V001_201 ...
Size:: 743.9Kb
Format:: PDF
Description:: Posudek oponenta – Ouddane, Nabil

View/Open

This item appears in the following Collection(s)

Vysokoškolské kvalifikační práce Fakulty elektrotechniky a informatiky / Theses and dissertations of Faculty of Electrical Engineering and Computer Science (FEI) [13253]
Kolekce obsahuje vysokoškolské kvalifikační práce Fakulty elektrotechniky a informatiky.

Show simple item record