dc.contributor.advisor | Snášel, Václav | |
dc.contributor.author | Soori, Hussein Khaled Hussein | |
dc.date.accessioned | 2016-12-13T12:07:16Z | |
dc.date.available | 2016-12-13T12:07:16Z | |
dc.date.issued | 2016 | |
dc.identifier.other | OSD002 | cs |
dc.identifier.uri | http://hdl.handle.net/10084/116542 | |
dc.description | Import 13/01/2017 | cs |
dc.description.abstract | In our digital era, the need for plagiarism detection tools is growing with the tremendous number of documents produced on daily basis in and outside academia in all fields of science. This includes, reports, students’ assignments, undergraduate and graduate theses and dissertations. While some students use cut and paste methods, some other students resort to different ways of plagiarism including, changing the sentence structure, paraphrasing and replacing words with their synonyms. This thesis focuses on creating textual plagiarism detection tools for detecting plagiarism of Arabic and Czech texts by implementing initial parts of a compression algorithm with its modifications where text similarity can be measured by compression-based similarity metrics. Next, it expands on this work by integrating this technique with a Czech synonyms thesaurus and a Czech stemmer to detect semantic plagiarism, including, paraphrasing and restructuring of Czech texts. On the other hand,stemming and syllabification are very important in information retrieval, data mining and language processing. Creating good stemming and syllabification rules is crucial. The demand goes even higher with languages spoken by wider population, such as Arabic language. This thesis presents a novel method for syllabification of Arabic text based on Arabic vowel letters. The thesis also presents a light stemming method for Arabic language. To fine-tune the results of this method, an online parser is used, before stemming, to better categorize the different parts of speech and, later, the output words are matched with an electronic dictionary. | en |
dc.description.abstract | V naší digitální éře, je potřeba nástrojů pro detekci plagiátorství z důvodů obrovského počtu denně rostoucích dokumentů ať již v akademické sféře či mimo ni. Patří zde zprávy, úkoly studentů, bakalářské, magisterské či disertační práce. Zatímco někteří studenti používají metodu vyjmou a vložit, další skupina studentů se uchyluje k různým způsobům plagiátorství, včetně změn struktur vět, parafrázovaní i nahrazení slov jejich synonymem.Tato práce je zaměřena na vytvoření nástroje pro detekci textového plagiátorství při odhalování plagiátů v arabských a českých textech, dále na provádění počátečních částí kompresního algoritmu s jejími modifikacemi, kde podobnost textu může být měřena na základě podobnosti kompresními-metrik. Dále se tato práce zaměřuje na to, že začleňuje tuto techniku v lexikonu českých synonym a v českém stemmer, kde odhaluje sémantické plagiátorství včetně parafrázování a restrukturalizace českých textů. Na druhé straně hledání kořenů slov a schopnost rozdělování slov na slabiky je velmi důležité v oblastech vyhledávání informací, dolování dat a zpracování jazyka. Vytvoření kvalitních pravidel pro rozklad na slabiky a hledání kořene slov je stěžejní. Ještě vyšší poptávka je u jazyků, jimiž hovoří širší populace, jako je například arabština. Tato práce představuje novou metodu pro rozklad arabských slov na slabiky, založenou na arabských samohláskách. Práce také představuje snadnou metodu pro hledání kořenů slov pro arabský jazyk. Pro doladění výsledku této metody, je nutné před použitím hledání kořenů slov, využít on-line syntetického analyzátoru. Ten se využívá pro lepší kategorizaci různých slovní druhů. Po té, tyto výstupní slova je nutné porovnat pomocí elektronického slovníku. | cs |
dc.format | 87 s. : il. | cs |
dc.format.extent | 2609865 bytes | |
dc.format.mimetype | application/pdf | |
dc.language.iso | en | |
dc.publisher | Vysoká škola báňská - Technická univerzita Ostrava | cs |
dc.subject | syllabification, stemming, data compression, similarity, plagiarism detection, text plagiarism | en |
dc.subject | rozklad na slabiky, hledání kořenů slov, komprese dat, podobnost, detekce plagiátů, textové plagiátorství | cs |
dc.title | Data Compression Approach for Plagiarism Detection | en |
dc.title.alternative | Metoda komprese dat pro detekci plagiátorství | cs |
dc.type | Disertační práce | cs |
dc.identifier.signature | 201600193 | cs |
dc.identifier.location | ÚK/Sklad diplomových prací | |
dc.contributor.referee | Dvorský, Jiří | cs |
dc.contributor.referee | Ouddane, Nabil | cs |
dc.contributor.referee | Abraham, Ajith | cs |
dc.date.accepted | 2016-09-09 | |
dc.thesis.degree-name | Ph.D. | |
dc.thesis.degree-level | Doktorský studijní program | cs |
dc.thesis.degree-grantor | Vysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky | cs |
dc.description.department | 460 - Katedra informatiky | |
dc.thesis.degree-program | Informatika, komunikační technologie a aplikovaná matematika | cs |
dc.thesis.degree-branch | Informatika | cs |
dc.description.result | vyhověl | cs |
dc.identifier.sender | S2724 | cs |
dc.identifier.thesis | SOO0002_FEI_P1807_1801V001_2016 | |
dc.rights.access | openAccess | |