Různé algoritmy pro porovnávání textových dokumentů

dc.contributor.advisorBerek, Petrcs
dc.contributor.authorSýkora, Jiřícs
dc.contributor.refereePrílepok, Michalcs
dc.date.accepted2014-06-02cs
dc.date.accessioned2014-08-05T10:18:25Z
dc.date.available2014-08-05T10:18:25Z
dc.date.issued2014cs
dc.descriptionImport 05/08/2014cs
dc.description.abstractV dnešní době, kdy se velmi rychle rozvíjí informační technologie, jsme nuceni stále častěji řešit otázku podobnosti dokumentů. V důsledku tohoto vznikla již spousta algoritmů, jež se zabývají právě touto problematikou. Mají široké využití, převážně při ověřování plagiátorství. Tyto algoritmy se potýkají se dvěma problémy – efektivitou a výkonností. Program by měl být schopen objevit i jen malou část plagiovaného textu v celém dokumentu. Programy by ale měly zjistit plagiátorství i tehdy, pokud jsou frázová slova zaměněna za synonyma, věty jsou zpřeházené nebo dokonce upravené. Toto jsou důvody, proč byla vymyšlena celá řada algoritmů pro porovnání souborů. Každý typ je založen na jiném systému, např. ověřuje počet výskytů slov nebo určuje podobnost pomocí vektorů. Takovéto algoritmy se tedy používají nejen pro ověřování plagiovaných prací, ale například booleovský a vektorový model jsou využívány i pro vyhledávače a vyhledávací systémy. V této práci jsou popsány metody, kterými lze dva soubory porovnávnat. V teoretické části jsou uvedeny algoritmy, jež dané metody využívají. V praktické části je pak popsána implementace vybraných algoritmů, a to signaturní metody, Normalized Compression Distance a Fast Compression Distance. Ke konci této práce jsou pak naimplementované programy porovnány a zhodnoceny.cs
dc.description.abstractNowadays, when information technology is being quickly developed, we are forced to deal with questions about similarity of documents. As a result, a lot of algorithms which handle these problems have been created. They have a large use, especially in verification of plagiarism. These are the reasons why a lot of algorithms for comparing files have been created. Each type is based on other system, e. g. it verifies the number of word occurences or it sets a similarity using vectors. These algorithms are used not only for verifying plagiarisms, but e. g. the Boolean and the vector models are used in the search systems. In this thesis, the methods which can be used for file comparison are described. In the theoretic part the algorithms using these methods are shown. In the practical part an implementation of the chosen methods is showed – these include the signature method, the Normalized Compression Distance and the Fast Compression Distance. At the end of this thesis the implemented programs are compared and valorised.en
dc.description.department460 - Katedra informatikycs
dc.description.resultdobřecs
dc.format.extent2691776 bytescs
dc.format.mimetypeapplication/pdfcs
dc.identifier.otherOSD002cs
dc.identifier.senderS2724cs
dc.identifier.thesisSYK0033_FEI_B2647_2612R025_2014
dc.identifier.urihttp://hdl.handle.net/10084/104242
dc.language.isocscs
dc.publisherVysoká škola báňská - Technická univerzita Ostravacs
dc.rights.accessopenAccess
dc.subjectJavacs
dc.subjectplagiátorstvícs
dc.subjectsignaturní metodycs
dc.subjectsignaturní souborycs
dc.subjectsignaturycs
dc.subjectbooleovský modelcs
dc.subjectvektorový modelcs
dc.subjectLevenshteinova vzdálenostcs
dc.subjectHammingova vzdálenostcs
dc.subjectNormalizovaná kompresní vzdálenostcs
dc.subjectJavaen
dc.subjectplagiarismsen
dc.subjectsignature methodsen
dc.subjectsignature filesen
dc.subjectsignaturesen
dc.subjectbool modelen
dc.subjectvector modelen
dc.subjectLevenshtein distanceen
dc.subjectHamming distanceen
dc.subjectNormalized Compression Distanceen
dc.thesis.degree-branchInformatika a výpočetní technikacs
dc.thesis.degree-grantorVysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatikycs
dc.thesis.degree-levelBakalářský studijní programcs
dc.thesis.degree-nameBc.cs
dc.thesis.degree-programInformační a komunikační technologiecs
dc.titleRůzné algoritmy pro porovnávání textových dokumentůcs
dc.title.alternativeVarious Algorithms for Text Documents Comparisonen
dc.typeBakalářská prácecs

Files

Original bundle

Now showing 1 - 4 out of 4 results
Loading...
Thumbnail Image
Name:
SYK0033_FEI_B2647_2612R025_2014.pdf
Size:
2.57 MB
Format:
Adobe Portable Document Format
Loading...
Thumbnail Image
Name:
SYK0033_FEI_B2647_2612R025_2014_priloha.zip
Size:
242.71 KB
Format:
Unknown data format
Loading...
Thumbnail Image
Name:
SYK0033_FEI_B2647_2612R025_2014_posudek_vedouci_Berek_Petr.pdf
Size:
49.83 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího – Berek, Petr
Loading...
Thumbnail Image
Name:
SYK0033_FEI_B2647_2612R025_2014_posudek_oponent_Prilepok_Michal.pdf
Size:
49.08 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta – Prílepok, Michal