dc.contributor.advisor | Snášel, Václav | |
dc.contributor.author | Prílepok, Michal | |
dc.date.accessioned | 2016-11-01T09:39:12Z | |
dc.date.available | 2016-11-01T09:39:12Z | |
dc.date.issued | 2016 | |
dc.identifier.other | OSD002 | cs |
dc.identifier.uri | http://hdl.handle.net/10084/112230 | |
dc.description | Import 02/11/2016 | cs |
dc.description.abstract | In our computerized world, computers and users produce an enormous quantum of new data every day. One of the most challenging problems of the modern informatics and computer sciences is the detection of similarities and differences between large amounts of these documents. The presented dissertation thesis focuses on the entropy utilization in the text similarity. The text similarity can be measured by compression-based similarity metrics. Their application is shown in three areas. The first area deals with spam detection, where an incoming e-mail is classified into two classes -- solicited or unsolicited -- spam e-mail. This classification can be done by Bayesian Spam filter. This filter is extended with Normalized Compression Distance and e-mail signatures. This conjunction gives us better results as standalone Bayesian Spam filter. The second area of interest is plagiarism detection. Nowadays we are producing a lot of various types of documents, such as reports, thesis in the school environment, etc. The retrieval and extraction of reused text from large document collections are important to applications such as plagiarism detection, copyright protection, and information flow analysis. To solve these issues, this thesis presents algorithms, which can detect similar -- plagiarized documents. The proposed method is also inspired by the data compression but in different way. The method is using only some initialization parts of the compression algorithm and its modifications. The last part shows how the Encephalography (EEG) data can be processed as text documents. At first, this data has to be converted from measured voltages into text codes. The described conversion of data is performed by Turtle Graphic and coded into text. After such a conversion, the EEG data can be treated and classified by compression-based similarity metric. This transformation of EEG data is applicable to detection of simple cognitive tasks, for example, finger movements. | en |
dc.description.abstract | V dnešním počítačovém světě, počítače a jejich uživatelé produkují každý den enormní kvanta nových dat. Jedním z nejnáročnějších problémů moderní informatiky a počítačových věd je odhalení podobností a rozdílů mezi velkým množstvím dokumentů. Předkládaná disertační práce je zaměřena na využití entropie v oblasti určení podobnosti textů. Samotná podobnost textů může být měřena metrikou založenou na bázi komprese dat. Její aplikace je demonstrována ve třech oblastech. První oblast se zabývá detekci spamů, kdy jsou příchozí e-mailové zprávy rozděleny do dvou tříd - vyžádaná či nevyžádaná - spam. Ke zmíněné klasifikaci může být použit Bayesův spamový filtr. Tento filtr je rozšířen o normalizovanou kompresní vzdálenost a signatury emailů. Toto spojení přináší lepší výsledky než při samostatném použití Bayesova spamového filtru. Druhou oblastí zájmu je detekce plagiátů. V současné době je generováno mnoho různých typů dokumentů, jako jsou zprávy, absolventské práce atd. Získávání a extrakce využitých textů z velkých sbírek dokumentů jsou důležité pro aplikace, jako je detekce plagiátů, ochrana autorských práv a analýza toku informací. K řešení nastíněných problémů nabízí předkládaná práce algoritmy, které dokáží detekovat dokumenty podobné - plagiáty. Navrhovaná metoda je také inspirována v oblasti komprese dat, ale jiným způsobem. Metoda využívá pouze některé inicializační části kompresního algoritmu a jejich modifikace. Poslední část práce představuje zpracování encefalografických (EEG) dat jakožto textových dokumentů. Nejprve však tato data musí být převedena z naměřených napěťových průběhů do textové podoby. Popsaná konverze dat se provádí pomocí želví grafiky a následnému kódování do textu. Po takto provedené konverzi mohou být EEG data zpracována a klasifikována s využitím metriky založené na bázi komprese dat. Tuto transformaci EEG dat je možno využít k detekci jednoduchých kognitivních funkcí, například pohybů prstů. | cs |
dc.format.extent | 7243511 bytes | |
dc.format.mimetype | application/pdf | |
dc.language.iso | en | |
dc.publisher | Vysoká škola báňská - Technická univerzita Ostrava | cs |
dc.subject | similarity, text data, spam detection, plagiarism detection, EEG, BCI | en |
dc.subject | podobnost, textová data, detekce spamu, detekce plagiátů, EEG, BCI | cs |
dc.title | Utilization of Entropy in the Text Similarity | en |
dc.title.alternative | Využití entropie v textové podobnosti | cs |
dc.type | Disertační práce | cs |
dc.contributor.referee | Ogiela, Lidia | cs |
dc.contributor.referee | Krömer, Pavel | cs |
dc.contributor.referee | Šenkeřík, Roman | cs |
dc.date.accepted | 2016-06-08 | |
dc.thesis.degree-name | Ph.D. | |
dc.thesis.degree-level | Doktorský studijní program | cs |
dc.thesis.degree-grantor | Vysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky | cs |
dc.description.department | 460 - Katedra informatiky | |
dc.thesis.degree-program | Informatika, komunikační technologie a aplikovaná matematika | cs |
dc.thesis.degree-branch | Informatika | cs |
dc.description.result | vyhověl | cs |
dc.identifier.sender | S2724 | cs |
dc.identifier.thesis | PRI156_FEI_P1807_1801V001_2016 | |
dc.rights.access | openAccess | |