Zobrazit minimální záznam

dc.contributor.advisorSnášel, Václav
dc.contributor.authorPrílepok, Michal
dc.date.accessioned2016-11-01T09:39:12Z
dc.date.available2016-11-01T09:39:12Z
dc.date.issued2016
dc.identifier.otherOSD002cs
dc.identifier.urihttp://hdl.handle.net/10084/112230
dc.descriptionImport 02/11/2016cs
dc.description.abstractIn our computerized world, computers and users produce an enormous quantum of new data every day. One of the most challenging problems of the modern informatics and computer sciences is the detection of similarities and differences between large amounts of these documents. The presented dissertation thesis focuses on the entropy utilization in the text similarity. The text similarity can be measured by compression-based similarity metrics. Their application is shown in three areas. The first area deals with spam detection, where an incoming e-mail is classified into two classes -- solicited or unsolicited -- spam e-mail. This classification can be done by Bayesian Spam filter. This filter is extended with Normalized Compression Distance and e-mail signatures. This conjunction gives us better results as standalone Bayesian Spam filter. The second area of interest is plagiarism detection. Nowadays we are producing a lot of various types of documents, such as reports, thesis in the school environment, etc. The retrieval and extraction of reused text from large document collections are important to applications such as plagiarism detection, copyright protection, and information flow analysis. To solve these issues, this thesis presents algorithms, which can detect similar -- plagiarized documents. The proposed method is also inspired by the data compression but in different way. The method is using only some initialization parts of the compression algorithm and its modifications. The last part shows how the Encephalography (EEG) data can be processed as text documents. At first, this data has to be converted from measured voltages into text codes. The described conversion of data is performed by Turtle Graphic and coded into text. After such a conversion, the EEG data can be treated and classified by compression-based similarity metric. This transformation of EEG data is applicable to detection of simple cognitive tasks, for example, finger movements.en
dc.description.abstractV dnešním počítačovém světě, počítače a jejich uživatelé produkují každý den enormní kvanta nových dat. Jedním z nejnáročnějších problémů moderní informatiky a počítačových věd je odhalení podobností a rozdílů mezi velkým množstvím dokumentů. Předkládaná disertační práce je zaměřena na využití entropie v oblasti určení podobnosti textů. Samotná podobnost textů může být měřena metrikou založenou na bázi komprese dat. Její aplikace je demonstrována ve třech oblastech. První oblast se zabývá detekci spamů, kdy jsou příchozí e-mailové zprávy rozděleny do dvou tříd - vyžádaná či nevyžádaná - spam. Ke zmíněné klasifikaci může být použit Bayesův spamový filtr. Tento filtr je rozšířen o normalizovanou kompresní vzdálenost a signatury emailů. Toto spojení přináší lepší výsledky než při samostatném použití Bayesova spamového filtru. Druhou oblastí zájmu je detekce plagiátů. V současné době je generováno mnoho různých typů dokumentů, jako jsou zprávy, absolventské práce atd. Získávání a extrakce využitých textů z velkých sbírek dokumentů jsou důležité pro aplikace, jako je detekce plagiátů, ochrana autorských práv a analýza toku informací. K řešení nastíněných problémů nabízí předkládaná práce algoritmy, které dokáží detekovat dokumenty podobné - plagiáty. Navrhovaná metoda je také inspirována v oblasti komprese dat, ale jiným způsobem. Metoda využívá pouze některé inicializační části kompresního algoritmu a jejich modifikace. Poslední část práce představuje zpracování encefalografických (EEG) dat jakožto textových dokumentů. Nejprve však tato data musí být převedena z naměřených napěťových průběhů do textové podoby. Popsaná konverze dat se provádí pomocí želví grafiky a následnému kódování do textu. Po takto provedené konverzi mohou být EEG data zpracována a klasifikována s využitím metriky založené na bázi komprese dat. Tuto transformaci EEG dat je možno využít k detekci jednoduchých kognitivních funkcí, například pohybů prstů.cs
dc.format.extent7243511 bytes
dc.format.mimetypeapplication/pdf
dc.language.isoen
dc.publisherVysoká škola báňská - Technická univerzita Ostravacs
dc.subjectsimilarity, text data, spam detection, plagiarism detection, EEG, BCIen
dc.subjectpodobnost, textová data, detekce spamu, detekce plagiátů, EEG, BCIcs
dc.titleUtilization of Entropy in the Text Similarityen
dc.title.alternativeVyužití entropie v textové podobnostics
dc.typeDisertační prácecs
dc.contributor.refereeOgiela, Lidiacs
dc.contributor.refereeKrömer, Pavelcs
dc.contributor.refereeŠenkeřík, Romancs
dc.date.accepted2016-06-08
dc.thesis.degree-namePh.D.
dc.thesis.degree-levelDoktorský studijní programcs
dc.thesis.degree-grantorVysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatikycs
dc.description.department460 - Katedra informatiky
dc.thesis.degree-programInformatika, komunikační technologie a aplikovaná matematikacs
dc.thesis.degree-branchInformatikacs
dc.description.resultvyhovělcs
dc.identifier.senderS2724cs
dc.identifier.thesisPRI156_FEI_P1807_1801V001_2016
dc.rights.accessopenAccess


Soubory tohoto záznamu

Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam