Text Clustering

dc.contributor.advisorPlatoš, Jan
dc.contributor.authorMani, Balakothandaraman
dc.contributor.refereeDráždilová, Pavla
dc.date.accepted2020-06-24
dc.date.accessioned2020-07-20T12:11:57Z
dc.date.available2020-07-20T12:11:57Z
dc.date.issued2020
dc.description.abstractThis thesis tries to analyse the procedures and the methods used for clustering text documents. Also, explains the challenges in performing the document clustering techniques. We will be performing the document clustering by analysing two real world text datasets: 20 News group and Reuters, where 20 News group has been split into two variants, in which one variant is based on headers, footers and quotes present inside the text documents and the other variant have text documents without these details. Here we will discuss different document clustering methods, their similarities and the challenges in performing these clustering algorithms, its cluster quality validation techniques and its detailed comparison. We will also discuss the dimension reduction techniques, their advantages with their detailed comparison. Finally we discuss and conclude whether these dimension reduction methods produce any better results on both these algorithms.en
dc.description.abstractTato práce se snaží analyzovat postupy a metody používané pro shlukování textových dokumentů. Také vysvětluje problémy při provádění technik sdružování dokumentů. Seskupování dokumentů budeme provádět analýzou dvou textových datových souborů v reálném světě: 20 diskusních skupin a Reuters, kde 20 zpravodajských skupin bylo rozděleno do dvou variant, přičemž jedna varianta je založena na záhlaví, zápatí a uvozovkách přítomných uvnitř textových dokumentů a druhá varianta obsahuje textové dokumenty bez těchto údajů. Zde budeme hovořit o různých metodách shlukování dokumentů, jejich podobnostech a výzvách při provádění těchto algoritmů shlukování, technikách ověřování kvality shluků a podrobném porovnání. Budeme také diskutovat techniky redukce rozměrů, jejich výhody s jejich podrobným porovnáním. Nakonec diskutujeme a docházíme k závěru, zda tyto metody redukce rozměrů přinášejí v obou těchto algoritmech lepší výsledky.cs
dc.description.department460 - Katedra informatikycs
dc.description.resultdobřecs
dc.format.extent2280184 bytes
dc.format.mimetypeapplication/pdf
dc.identifier.otherOSD002
dc.identifier.senderS2724
dc.identifier.thesisMAN0122_FEI_N2647_2612T025_2020
dc.identifier.urihttp://hdl.handle.net/10084/140520
dc.language.isoen
dc.publisherVysoká škola báňská - Technická univerzita Ostravacs
dc.rights.accessopenAccess
dc.subjectDocument clusteringen
dc.subjecttext clusteringen
dc.subject20 News groupen
dc.subjectReutersen
dc.subjectHACen
dc.subjectkmeansen
dc.subjectbuckshoten
dc.subjectshlukování dokumentůcs
dc.subjectshlukování textucs
dc.subject20 diskusních skupincs
dc.subjectReuterscs
dc.subjectHACcs
dc.subjectkmeanscs
dc.subjectbuckshotcs
dc.thesis.degree-branchInformatika a výpočetní technikacs
dc.thesis.degree-grantorVysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatikycs
dc.thesis.degree-levelMagisterský studijní programcs
dc.thesis.degree-nameIng.
dc.thesis.degree-programInformační a komunikační technologiecs
dc.titleText Clusteringen
dc.title.alternativeShlukování dokumentůcs
dc.typeDiplomová prácecs

Files

Original bundle

Now showing 1 - 4 out of 4 results
Loading...
Thumbnail Image
Name:
MAN0122_FEI_N2647_2612T025_2020.pdf
Size:
2.17 MB
Format:
Adobe Portable Document Format
Description:
Text práce
Loading...
Thumbnail Image
Name:
MAN0122_FEI_N2647_2612T025_2020_priloha.zip
Size:
7.84 MB
Format:
Unknown data format
Description:
Příloha
Loading...
Thumbnail Image
Name:
MAN0122_FEI_N2647_2612T025_2020_posudek_vedouci_Platos_Jan.pdf
Size:
53.91 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího – Platoš, Jan
Loading...
Thumbnail Image
Name:
MAN0122_FEI_N2647_2612T025_2020_posudek_oponent_Drazdilova_Pavla.pdf
Size:
55.23 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta – Dráždilová, Pavla