Text Clustering
| dc.contributor.advisor | Platoš, Jan | |
| dc.contributor.author | Mani, Balakothandaraman | |
| dc.contributor.referee | Dráždilová, Pavla | |
| dc.date.accepted | 2020-06-24 | |
| dc.date.accessioned | 2020-07-20T12:11:57Z | |
| dc.date.available | 2020-07-20T12:11:57Z | |
| dc.date.issued | 2020 | |
| dc.description.abstract | This thesis tries to analyse the procedures and the methods used for clustering text documents. Also, explains the challenges in performing the document clustering techniques. We will be performing the document clustering by analysing two real world text datasets: 20 News group and Reuters, where 20 News group has been split into two variants, in which one variant is based on headers, footers and quotes present inside the text documents and the other variant have text documents without these details. Here we will discuss different document clustering methods, their similarities and the challenges in performing these clustering algorithms, its cluster quality validation techniques and its detailed comparison. We will also discuss the dimension reduction techniques, their advantages with their detailed comparison. Finally we discuss and conclude whether these dimension reduction methods produce any better results on both these algorithms. | en |
| dc.description.abstract | Tato práce se snaží analyzovat postupy a metody používané pro shlukování textových dokumentů. Také vysvětluje problémy při provádění technik sdružování dokumentů. Seskupování dokumentů budeme provádět analýzou dvou textových datových souborů v reálném světě: 20 diskusních skupin a Reuters, kde 20 zpravodajských skupin bylo rozděleno do dvou variant, přičemž jedna varianta je založena na záhlaví, zápatí a uvozovkách přítomných uvnitř textových dokumentů a druhá varianta obsahuje textové dokumenty bez těchto údajů. Zde budeme hovořit o různých metodách shlukování dokumentů, jejich podobnostech a výzvách při provádění těchto algoritmů shlukování, technikách ověřování kvality shluků a podrobném porovnání. Budeme také diskutovat techniky redukce rozměrů, jejich výhody s jejich podrobným porovnáním. Nakonec diskutujeme a docházíme k závěru, zda tyto metody redukce rozměrů přinášejí v obou těchto algoritmech lepší výsledky. | cs |
| dc.description.department | 460 - Katedra informatiky | cs |
| dc.description.result | dobře | cs |
| dc.format.extent | 2280184 bytes | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.other | OSD002 | |
| dc.identifier.sender | S2724 | |
| dc.identifier.thesis | MAN0122_FEI_N2647_2612T025_2020 | |
| dc.identifier.uri | http://hdl.handle.net/10084/140520 | |
| dc.language.iso | en | |
| dc.publisher | Vysoká škola báňská - Technická univerzita Ostrava | cs |
| dc.rights.access | openAccess | |
| dc.subject | Document clustering | en |
| dc.subject | text clustering | en |
| dc.subject | 20 News group | en |
| dc.subject | Reuters | en |
| dc.subject | HAC | en |
| dc.subject | kmeans | en |
| dc.subject | buckshot | en |
| dc.subject | shlukování dokumentů | cs |
| dc.subject | shlukování textu | cs |
| dc.subject | 20 diskusních skupin | cs |
| dc.subject | Reuters | cs |
| dc.subject | HAC | cs |
| dc.subject | kmeans | cs |
| dc.subject | buckshot | cs |
| dc.thesis.degree-branch | Informatika a výpočetní technika | cs |
| dc.thesis.degree-grantor | Vysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky | cs |
| dc.thesis.degree-level | Magisterský studijní program | cs |
| dc.thesis.degree-name | Ing. | |
| dc.thesis.degree-program | Informační a komunikační technologie | cs |
| dc.title | Text Clustering | en |
| dc.title.alternative | Shlukování dokumentů | cs |
| dc.type | Diplomová práce | cs |
Files
Original bundle
1 - 4 out of 4 results
Loading...
- Name:
- MAN0122_FEI_N2647_2612T025_2020.pdf
- Size:
- 2.17 MB
- Format:
- Adobe Portable Document Format
- Description:
- Text práce
Loading...
- Name:
- MAN0122_FEI_N2647_2612T025_2020_priloha.zip
- Size:
- 7.84 MB
- Format:
- Unknown data format
- Description:
- Příloha
Loading...
- Name:
- MAN0122_FEI_N2647_2612T025_2020_posudek_vedouci_Platos_Jan.pdf
- Size:
- 53.91 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek vedoucího – Platoš, Jan
Loading...
- Name:
- MAN0122_FEI_N2647_2612T025_2020_posudek_oponent_Drazdilova_Pavla.pdf
- Size:
- 55.23 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek oponenta – Dráždilová, Pavla