Podobnost dokumentů na Webu
| dc.contributor.advisor | Dráždilová, Pavla | en |
| dc.contributor.author | Suchánek, Jindřich | en |
| dc.contributor.referee | Martinovič, Jan | en |
| dc.date.accepted | 2009-06-11 | en |
| dc.date.accessioned | 2009-09-01T20:17:45Z | |
| dc.date.available | 2009-09-01T20:17:45Z | |
| dc.date.issued | 2009 | en |
| dc.description | Import 01/09/2009 | |
| dc.description.abstract | Tato bakalářská práce se zabývá extrakcí dat z blogů na Internetu, jejich analýzou a zpracováním výsledků do grafové podoby. V první části práce byl vytvořen program, který příspěvky získané z blogů ukládá do XML souborů. Ty pak obsahují titulek, odkaz na příspěvek, autora, datum, odkazy a tělo příspěvku. Druhá část práce se zabývá zpracováním těchto souborů. Jejich analýza je vizualizována sloupcovými a koláčovými diagramy a orientovanými grafy. Následně je vypočítána podobnost mezi jednotlivými příspěvky pomocí vzorce pro kosinovou podobnost a vztah podobnosti mezi texty je pak použit jako cena hrany v neorientovaném grafu. | cs |
| dc.description.abstract | This bachelor’s thesis is concerned with data extraction from blogs on the Internet, their analysis and its processing into the form of graphs. In the first part of the thesis, a program was created which saves the entries acquired from blogs to XML files. These files then include the title, a link to the entry, the author, date, links and the body of the entry. The second part of the thesis deals with processing these files. Their analysis is visualized using column and pie diagrams and directed graphs. The similarity is then calculated between separate entries using the formula for Cosine similarity and the similarity between texts is then used as the edge value in an undirected graph. | en |
| dc.description.category | Prezenční | cs |
| dc.description.department | 456 - Katedra informatiky | en |
| dc.description.result | velmi dobře | cs |
| dc.format | 29 l. : il. + 1 CD | cs |
| dc.identifier.location | ÚK/Sklad diplomových prací | cs |
| dc.identifier.other | OSD002 | cs |
| dc.identifier.sender | S2724 | cs |
| dc.identifier.signature | 200905059 | cs |
| dc.identifier.thesis | SUC143_FEI_B2646_2612R025_2009 | |
| dc.identifier.uri | http://hdl.handle.net/10084/75352 | |
| dc.language.iso | cs | en |
| dc.publisher | Vysoká škola báňská - Technická univerzita Ostrava | cs |
| dc.subject | příspěvek | cs |
| dc.subject | XML | cs |
| dc.subject | graf | cs |
| dc.subject | podobnost | cs |
| dc.subject | extrakce | cs |
| dc.subject | blog | cs |
| dc.subject | extraction | en |
| dc.subject | similarity | en |
| dc.subject | entry | en |
| dc.subject | blog | en |
| dc.subject | XML | en |
| dc.subject | graph | en |
| dc.thesis.degree-branch | Informatika a výpočetní technika | cs |
| dc.thesis.degree-grantor | Vysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky | cs |
| dc.thesis.degree-level | Bakalářský studijní program | cs |
| dc.thesis.degree-name | Bc. | en |
| dc.thesis.degree-program | Informační technologie | cs |
| dc.title | Podobnost dokumentů na Webu | cs |
| dc.title.alternative | Web document similarity | en |
| dc.type | Bakalářská práce | cs |