Podobnost dokumentů na Webu

DSpace/Manakin Repository

aaK citaci nebo jako odkaz na tento záznam použijte identifikátor: http://hdl.handle.net/10084/75352

Show simple item record


dc.contributor.advisor Dráždilová, Pavla en
dc.contributor.author Suchánek, Jindřich en
dc.date.accessioned 2009-09-01T20:17:45Z
dc.date.available 2009-09-01T20:17:45Z
dc.date.issued 2009 en
dc.identifier.other OSD002 cs
dc.identifier.uri http://hdl.handle.net/10084/75352
dc.description.abstract Tato bakalářská práce se zabývá extrakcí dat z blogů na Internetu, jejich analýzou a zpracováním výsledků do grafové podoby. V první části práce byl vytvořen program, který příspěvky získané z blogů ukládá do XML souborů. Ty pak obsahují titulek, odkaz na příspěvek, autora, datum, odkazy a tělo příspěvku. Druhá část práce se zabývá zpracováním těchto souborů. Jejich analýza je vizualizována sloupcovými a koláčovými diagramy a orientovanými grafy. Následně je vypočítána podobnost mezi jednotlivými příspěvky pomocí vzorce pro kosinovou podobnost a vztah podobnosti mezi texty je pak použit jako cena hrany v neorientovaném grafu. cs
dc.description.abstract This bachelor’s thesis is concerned with data extraction from blogs on the Internet, their analysis and its processing into the form of graphs. In the first part of the thesis, a program was created which saves the entries acquired from blogs to XML files. These files then include the title, a link to the entry, the author, date, links and the body of the entry. The second part of the thesis deals with processing these files. Their analysis is visualized using column and pie diagrams and directed graphs. The similarity is then calculated between separate entries using the formula for Cosine similarity and the similarity between texts is then used as the edge value in an undirected graph. en
dc.format 29 l. : il. + 1 CD cs
dc.language.iso cs en
dc.publisher Vysoká škola báňská - Technická univerzita Ostrava cs
dc.subject příspěvek cs
dc.subject podobnost cs
dc.subject XML cs
dc.subject graf cs
dc.subject extrakce cs
dc.subject blog cs
dc.subject extraction en
dc.subject similarity en
dc.subject entry en
dc.subject blog en
dc.subject XML en
dc.subject graph en
dc.title Podobnost dokumentů na Webu cs
dc.title.alternative Web document similarity en
dc.type Bakalářská práce cs
dc.identifier.signature 200905059 cs
dc.identifier.location ÚK/Sklad diplomových prací cs
dc.contributor.referee Martinovič, Jan en
dc.date.accepted 2009-06-11 en
dc.thesis.degree-name Bc. en
dc.thesis.degree-level Bakalářský studijní program cs
dc.thesis.degree-grantor Vysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky cs
dc.description.category Prezenční cs
dc.description.department 456 - Katedra informatiky en
dc.thesis.degree-program Informační technologie cs
dc.thesis.degree-branch Informatika a výpočetní technika cs
dc.description.result velmi dobře cs
dc.identifier.sender S2724 cs
dc.identifier.thesis SUC143_FEI_B2646_2612R025_2009 en

Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Navigation

Browse

My Account

Statistics