Efficient Methods for Mining Subgraphs in a Single Large Graph

dc.contributor.advisorZelinka, Ivan
dc.contributor.authorNguyen, Lam Ba Quang
dc.contributor.refereeKudělka, Miloš
dc.contributor.refereeNguyen, Ngoc
dc.contributor.refereeBrandejský, Tomáš
dc.date.accepted2022-06-22
dc.date.accessioned2022-09-01T07:49:25Z
dc.date.available2022-09-01T07:49:25Z
dc.date.issued2022
dc.description.abstractLarge and complex graphs are often used for simulation of the complex relationships among objects in many applications in various fields, such as social networks, maps, computer networks, chemical structures, bioinformatics, computer vision and web analysis. Frequent subgraph mining (FSM) is a vital issue and has attracted numerous researchers in recent years, among them, MNI-based approaches are considered as state-of-the-art, such as the GraMi algorithm. FSM plays an important role in various tasks, such as data mining, model analysis, and decision support systems. It is defined as finding all subgraphs whose occurrences in the dataset are greater than or equal to a given frequency threshold. In recent applications, such as social networks, the underlying graphs are very large, therefore algorithms for mining frequent subgraphs from a single large graph have been developing rapidly lately but all of them have huge search spaces, and therefore still needs a lot of time and memory to process. For frequent subgraph mining field, in this thesis, we have proposed a method to record the support of mined subgraphs; a sorting strategy to reduce the number of generated subgraphs; a parallel processing approach to reduce the mining time; early pruning of invalid values in the domain to balance the search space. Our experiments on four real datasets (both of the directed and undirected graphs) showed that the four proposed algorithms had better results with respect to the search space, the running time and the memory requirements and enhance the performance. Besides that, closed frequent subgraph mining was also developed. This has many practical applications and is a fundamental premise for many studies. We propose a closed frequent subgraph mining algorithm based on GraMi to find all closed frequent subgraphs in a single large graph; two strategies are also developed: namely early determining for closed frequent subgraphs and early pruning non-closed subgraphs; and these are used to improve the performance of the proposed algorithm. All our experiments for closed frequent subgraph mining are performed on five real directed/undirected graph datasets and the results show that the running time as well as the memory requirements of our algorithm are better than those of the GraMi-based algorithm.en
dc.description.abstractVelké a složité grafy se často používají pro simulaci komplexních vztahů mezi objekty v mnoha aplikacích v různých oblastech, jako jsou sociální sítě, mapy, počítačové sítě, chemické struktury, bioinformatika, počítačové vidění a webové analýzy. Časté dolování podgrafů (FSM) je zásadní problém a v posledních letech přitahuje řadu výzkumníků, mezi nimi jsou přístupy založené na MNI považovány za nejmodernější, jako je algoritmus GraMi. FSM hraje důležitou roli v různých úkolech, jako je dolování dat, analýza modelů a systémy na podporu rozhodování. Je definována jako nalezení všech podgrafů, jejichž výskyty v datové sadě jsou větší nebo rovné danému frekvenčnímu prahu. V nedávných aplikacích, jako jsou sociální sítě, jsou podkladové grafy velmi velké, a proto se algoritmy pro dolování častých podgrafů z jednoho velkého grafu v poslední době rychle vyvíjejí, ale všechny mají obrovské vyhledávací prostory, a proto stale potřebují spoustu času a paměti ke zpracování. Pro frekventované podgrafní těžební pole jsme v této práci navrhli metodu pro záznam podpory vytěžených podgrafů; strategii třídění pro snížení počtu generovaných podgrafů; přístup paralelního zpracování pro zkrácení doby těžby; včasné ořezávání neplatných hodnot v doméně, aby se vyrovnal prostor pro vyhledávání. Naše experiment na čtyřech reálných souborech dat (jak orientovaných, tak neorientovaných grafů) ukázaly, že naše čtyři navržené algoritmy měly lepší výsledky s ohledem na prohledávací prostor, dobu běhu a požadavky na paměť a zvýšily výkon výpočtu. Mimo to byla rovněž rozvinuta metoda hkedání uzavřených (closed) grafů. To má mnoho praktických aplikací a je základním předpokladem pro mnoho studií. Navrhujeme uzavřený algoritmus dolování častých podgrafů založený na GraMi k nalezení všech uzavřených častých podgrafů v jediném velkém grafu; jsou také vyvinuty dvě strategie: jmenovitě včasné určování pro uzavřené časté podgrafy a včasné ořezávání neuzavřených podgrafů; a ty se používají ke zlepšení výkonu navrhovaného algoritmu. Všechny naše experimenty pro uzavřené časté dolování podgrafů jsou prováděny na pěti skutečných řízených/ neorientovaných grafových datových sadách a výsledky ukazují, že doba běhu a paměťové požadavky našeho algoritmu jsou lepší než u algoritmu založeného na GraMi.cs
dc.description.department460 - Katedra informatikycs
dc.description.resultvyhovělcs
dc.format95 listů : ilustrace
dc.format.extent18028958 bytes
dc.format.mimetypeapplication/pdf
dc.identifier.locationÚK/Sklad diplomových prací
dc.identifier.otherOSD002
dc.identifier.senderS2724
dc.identifier.signature202300066
dc.identifier.thesisNGU0090_FEI_P1807_1801V001_2022
dc.identifier.urihttp://hdl.handle.net/10084/148527
dc.language.isoen
dc.publisherVysoká škola báňská – Technická univerzita Ostravacs
dc.rights.accessopenAccess
dc.subjectData miningen
dc.subjectparallel strategyen
dc.subjectsorting strategyen
dc.subjectearly pruningen
dc.subjectfrequent subgraph mining, closed subgraph mining.en
dc.subjectDolování datcs
dc.subjectparalelní strategiecs
dc.subjectstrategie tříděnícs
dc.subjectrané prořezávánícs
dc.subjectčastá podgrafová těžba, uzavřená podgrafní těžba.cs
dc.thesis.degree-branchInformatikacs
dc.thesis.degree-grantorVysoká škola báňská – Technická univerzita Ostrava. Fakulta elektrotechniky a informatikycs
dc.thesis.degree-levelDoktorský studijní programcs
dc.thesis.degree-namePh.D.
dc.thesis.degree-programInformatika, komunikační technologie a aplikovaná matematikacs
dc.titleEfficient Methods for Mining Subgraphs in a Single Large Graphen
dc.title.alternativeEfficient Methods for Mining Subgraphs in a Single Large Graphcs
dc.typeDisertační prácecs

Files

Original bundle

Now showing 1 - 4 out of 4 results
Loading...
Thumbnail Image
Name:
NGU0090_FEI_P1807_1801V001_2022.pdf
Size:
17.19 MB
Format:
Adobe Portable Document Format
Description:
Text práce
Loading...
Thumbnail Image
Name:
NGU0090_FEI_P1807_1801V001_2022_posudek_oponent_Brandejsky_Tomas.pdf
Size:
105.44 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta – Brandejský, Tomáš
Loading...
Thumbnail Image
Name:
NGU0090_FEI_P1807_1801V001_2022_posudek_oponent_Kudelka_Milos.pdf
Size:
173.96 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta – Kudělka, Miloš
Loading...
Thumbnail Image
Name:
NGU0090_FEI_P1807_1801V001_2022_posudek_oponent_Nguyen_Ngoc.pdf
Size:
145.08 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta – Nguyen, Ngoc