dc.contributor.advisor | Krátký, Michal | |
dc.contributor.author | Lukáš, Petr | |
dc.date.accessioned | 2019-12-11T10:11:45Z | |
dc.date.available | 2019-12-11T10:11:45Z | |
dc.date.issued | 2019 | |
dc.identifier.other | OSD002 | |
dc.identifier.uri | http://hdl.handle.net/10084/139029 | |
dc.description.abstract | This thesis deals with the processing of structural XML queries which specify predicates on XML nodes and structural relationships that have to be satisfied between them; the structural XML queries are often modeled by a twig pattern query (TPQ). A lot of TPQ types have been proposed; this work takes into account a TPQ model extended by a specification of output and non-output query nodes since it complies with the XQuery semantics and, in many cases, it leads to a more efficient query processing. In general, there are two approaches to process the TPQs: holistic twig joins and binary joins. The holistic twig joins have been developed as a generalization of the binary joins, and they have been considered as a state-of-the-art TPQ processing method. This work brings improvements to the both approaches. For the holistic twig joins, we introduce a cost-based optimization that enables to combine various index data structures during the processing of a TPQ; we also propose a cost-based optimization framework to select an appropriate index data structure for each query node. For the binary joins, we show that these algorithms used in a fully-pipelined plan (i.e., the plan where each join operation does not wait for the complete result of the previous operation) can often overcome the holistic twig joins even without any cost-based optimizer, especially for TPQs with a higher ratio of non-output query nodes and for queries with a low selectivity. We also prove that for a certain class of TPQs, the fully-pipelined plan has the linear time and I/O complexity with respect to the size of the input and output as well as the linear space complexity with respect to the XML document depth (i.e., the same complexity as the holistic twig joins). We also include thorough experiments demonstrating advantages of the proposed improvements. | en |
dc.description.abstract | Tato práce se zabývá zpracováním dotazů na strukturu XML dat. Tyto dotazy definují predikáty na uzly XML dokumentu a strukturální vztahy, které musí být mezi těmito uzly splněny. Dotazy na strukturu XML dat jsou obvykle modelovány pomocí větvených dotazů (TPQ - Twig Pattern Query). Existuje mnoho typů TPQ; tato disertační práce uvažuje model TPQ rozšířený o definici výstupních a nevýstupních uzlů, což odpovídá sémantice dotazů XQuery a v mnoha případech vede k jejich efektivnějšímu zpracování. Obecně lze rozlišit dva přístupy ke zpracování TPQ: holistická spojení a binární spojení. Holistická spojení byla navržena jako zobecnění binárních spojení a jsou považována za nejmodernější metodu zpracování TPQ. Tato práce navrhuje vylepšení pro oba zmíněné přístupy. Pro holistická spojení práce popisuje cenovou optimalizaci, která během zpracování TPQ umožňuje kombinovat více indexů. Součástí metody je rovněž popis cenově optimalizačního rámce pro výběr indexu pro jednotlivé uzly v dotazu. Pro binární spojení práce ukazuje, že tyto algoritmy používané ve zřetězeném plánu (tj. plánu, kde operace nečeká na kompletní výsledek předchozí operace) mohou být často efektivnější než holistická spojení i bez použití cenové optimalizace. Zřetězené plány jsou výhodné zejména pro TPQ s větším počtem nevýstupních uzlů a pro TPQ s nízkou selektivitou. V práci je dokázáno, že pro určitou třídu dotazů mají zřetězené plány lineární časovou a vstupně-výstupní složitost vzhledem k velikosti vstupu a výstupu a lineární prostorovou složitost vzhledem k hloubce XML dokumentu, tedy stejnou složitost jako holistická spojení. Součástí práce je důkladné experimentální ověření navržených vylepšení. | cs |
dc.format | 124 strany : ilustrace | |
dc.format.extent | 2959091 bytes | |
dc.format.mimetype | application/pdf | |
dc.language.iso | en | |
dc.publisher | Vysoká škola báňská - Technická univerzita Ostrava | cs |
dc.subject | XML query processing | en |
dc.subject | twig pattern query | en |
dc.subject | query plan | en |
dc.subject | binary join | en |
dc.subject | holistic twig join | en |
dc.subject | XQuery | en |
dc.subject | XPath | en |
dc.subject | XML | en |
dc.subject | native XML database management system | en |
dc.subject | cost-based optimization | en |
dc.subject | zpracování XML dotazů | cs |
dc.subject | větvený dotaz | cs |
dc.subject | plán dotazu | cs |
dc.subject | binární spojení | cs |
dc.subject | holistické spojení | cs |
dc.subject | XQuery | cs |
dc.subject | XPath | cs |
dc.subject | XML | cs |
dc.subject | nativní XML systém řízení báze dat | cs |
dc.subject | cenová optimalizace | cs |
dc.title | Structural XML Query Processing | en |
dc.title.alternative | Zpracování dotazů na strukturu XML dat | cs |
dc.type | Disertační práce | cs |
dc.identifier.signature | 202200006 | |
dc.identifier.location | ÚK/Sklad diplomových prací | |
dc.contributor.referee | Kolář, Dušan | |
dc.contributor.referee | Holubová, Irena | |
dc.contributor.referee | Kudělka, Miloš | |
dc.date.accepted | 2019-10-16 | |
dc.thesis.degree-name | Ph.D. | |
dc.thesis.degree-level | Doktorský studijní program | cs |
dc.thesis.degree-grantor | Vysoká škola báňská - Technická univerzita Ostrava. Fakulta elektrotechniky a informatiky | cs |
dc.description.department | 460 - Katedra informatiky | cs |
dc.thesis.degree-program | Informatika, komunikační technologie a aplikovaná matematika | cs |
dc.thesis.degree-branch | Informatika | cs |
dc.description.result | vyhověl | cs |
dc.identifier.sender | S2724 | |
dc.identifier.thesis | LUK194_FEI_P1807_1801V001_2019 | |
dc.rights.access | openAccess | |