Nástroj pro distribuované zpracování dat
Loading...
Files
Downloads
0
Date issued
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Vysoká škola báňská – Technická univerzita Ostrava
Abstract
Cílem této bakalářské práce je vytvořit nástroj pro plánování a správu distribuovaných výpočtů na serveru určeném pro zpracování dat z optického mapování. Server obsahuje desítky terabajtů dat v~podobě stovek tisíc souborů, kde ruční zpracování představuje výraznou časovou zátěž.
Hlavní přínos práce spočívá v nástroji rozděleném do dvou částí. První částí je konfigurátor, který umožňuje uživateli organizovat vstupní data pomocí filtrů, přiřazovat je k existujícím výpočetním skriptům a nastavovat parametry paralelního zpracování. Druhou částí je vykonávací modul, který zajišťuje plánování úloh na serverových zdrojích, správu paralelních výpočtů a monitoring průběhu zpracování.
Práce zahrnuje analýzu specifických požadavků na zpracování dat z optického mapování a představuje řešení, které umožňuje efektivní práci s velkým množstvím souborů.
The goal of this bachelor thesis is to create a tool for planning and managing distributed calculations on a server used for processing optical mapping data. The server contains terabytes of data in the form of hundreds of thousands of files, where manual processing is very time-consuming. The main benefit of this work is a tool divided into two parts. The first part, the configurator, helps the user organize input data using filters, assign them to existing calculation scripts, and set parameters for parallel processing. The second part, the execution module, provides task scheduling on server resources, manages parallel calculations, and monitors the processing progress. This thesis also analyzes the specific requirements for processing optical mapping data and presents a solution that allows efficient work with large numbers of files.
The goal of this bachelor thesis is to create a tool for planning and managing distributed calculations on a server used for processing optical mapping data. The server contains terabytes of data in the form of hundreds of thousands of files, where manual processing is very time-consuming. The main benefit of this work is a tool divided into two parts. The first part, the configurator, helps the user organize input data using filters, assign them to existing calculation scripts, and set parameters for parallel processing. The second part, the execution module, provides task scheduling on server resources, manages parallel calculations, and monitors the processing progress. This thesis also analyzes the specific requirements for processing optical mapping data and presents a solution that allows efficient work with large numbers of files.