Dynamic parameters tuning for HPC clusters exploitation

Abstract

The High Performance Computing community faces a problem of enormous power and energy consumption, which is the major obstacle in building supercomputers exceeding exaflop performance. The only solution is a hardware-software codesign, introducing more power-efficient hardware with power management and monitoring features, as well as a software stack for power- and energy-efficient computing. Over the last years, more and more heterogeneous hardware has been accommodated to meet power-related goals. However, it makes software development complicated. Implementing software that fully utilizes the available hardware is not easy. Underutilized hardware creates a space for optimization from an energy consumption point of view using a power knob management and, therefore, energy savings without application performance degradation. This thesis presents a methodology of Fine-grain dynamic tuning of power knobs during a parallel application execution on heterogeneous hardware to achieve energy savings. Thanks to complex execution time coverage by regions of interest, high tuning granularity starting at the level of ten milliseconds and a large set of controlled power knobs, it pushes the achievable energy savings to the limit. The automatic identification of the optimal configuration is designed to control application performance degradation caused by the tuning. The developed MERIC runtime system and related tools implement this methodology, providing support to tune various tuning parameters, automatic optimal configuration identification, resource consumption measurement, and measurement data visualization for application behaviour understanding.
Prostředí superpočítačů čelí problému enormní spotřeby elektrické energie, která se stala hlavní překážkou v budování systémů přesahující exascale výkon. Jediným řešením je společná tvorba hardware a software, která povede k výrazně energeticky výkonnějšímu hardware s možnostmi správy spotřeby elektrické energie, jejího monitoringu, a sady software nástrojů pro energeticky efektivní počítání. Během posledních let se stále častěji využívají různorodé hardwarové platformy, zvyšující energetickou efektivitu pro specifické typy úloh. Nicméně, komplexita hardware zvyšuje nároky na tvorbu software. Vytvořit software, který využije potenciálu daného hardware není jednoduché. Plně nevyužitý hardware dává prostor pro optimalizaci spotřeby energie dosažené pomocí ovládání patřičný parametrů hardware, které mají vliv na její spotřebu, aniž by došlo k prodloužení doby běhu dané aplikace. Tato dizertace představuje metodologii častého dynamického ladění parametrů s vli\-vem na spotřebu elektrické energie za běhu paralelní aplikace. Díky komplexního pokrytí času běhu jednotlivými regiony, které mohou být krátké až deset milisekund, a široké sadě laděný parametrů je dosaženo maximální energetických úspor, jaké daný výpočetní hardware umožňuje. Automatická detekce optimální konfigurace je navržená s ohledem na vliv na výkon laděné aplikace, a umožňuje nastavovat limit prodloužení doby běhu. Knihovna MERIC a její nástroje implementují danou metodologii, a poskytují mož\-nost ladit širokou škálu parametrů, automatickou detekci optimální konfigurace, měření spotřeby výpočetních zdrojů, a jejich vizualizaci pro pochopení chování dané aplikace.

Description

Citation