Dynamic energy-efficiency optimization of GPGPU accelerated applications

dc.contributor.advisorŘíha, Lubomír
dc.contributor.authorVelička, Daniel
dc.contributor.refereeVysocký, Ondřej
dc.date.accepted2025-06-02
dc.date.accessioned2025-06-23T11:50:25Z
dc.date.available2025-06-23T11:50:25Z
dc.date.issued2025
dc.description.abstractHigh energy consumption is a major obstacle in building exascale supercomputers, where performance largely depends on accelerators -specialized hardware far more efficient than general-purpose processors (CPU). The surge of artificial intelligence has significantly increased the energy demands of these supercomputers, as these systems scaled up in these accelerator counts to meet the demand. The electricity bill competing with the purchase price is now the main motivation to improve energy efficiency, alongside reducing the carbon footprint, stress on the power infrastructure, and load on the cooling systems. While runtime systems with dynamic voltage and frequency scaling have greatly improved energy efficiency in CPU-based supercomputers, applying similar techniques to accelerators is challenging due to architectural differences and unknown reactivity to frequency changes. This thesis presents a methodology for measuring the accelerator reactivity to frequency changes and the length of the frequency transitions through artificial workload, using built-in timers in accelerators. The methodology was implemented in the LATEST tool for CUDA hardware streaming multiprocessor (SM) frequency and validated on three pieces of hardware: RTX Quadro 6000, A100 SXM-4, and GH200. The gained insights were particularly useful in the next part of the work, the development of the runtime system, dedicated to CUDA hardware. The developed runtime system relies on the SM frequency tuning based on the time interval. The main reason for this choice was the short CUDA kernel duration compared to the switching latency. This makes the usage of individual SM frequency settings for each kernel impractical, leading to switching overhead that outweighs all potential savings. By periodically sampling the performance counters using the CUPTI PM Sampling API, the arithmetic intensity can be determined in real-time. Based on the roofline mode, the optimum frequency is identified. To adjust the frequency, a special daemon tool is used, which directly uses the NVML API to perform the frequency changes. This daemon tool removes the overhead present in nvidia-smi and also facilitates access to otherwise root-only SM frequency scaling to non-privileged users. The runtime system was evaluated on both artificial benchmark with predefined arithmetic intensity behavior in several configurations and on ESPRESO FEM, which is a highly optimized production application for mechanical simulations using the FETI method. All experiments were done using the A100 SXM-4 accelerator. The results confirmed that dynamic tuning based on hardware utilization can achieve significant GPU energy savings. The artificial load benchmark savings reached up to 23%, while the ESPRESO FEM bechmarks were more reserved with only 7.4% energy savings - highlighting that significant energy savings achieved with small performance penalty, under 8.7% in all cases.en
dc.description.abstractProblém vysoké spotřeby energie představuje hlavní překážku při návrhu exascale superpočítačů, jejichž výkon do značné míry závisí na akcelerátorech - specializovaném druhu hardwaru schopného řešit určité druhy úloh výrazně efektivněji, než by to dokázaly běžné procesory (CPU). Prudký rozvoj umělé inteligence významně zvýšil nároky těchto superpočítačů, protože počet akcelerátorů v těchto systémech prudce vzrostl, aby pokryl rostoucí poptávku. Účty za elektřinu, které svoji výší snadno konkurují pořizovací ceně samotného hardwaru, se staly hlavní motivací k vylepšení energetické efektivity, vedle snahy snížit uhlíkovou stopu a vyrovnat zátěž na energetickou infrastrukturu a chladící systémy. Zatímco runtime systémy provádějící dynamické škálování napětí a frekvence výrazně přispěly k zlepšení energetické efektivity CPU systémů, aplikace podobných technik na akcelerátory představuje odlišnou výzvu, zejména kvůli odlišnostem v architektuře a neznámé reaktivitě na změny frekvence. Tato diplomová práce představuje metodologii měření této reaktivity akcelerátorů na změny frekvence a délku této změny pomocí sledování umělé zátěže, využívající hardwarové časovače v akcelerátorech. Metodologie byla implementována v nástroji LATEST určeném pro frekvenci streaming multiprocesorů (SM frekvence) hardwaru CUDA a ověřena na třech kusech hardwaru: RTX Quadro 6000, A100 SXM-4 a GH200. Získané poznatky byly klíčové pro další část -- vývoj vlastního runtime systému, speciálně navrženého pro CUDA hardware. Vyvinutý runtime systém je postaven na ladění frekvence streaming multiprocesorů skrze určitý časový interval. Hlavním důvodem této implementace je skutečnost, že CUDA kernely mají mnohdy řádově kratší trvání než samotná switching latence. To činí nastavování SM frekvence pro každý kernel nepraktické, protože režie přepínání SM frekvence může převážit veškeré úspory. Skrze periodické vyčítání pomocí CUPTI PM Sampling API je možné v reálném čase určit aritmetickou intenzitu v reálném čase. Na základě roofline modelu je následně určena optimální SM frekvence. Nastavování SM frekvence pak probíhá použitím speciální daemon aplikace, která přímo komunikuje s NVML API. Tento přístup odstraňuje overhead spojený s použitím nvidia-smi a také zpřístupňuje ladění SM frekvence všem uživatelům i bez oprávnění root. Runtime systém byl testován jak na umělé zátěži s předem známým chováním aritmetické intenzity v několika konfiguracích, tak na aplikaci ESPRESO FEM, což je vysoce optimalizovaný kód určený pro mechanické simulace pomocí metod FETI. Všechny experimenty probíhaly s použitím hardwaru A100 SXM-4. V případě umělé zátěže dosáhly úspory až 23%, zatímco benchmarky s ESPRESO FEM poskytly úspory 7.4% - což však stále potvrzuje, že lze dosáhnout výrazných energetických úspor s minimálním snížením výkonů, které nepřekročilo 8.7% v žádném z jmenovaných případů.cs
dc.description.department470 - Katedra aplikované matematikycs
dc.description.resultvýborněcs
dc.format.extent4592360 bytes
dc.format.mimetypeapplication/pdf
dc.identifier.otherOSD002
dc.identifier.senderS2724
dc.identifier.thesisVEL0109_FEI_N0541A170007_S02_2025
dc.identifier.urihttp://hdl.handle.net/10084/157076
dc.language.isoen
dc.publisherVysoká škola báňská – Technická univerzita Ostravacs
dc.rights.accessopenAccess
dc.subjectSupercomputeren
dc.subjectHPCen
dc.subjectGPUen
dc.subjectenergy efficiencyen
dc.subjectCUDAen
dc.subjectGPGPUen
dc.subjectSuperpočítačcs
dc.subjectHPCcs
dc.subjectGPUcs
dc.subjectenergetická efektivitacs
dc.subjectCUDAcs
dc.subjectGPGPUcs
dc.thesis.degree-branchVýpočetní metody a HPCcs
dc.thesis.degree-grantorVysoká škola báňská – Technická univerzita Ostrava. Fakulta elektrotechniky a informatikycs
dc.thesis.degree-levelMagisterský studijní programcs
dc.thesis.degree-nameIng.
dc.thesis.degree-programVýpočetní a aplikovaná matematikacs
dc.titleDynamic energy-efficiency optimization of GPGPU accelerated applicationsen
dc.title.alternativeDynamická optimalizace GPGPU akcelerovaných aplikací z pohledu spotřeby energiecs
dc.typeDiplomová prácecs

Files

Original bundle

Now showing 1 - 5 out of 6 results
Loading...
Thumbnail Image
Name:
VEL0109_FEI_N0541A170007_S02_2025.pdf
Size:
4.38 MB
Format:
Adobe Portable Document Format
Description:
Text práce
Loading...
Thumbnail Image
Name:
VEL0109_FEI_N0541A170007_S02_2025_zadani.pdf
Size:
122.48 KB
Format:
Adobe Portable Document Format
Description:
Zadání
Loading...
Thumbnail Image
Name:
VEL0109_FEI_N0541A170007_S02_2025_priloha.zip
Size:
207.75 KB
Format:
Unknown data format
Description:
Příloha
Loading...
Thumbnail Image
Name:
VEL0109_FEI_N0541A170007_S02_2025_posudek_vedouci_Riha_Lubomir.pdf
Size:
144.58 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího – Říha, Lubomír
Loading...
Thumbnail Image
Name:
VEL0109_FEI_N0541A170007_S02_2025_posudek_oponent_Vysocky_Ondrej.pdf
Size:
142.61 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta – Vysocký, Ondřej