Nedovoľte, aby sa skladovanie stalo kľúčovou prekážkou v modelovom tréningu

Hovorí sa, že technologické spoločnosti buď hľadajú GPU, alebo sú na ceste k ich získaniu. V apríli generálny riaditeľ spoločnosti Tesla Elon Musk kúpil 10 000 GPU a uviedol, že spoločnosť bude pokračovať v nákupe veľkého množstva GPU od NVIDIA. Na strane podniku sa IT pracovníci tiež usilovne snažia zabezpečiť, aby sa GPU neustále využívali na maximalizáciu návratnosti investícií. Niektoré spoločnosti však môžu zistiť, že zatiaľ čo počet GPU rastie, nečinnosť GPU sa stáva vážnejšou.

Ak nás história naučila niečo o vysokovýkonných počítačoch (HPC), je to to, že úložisko a sieťovanie by sa nemalo obetovať na úkor prílišného zamerania sa na výpočty. Ak úložisko nedokáže efektívne prenášať dáta do výpočtových jednotiek, aj keď máte najviac GPU na svete, nedosiahnete optimálnu efektivitu.

Podľa Mikea Matchetta, analytika spoločnosti Small World Big Data, možno menšie modely spúšťať v pamäti (RAM), čo umožňuje viac sa sústrediť na výpočty. Väčšie modely ako ChatGPT s miliardami uzlov však nie je možné uložiť do pamäte kvôli vysokým nákladom.

„Nemôžete umiestniť miliardy uzlov do pamäte, takže úložisko je ešte dôležitejšie,“ hovorí Matchett. Nanešťastie sa počas plánovacieho procesu často prehliada ukladanie údajov.

Vo všeobecnosti, bez ohľadu na prípad použitia, existujú štyri spoločné body v procese trénovania modelu:

1. Modelový tréning
2. Aplikácia na odvodenie
3. Ukladanie dát
4. Accelerated Computing

Pri vytváraní a nasadzovaní modelov väčšina požiadaviek uprednostňuje rýchle overenie koncepcie (POC) alebo testovacie prostredia na začatie školenia modelov, pričom potreby ukladania údajov sa neberú do úvahy.

Výzva však spočíva v tom, že školenie alebo nasadenie inferencií môže trvať mesiace alebo dokonca roky. Mnoho spoločností počas tohto obdobia rýchlo zväčšuje veľkosť svojich modelov a infraštruktúra sa musí rozširovať, aby vyhovovala rastúcim modelom a súborom údajov.

Výskum od spoločnosti Google týkajúci sa miliónov tréningových záťaží ML ukazuje, že v priemere 30 % tréningového času sa strávi na vstupnom dátovom kanáli. Zatiaľ čo minulý výskum sa zameral na optimalizáciu GPU s cieľom urýchliť tréning, stále zostáva veľa výziev pri optimalizácii rôznych častí dátového potrubia. Keď máte značný výpočtový výkon, skutočným prekážkou sa stáva, ako rýchlo dokážete vložiť údaje do výpočtov, aby ste dosiahli výsledky.

Výzvy v oblasti ukladania a správy údajov si vyžadujú plánovanie rastu údajov, čo vám umožní nepretržite získavať hodnotu údajov pri postupe, najmä keď sa pustíte do pokročilejších prípadov použitia, ako sú hlboké učenie a neurónové siete, ktoré kladú vyššie nároky na z hľadiska kapacity, výkonu a škálovateľnosti.

Konkrétne:

Škálovateľnosť
Strojové učenie si vyžaduje spracovanie obrovského množstva údajov a so zvyšujúcim sa objemom údajov sa zlepšuje aj presnosť modelov. To znamená, že podniky musia každý deň zhromažďovať a uchovávať viac údajov. Keď sa úložisko nedá škálovať, dátovo náročné pracovné zaťaženie vytvára úzke miesta, obmedzuje výkon a vedie k nákladným prestojom GPU.

Flexibilita
Flexibilná podpora viacerých protokolov (vrátane NFS, SMB, HTTP, FTP, HDFS a S3) je nevyhnutná na splnenie potrieb rôznych systémov a nie je obmedzená na jeden typ prostredia.

Latencia
I/O latencia je rozhodujúca pre vytváranie a používanie modelov, pretože údaje sa čítajú a znova čítajú viackrát. Zníženie I/O latencie môže skrátiť tréningový čas modelov o dni alebo mesiace. Rýchlejší vývoj modelov sa priamo premieta do väčších obchodných výhod.

Priepustnosť
Priepustnosť úložných systémov je rozhodujúca pre efektívny modelový tréning. Tréningové procesy zahŕňajú veľké množstvo údajov, zvyčajne v terabajtoch za hodinu.

Paralelný prístup
Na dosiahnutie vysokej priepustnosti školiace modely rozdeľujú aktivity do viacerých paralelných úloh. To často znamená, že algoritmy strojového učenia pristupujú k rovnakým súborom z viacerých procesov (potenciálne na viacerých fyzických serveroch) súčasne. Úložný systém musí zvládnuť súbežné požiadavky bez zníženia výkonu.

Vďaka svojim vynikajúcim schopnostiam v oblasti nízkej latencie, vysokej priepustnosti a rozsiahlych paralelných I/O je Dell PowerScale ideálnym doplnkom úložiska k výpočtovej technike s akceleráciou GPU. PowerScale efektívne znižuje čas potrebný na analytické modely, ktoré trénujú a testujú viacterabajtové množiny údajov. V úložisku PowerScale all-flash sa šírka pásma zväčší 18-krát, čím sa eliminujú I/O úzke miesta, a možno ho pridať do existujúcich klastrov Isilon na zrýchlenie a uvoľnenie hodnoty veľkého množstva neštruktúrovaných údajov.

Navyše, možnosti multiprotokolového prístupu PowerScale poskytujú neobmedzenú flexibilitu pri spúšťaní pracovných záťaží, čo umožňuje ukladať dáta pomocou jedného protokolu a pristupovať k nim pomocou iného. Konkrétne, výkonné funkcie, flexibilita, škálovateľnosť a podnikové funkcie platformy PowerScale pomáhajú riešiť nasledujúce výzvy:

- Zrýchlite inovácie až 2,7-krát, čím sa zníži cyklus tréningu modelu.

- Eliminujte I/O úzke miesta a poskytnite rýchlejšie školenie a overovanie modelov, zlepšenú presnosť modelu, zvýšenú produktivitu vedy o údajoch a maximálnu návratnosť investícií do výpočtovej techniky využitím podnikových funkcií, vysokého výkonu, súbežnosti a škálovateľnosti. Zvýšte presnosť modelu pomocou hlbších súborov údajov s vyšším rozlíšením využitím až 119 PB efektívnej úložnej kapacity v jednom klastri.

- Dosiahnite nasadenie vo veľkom meradle spustením malých a nezávisle škálovateľných výpočtov a úložného priestoru, čím získate robustnú ochranu údajov a možnosti zabezpečenia.

- Zlepšite produktivitu vedy o údajoch pomocou analýzy na mieste a vopred overených riešení pre rýchlejšie nasadenia s nízkym rizikom.

- Využitie osvedčených návrhov založených na najlepších technológiách, vrátane akcelerácie GPU NVIDIA a referenčných architektúr so systémami NVIDIA DGX. Vysoký výkon a súbežnosť PowerScale spĺňajú požiadavky na výkon úložiska v každej fáze strojového učenia, od získavania údajov a prípravy až po modelovanie a odvodzovanie. Spolu s operačným systémom OneFS môžu všetky uzly bez problémov fungovať v rámci rovnakého klastra riadeného OneFS s funkciami na podnikovej úrovni, ako je správa výkonu, správa údajov, bezpečnosť a ochrana údajov, čo umožňuje rýchlejšie dokončenie školenia modelov a overenie pre podniky.


Čas odoslania: júl-03-2023