Låt inte förvaring bli den viktigaste flaskhalsen i modellträning

Det har sagts att teknikföretag antingen letar efter GPU:er eller är på väg att skaffa dem. I april köpte Teslas vd Elon Musk 10 000 GPU:er och uppgav att företaget skulle fortsätta att köpa en stor mängd GPU:er från NVIDIA. På företagssidan pressar IT-personal också hårt för att säkerställa att GPU:er ständigt används för att maximera avkastningen på investeringen. Vissa företag kan dock upptäcka att medan antalet GPU:er ökar, blir GPU-tomgången mer allvarlig.

Om historien har lärt oss något om high-performance computing (HPC), så är det att lagring och nätverk inte ska offras på bekostnad av att fokusera för mycket på beräkningar. Om lagring inte effektivt kan överföra data till datorenheterna, även om du har flest GPU:er i världen, kommer du inte att uppnå optimal effektivitet.

Enligt Mike Matchett, analytiker på Small World Big Data, kan mindre modeller köras i minnet (RAM), vilket möjliggör mer fokus på beräkning. Större modeller som ChatGPT med miljarder noder kan dock inte lagras i minnet på grund av den höga kostnaden.

"Du kan inte få plats med miljarder noder i minnet, så lagring blir ännu viktigare", säger Matchett. Tyvärr förbises datalagring ofta under planeringen.

I allmänhet, oavsett användningsfall, finns det fyra vanliga punkter i modellutbildningsprocessen:

1. Modellutbildning
2. Slutledningsansökan
3. Datalagring
4. Accelererad beräkning

När man skapar och distribuerar modeller prioriterar de flesta krav snabba proof-of-concept (POC) eller testmiljöer för att initiera modellträning, med datalagringsbehov som inte ges högsta hänsyn.

Utmaningen ligger dock i det faktum att utbildning eller slutsatsutbyggnad kan pågå i månader eller till och med år. Många företag skalar snabbt upp sina modellstorlekar under denna tid, och infrastrukturen måste utökas för att rymma de växande modellerna och datamängderna.

Forskning från Google om miljontals ML-träningsarbetsbelastningar visar att i genomsnitt 30 % av träningstiden spenderas på indatapipeline. Medan tidigare forskning har fokuserat på att optimera GPU:er för att påskynda träningen, kvarstår många utmaningar med att optimera olika delar av datapipeline. När du har betydande beräkningskraft blir den verkliga flaskhalsen hur snabbt du kan mata in data i beräkningarna för att få resultat.

Specifikt kräver utmaningarna inom datalagring och hantering planering för datatillväxt, vilket gör att du kontinuerligt kan extrahera värdet av data när du utvecklas, särskilt när du ger dig ut i mer avancerade användningsfall som djupinlärning och neurala nätverk, som ställer högre krav på lagring i termer av kapacitet, prestanda och skalbarhet.

Särskilt:

Skalbarhet
Maskininlärning kräver hantering av enorma mängder data, och när datavolymen ökar, förbättras även modellernas noggrannhet. Det innebär att företag måste samla in och lagra mer data varje dag. När lagring inte kan skalas skapar dataintensiva arbetsbelastningar flaskhalsar, vilket begränsar prestandan och resulterar i dyr GPU-inaktivitetstid.

Flexibilitet
Flexibelt stöd för flera protokoll (inklusive NFS, SMB, HTTP, FTP, HDFS och S3) är nödvändigt för att möta behoven hos olika system, snarare än att begränsas till en enda typ av miljö.

Latens
I/O-latens är avgörande för att bygga och använda modeller eftersom data läses och läses om flera gånger. Att minska I/O-latensen kan förkorta träningstiden för modeller med dagar eller månader. Snabbare modellutveckling leder direkt till större affärsfördelar.

Genomströmning
Genomströmningen av lagringssystem är avgörande för effektiv modellträning. Utbildningsprocesser involverar stora mängder data, vanligtvis i terabyte per timme.

Parallell åtkomst
För att uppnå hög genomströmning delar utbildningsmodeller upp aktiviteter i flera parallella uppgifter. Detta innebär ofta att maskininlärningsalgoritmer får åtkomst till samma filer från flera processer (potentiellt på flera fysiska servrar) samtidigt. Lagringssystemet måste hantera samtidiga krav utan att kompromissa med prestanda.

Med sina enastående möjligheter inom låg latens, hög genomströmning och storskalig parallell I/O är Dell PowerScale ett idealiskt lagringskomplement till GPU-accelererad datoranvändning. PowerScale minskar effektivt tiden som krävs för analysmodeller som tränar och testar datauppsättningar med flera terabyte. I PowerScale all-flash-lagring ökar bandbredden med 18 gånger, vilket eliminerar I/O-flaskhalsar och kan läggas till befintliga Isilon-kluster för att accelerera och låsa upp värdet av stora mängder ostrukturerad data.

Dessutom ger PowerScales åtkomstmöjligheter för flera protokoll obegränsad flexibilitet för att köra arbetsbelastningar, vilket gör att data kan lagras med ett protokoll och nås med ett annat. Specifikt hjälper PowerScale-plattformens kraftfulla funktioner, flexibilitet, skalbarhet och företagsfunktionalitet att hantera följande utmaningar:

- Accelerera innovation med upp till 2,7 gånger, vilket minskar modellträningscykeln.

- Eliminera I/O-flaskhalsar och ge snabbare modellutbildning och validering, förbättrad modellnoggrannhet, förbättrad datavetenskaplig produktivitet och maximerad avkastning på datorinvesteringar genom att utnyttja företagsklassade funktioner, hög prestanda, samtidighet och skalbarhet. Förbättra modellnoggrannheten med djupare datauppsättningar med högre upplösning genom att utnyttja upp till 119 PB effektiv lagringskapacitet i ett enda kluster.

- Uppnå distribution i stor skala genom att starta små och oberoende skala beräkning och lagring, leverera robusta dataskydds- och säkerhetsalternativ.

- Förbättra datavetenskapens produktivitet med analys på plats och förvaliderade lösningar för snabbare driftsättningar med låg risk.

- Utnyttja beprövad design baserad på den bästa tekniken, inklusive NVIDIA GPU-acceleration och referensarkitekturer med NVIDIA DGX-system. PowerScales höga prestanda och samtidighet uppfyller kraven på lagringsprestanda i varje steg av maskininlärning, från datainsamling och förberedelse till modellträning och slutledning. Tillsammans med operativsystemet OneFS kan alla noder sömlöst fungera inom samma OneFS-drivna kluster, med funktioner på företagsnivå som prestandahantering, datahantering, säkerhet och dataskydd, vilket möjliggör snabbare slutförande av modellutbildning och validering för företag.


Posttid: 2023-03-03