[Kina, Shenzhen, 14 juli 2023] Idag presenterade Huawei sin nya AI-lagringslösning för eran av storskaliga modeller, som tillhandahåller optimala lagringslösningar för grundläggande modellträning, branschspecifik modellträning och slutsatser i segmenterade scenarier, alltså släpper lös nya AI-funktioner.
När det gäller utveckling och implementering av storskaliga modellapplikationer står företag inför fyra stora utmaningar:
För det första är tiden som krävs för att förbereda data lång, datakällorna är spridda och aggregeringen är långsam, vilket tar cirka 10 dagar för att förbehandla hundratals terabyte data. För det andra, för multimodala stora modeller med massiva text- och bilddatauppsättningar, är den nuvarande laddningshastigheten för stora små filer mindre än 100 MB/s, vilket resulterar i låg effektivitet för laddning av träningsset. För det tredje orsakar frekventa parameterjusteringar för stora modeller, tillsammans med instabila träningsplattformar, träningsavbrott ungefär varannan dag, vilket gör att Checkpoint-mekanismen måste återuppta träningen, med återhämtningen som tar över en dag. Slutligen, höga implementeringströsklar för stora modeller, komplexa systeminställningar, resursschemaläggningsutmaningar och GPU-resursutnyttjandet ofta under 40 %.
Huawei anpassar sig till trenden med AI-utveckling i en tidevarv av storskaliga modeller, och erbjuder lösningar skräddarsydda för olika branscher och scenarier. Den introducerar OceanStor A310 Deep Learning Data Lake Storage och FusionCube A3000 Training/Inference Super-Converged Appliance. OceanStor A310 Deep Learning Data Lake Storage är inriktat på både grundläggande och branschnivå stora modelldatasjöscenarier, och uppnår omfattande AI-datahantering från dataaggregering, förbearbetning till modellträning och slutledningstillämpningar. OceanStor A310, i ett enda 5U-rack, stöder branschledande 400 GB/s bandbredd och upp till 12 miljoner IOPS, med linjär skalbarhet upp till 4096 noder, vilket möjliggör sömlös kommunikation över protokoll. Global File System (GFS) underlättar intelligent datavävning över regioner, vilket effektiviserar dataaggregationsprocesser. Near-storage computing realiserar förbearbetning nära data, vilket minskar datarörelsen och förbättrar förbearbetningseffektiviteten med 30 %.
FusionCube A3000 Training/Inference Super-Converged Appliance, designad för utbildning/inferensscenarier för stora modeller på branschnivå, vänder sig till applikationer som involverar modeller med miljarder parametrar. Den integrerar OceanStor A300 högpresterande lagringsnoder, utbildnings-/inferensnoder, växlingsutrustning, AI-plattformsmjukvara och hanterings- och driftmjukvara, vilket ger partner i stora modeller en plug-and-play-installationsupplevelse för en leverans från ett enda ställe. Klar att använda, den kan användas inom 2 timmar. Både tränings-/inferens- och lagringsnoder kan utökas oberoende och horisontellt för att matcha olika modellskalakrav. Samtidigt använder FusionCube A3000 högpresterande behållare för att möjliggöra träning av flera modeller och slutledningsuppgifter för att dela GPU: er, vilket ökar resursutnyttjandet från 40 % till över 70 %. FusionCube A3000 stöder två flexibla affärsmodeller: Huawei Ascend One-Stop Solution och tredjepartspartnerns one-stop-lösning med öppen dator, nätverk och AI-plattformsmjukvara.
Huaweis VD för produktlinjen för datalagring, Zhou Yuefeng, sa: "I en tid präglad av storskaliga modeller bestämmer data höjden på AI-intelligens. Som bärare av data blir datalagring den viktigaste grundläggande infrastrukturen för storskaliga AI-modeller. Huawei Data Storage kommer att fortsätta att förnya sig, tillhandahålla diversifierade lösningar och produkter för eran av stora AI-modeller, och samarbeta med partners för att driva AI-bemyndigande inom ett brett spektrum av industrier."
Posttid: Aug-01-2023