AMD lansează ROCm 6.4: inferență revoluționară, containere Plug-and-Play și implementare modulară pentru AI pe plăcile video AMD Instinct

07.05.2025
AMD lansează ROCm 6.4: inferență revoluționară, containere Plug-and-Play și implementare modulară pentru AI pe plăcile video AMD Instinct
Foto: AMD

Amploarea și complexitatea sarcinilor de lucru moderne legate de inteligența artificială continuă să crească, dar la fel cresc și așteptările privind performanța și ușurința implementării. ROCm 6.4 reprezintă un salt înainte pentru organizațiile care construiesc viitorul inteligenței artificiale și al Calculului de Înaltă Performanță (High Performance Computing / HPC) pe plăcile video profesionale AMD Instinct. Cu un suport tot mai mare pentru cele mai importante framework-uri AI, containere optimizate și instrumente modulare de infrastructură, software-ul ROCm continuă să câștige teren, oferind clienților posibilitatea de a inova mai rapid, de a opera mai inteligent și de a păstra controlul asupra infrastructurii lor de inteligență artificială.

Indiferent dacă implementați deducția pe grupuri cu mai multe noduri, instruiți modele cu mai multe miliarde de parametri sau gestionați grupuri mari de plăci video, software-ul ROCm 6.4 oferă o cale eficientă de a atinge performanțe ridicate cu plăcile video AMD Instinct.

Iată cinci inovații cheie în ROCm 6.4 care abordează în mod direct provocările comune cu care se confruntă cercetătorii din domeniul inteligenței artificiale, dezvoltatorii de modele și echipele de infrastructură, făcând dezvoltarea AI rapidă, simplă și flexibila.

Containere ROCm pentru instruire și inferență: AI Plug-and-Play pe plăci video Instinct

Configurarea și menținerea mediilor optimizate pentru instruire și inferență consumă mult timp, este predispusă la erori și încetinește ciclurile de iterație. Software-ul ROCm 6.4 introduce un pachet puternic de containere pre-optimizate, gata de utilizare, atât pentru instruire, cât și pentru inferență, concepute special pentru plăcile video AMD Instinct.

  • vLLM (Container de inferență) – Construit pentru inferență LLM (Large Language Model / Model Lingvistic la Scara Larga) cu latență redusă, cu suport plug-and-play pentru modele deschise, cum ar fi cea mai recentă versiune Gemma 3 (day-0), Llama, Mistral, Cohere și altele. Citiți despre Gemma 3 pe GPU-urile Instinct aici. Alte linkuri relevante: Container Docker, Ghid de utilizare, Indicatori de performanță
  • SGLang (Container de inferență) – Optimizat pentru DeepSeek R1 și fluxuri de lucru cu agenți AI, oferind un randament și o eficiență excelentă cu DeepGEMM, suport FP8 și atenție paralelă multi-head. Resurse cheie SGLang: Container Docker, Ghid de utilizare
  • PyTorch (Container de instruire) – Include versiuni optimizate pentru performanță ale PyTorch, cu suport pentru mecanisme de atenție avansate, ajutând la instruirea LLM fără întreruperi pe GPU-urile AMD Instinct MI300X. Acum optimizat pentru Llama 3.1 (8B, 70B), Llama 2 (70B) și FLUX.1-dev. Accesați Pytorch Training Docker pentru ROCm și resursele de instruire aici Container Docker, Ghid de utilizare, Indicatorii de performanță, Validarea performanței.
  • Megatron-LM (Container de instruire) – Optimizată pentru ROCm, aceasta este o ramură personalizată a Megatron-LM, concepută pentru a instrui eficient modele lingvistice la scară largă, inclusiv Llama 3.1, Llama 2 și DeepSeek-V2-Lite. Accesați Megatron-LM Docker și resursele de instruire aici: Container Docker, Ghid de utilizare, Indicatorii de performanță, Validarea performanței

Aceste containere oferă cercetătorilor din domeniul inteligenței artificiale acces mai rapid la medii gata de utilizare pentru evaluarea noilor modele și efectuarea experimentelor. Dezvoltatorii de modele pot beneficia de suport optimizat pentru cele mai avansate modele LLM din prezent – inclusiv Llama 3.1, Gemma 3 și DeepSeek – fără a fi nevoie să petreacă timp cu configurarea complexă. Iar pentru echipele de infrastructură, aceste containere oferă o implementare consecventă și reproductibilă în mediile de dezvoltare, testare și producție, facilitând extinderea la scară larga și simplificând întreținerea.

PyTorch pentru ROCm primește o îmbunătățire majoră: atenție mai rapidă pentru o instruire accelerată

Instruirea modelelor lingvistice mari (LLM) continuă să depășească limitele de calcul și memorie – iar mecanismele de atenție ineficiente pot deveni rapid un obstacol major, încetinind iterația și crescând costurile de infrastructură. Software-ul ROCm 6.4 aduce îmbunătățiri majore de performanță în cadrul framework-ului PyTorch, inclusiv Flex Attention, TopK și Scaled Dot-Product Attention (SDPA) optimizate.

  • Flex Attention: Oferă un salt semnificativ de performanță față de ROCm 6.3, reducând dramatic timpul de antrenament și consumul de memorie—în special în sarcinile LLM care se bazează pe mecanisme de atenție avansate.
  • TopK: Operațiunile TopK rulează acum de până la 3 ori mai rapid, accelerând timpul de răspuns al inferenței, păstrând în același timp calitatea rezultatelor.
  • SDPA: Inferență mai fluidă pentru contexte lungi.

Aceste îmbunătățiri rezultă în timpi rapizi de instruire, consum redus de memorie și utilizare mai eficientă a hardware-ului. Ca rezultat, cercetătorii în domeniul inteligenței artificiale pot rula mai multe experimente în mai puțin timp, dezvoltatorii de modele pot ajusta modele mai mari cu eficiență sporită și, în cele din urmă, clienții Instinct GPU beneficiază de timpi reduși de antrenare și randament îmbunătățit al investițiilor în infrastructură.

Aceste actualizări sunt disponibile din fabrică în containerul ROCm PyTorch. Pentru a afla mai multe despre PyTorch pentru instruire ROCm, citiți documentația aici.

Performanța de inferență de generație nouă pe plăcile video AMD Instinct cu SGLang și vLLM

Livrarea inferenței cu latență redusă și debit ridicat pentru modelele lingvistice mari este o provocare constantă, mai ales pe măsură ce apar noi modele, iar așteptările privind viteza de implementare cresc. ROCm 6.4 abordează această problemă direct, cu versiuni optimizate pentru inferență ale vLLM și SGLang, special ajustate pentru plăcile video AMD Instinct. Cu suport robust pentru modele de top precum Grok, DeepSeek R1, Gemma 3, Llama 3.1 (8B, 70B, 405B), această versiune permite cercetătorilor AI să obțină rezultate mai rapide pe standardele de referință la scară largă, în timp ce dezvoltatorii de modele pot implementa pipeline-uri de inferență în lumea reală cu ajustări minime sau reconfigurări. Între timp, echipele de infrastructură beneficiază de containere stabile, gata de producție, cu actualizări săptămânale, ajutând la asigurarea performanței, stabilității și consistenței proporționale.

Împreună, aceste instrumente oferă un mediu de inferență complet, cu containere stabile și de dezvoltare actualizate la fiecare două săptămâni și, respectiv, săptămânal.

Managementul neîntrerupt al grupurilor de plăci video Instinct cu AMD GPU Operator

Scalarea și gestionarea operațiunilor pe plăci video în clustere Kubernetes implică adesea actualizări manuale ale driverelor, timp de nefuncționare operațională și vizibilitate limitată asupra stării hardware-ului, factori care pot afecta performanța și fiabilitatea. Cu ROCm 6.4, AMD GPU Operator automatizează planificarea resurselor, managementul ciclului de viață al driverelor și monitorizarea în timp real a plăcilor video, optimizând operațiunile de cluster de tip end-to-end. Acest lucru înseamnă că echipele de infrastructură pot efectua upgrade-uri cu perturbări minime, administratorii AI și HPC pot implementa cu încredere plăcile video AMD Instinct în medii securizate și izolate, cu observabilitate completă, iar clienții Instinct beneficiază de un timp de funcționare mai mare, risc operațional redus și o infrastructură AI mai rezistentă.

Caracteristicile noi includ:

  • Cordonare automată, drenare, repornire pentru actualizări progresive.
  • Suport extins pentru Red Hat OpenShift 4.16–4.17 și Ubuntu 22.04/24.04, asigurând compatibilitatea cu mediile moderne de cloud și enterprise.
  • Exportator de metrici pentru dispozitive bazat pe Prometheus, pentru monitorizarea în timp real a stării de sănătate.

Aflați mai multe despre GPU Operator de aici.

Modularitatea software-ului cu noul driver GPU Instinct

Structurile interdependente de drivere încetinesc ciclurile de actualizare, cresc riscul asociat întreținerii și reduc compatibilitatea între medii diferite. Software-ul ROCm 6.4 introduce Instinct GPU Driver, o arhitectură modulară care separă driverul în mod kernel de spațiul de utilizator ROCm.

Beneficii cheie:

  • Echipele de infrastructură pot actualiza driverele sau bibliotecile ROCm independent.
  • Perioadă de compatibilitate extinsă la 12 luni (față de 6 luni în versiunile anterioare).
  • Implementare mai flexibilă pe metal gol, containere și aplicații ISV.

Aceste îmbunătățiri reduc riscul modificărilor disruptive și simplifică actualizările la scară largă, ideal pentru: furnizori de servicii cloud, organizații guvernamentale și întreprinderi cu acorduri SLA stricte.

Bonus: AITER pentru accelerarea inferenței

Software-ul ROCm 6.4 include AITER, o bibliotecă de inferență de înaltă performanță cu nuclee pre-optimizate care se integrează direct, fără necesitatea reglării manuale.

Beneficii:

  • Execuție până la 17X mai rapidă a decodorului;
  • Îmbunătățiri de 14X în mecanismele de atenție multi-head;
  • Creștere de 2X a debitului inferenței modelelor lingvistice mari (LLM).

Sursa: AMD

Urmărește Go4IT.ro pe Google News
Cosmin Aionita
Cosmin Aionita
Cosmin Aioniță este unul dintre cei mai experimentați jurnaliști din România în domeniul jocurilor video. Pe lângă Go4Games, de-a lungul anilor și-a adus contribuția la revistele XtremPC, LEVEL și Nivelul 2, a colaborat cu Eurogamer România și a co-prezentat unul dintre cele mai longevive ... citește mai mult