Amploarea și complexitatea sarcinilor de lucru moderne legate de inteligența artificială continuă să crească, dar la fel cresc și așteptările privind performanța și ușurința implementării. ROCm 6.4 reprezintă un salt înainte pentru organizațiile care construiesc viitorul inteligenței artificiale și al Calculului de Înaltă Performanță (High Performance Computing / HPC) pe plăcile video profesionale AMD Instinct. Cu un suport tot mai mare pentru cele mai importante framework-uri AI, containere optimizate și instrumente modulare de infrastructură, software-ul ROCm continuă să câștige teren, oferind clienților posibilitatea de a inova mai rapid, de a opera mai inteligent și de a păstra controlul asupra infrastructurii lor de inteligență artificială.
Indiferent dacă implementați deducția pe grupuri cu mai multe noduri, instruiți modele cu mai multe miliarde de parametri sau gestionați grupuri mari de plăci video, software-ul ROCm 6.4 oferă o cale eficientă de a atinge performanțe ridicate cu plăcile video AMD Instinct.
Iată cinci inovații cheie în ROCm 6.4 care abordează în mod direct provocările comune cu care se confruntă cercetătorii din domeniul inteligenței artificiale, dezvoltatorii de modele și echipele de infrastructură, făcând dezvoltarea AI rapidă, simplă și flexibila.
Configurarea și menținerea mediilor optimizate pentru instruire și inferență consumă mult timp, este predispusă la erori și încetinește ciclurile de iterație. Software-ul ROCm 6.4 introduce un pachet puternic de containere pre-optimizate, gata de utilizare, atât pentru instruire, cât și pentru inferență, concepute special pentru plăcile video AMD Instinct.
Aceste containere oferă cercetătorilor din domeniul inteligenței artificiale acces mai rapid la medii gata de utilizare pentru evaluarea noilor modele și efectuarea experimentelor. Dezvoltatorii de modele pot beneficia de suport optimizat pentru cele mai avansate modele LLM din prezent – inclusiv Llama 3.1, Gemma 3 și DeepSeek – fără a fi nevoie să petreacă timp cu configurarea complexă. Iar pentru echipele de infrastructură, aceste containere oferă o implementare consecventă și reproductibilă în mediile de dezvoltare, testare și producție, facilitând extinderea la scară larga și simplificând întreținerea.
Instruirea modelelor lingvistice mari (LLM) continuă să depășească limitele de calcul și memorie – iar mecanismele de atenție ineficiente pot deveni rapid un obstacol major, încetinind iterația și crescând costurile de infrastructură. Software-ul ROCm 6.4 aduce îmbunătățiri majore de performanță în cadrul framework-ului PyTorch, inclusiv Flex Attention, TopK și Scaled Dot-Product Attention (SDPA) optimizate.
Aceste îmbunătățiri rezultă în timpi rapizi de instruire, consum redus de memorie și utilizare mai eficientă a hardware-ului. Ca rezultat, cercetătorii în domeniul inteligenței artificiale pot rula mai multe experimente în mai puțin timp, dezvoltatorii de modele pot ajusta modele mai mari cu eficiență sporită și, în cele din urmă, clienții Instinct GPU beneficiază de timpi reduși de antrenare și randament îmbunătățit al investițiilor în infrastructură.
Aceste actualizări sunt disponibile din fabrică în containerul ROCm PyTorch. Pentru a afla mai multe despre PyTorch pentru instruire ROCm, citiți documentația aici.
Livrarea inferenței cu latență redusă și debit ridicat pentru modelele lingvistice mari este o provocare constantă, mai ales pe măsură ce apar noi modele, iar așteptările privind viteza de implementare cresc. ROCm 6.4 abordează această problemă direct, cu versiuni optimizate pentru inferență ale vLLM și SGLang, special ajustate pentru plăcile video AMD Instinct. Cu suport robust pentru modele de top precum Grok, DeepSeek R1, Gemma 3, Llama 3.1 (8B, 70B, 405B), această versiune permite cercetătorilor AI să obțină rezultate mai rapide pe standardele de referință la scară largă, în timp ce dezvoltatorii de modele pot implementa pipeline-uri de inferență în lumea reală cu ajustări minime sau reconfigurări. Între timp, echipele de infrastructură beneficiază de containere stabile, gata de producție, cu actualizări săptămânale, ajutând la asigurarea performanței, stabilității și consistenței proporționale.
Împreună, aceste instrumente oferă un mediu de inferență complet, cu containere stabile și de dezvoltare actualizate la fiecare două săptămâni și, respectiv, săptămânal.
Scalarea și gestionarea operațiunilor pe plăci video în clustere Kubernetes implică adesea actualizări manuale ale driverelor, timp de nefuncționare operațională și vizibilitate limitată asupra stării hardware-ului, factori care pot afecta performanța și fiabilitatea. Cu ROCm 6.4, AMD GPU Operator automatizează planificarea resurselor, managementul ciclului de viață al driverelor și monitorizarea în timp real a plăcilor video, optimizând operațiunile de cluster de tip end-to-end. Acest lucru înseamnă că echipele de infrastructură pot efectua upgrade-uri cu perturbări minime, administratorii AI și HPC pot implementa cu încredere plăcile video AMD Instinct în medii securizate și izolate, cu observabilitate completă, iar clienții Instinct beneficiază de un timp de funcționare mai mare, risc operațional redus și o infrastructură AI mai rezistentă.
Caracteristicile noi includ:
Aflați mai multe despre GPU Operator de aici.
Structurile interdependente de drivere încetinesc ciclurile de actualizare, cresc riscul asociat întreținerii și reduc compatibilitatea între medii diferite. Software-ul ROCm 6.4 introduce Instinct GPU Driver, o arhitectură modulară care separă driverul în mod kernel de spațiul de utilizator ROCm.
Beneficii cheie:
Aceste îmbunătățiri reduc riscul modificărilor disruptive și simplifică actualizările la scară largă, ideal pentru: furnizori de servicii cloud, organizații guvernamentale și întreprinderi cu acorduri SLA stricte.
Software-ul ROCm 6.4 include AITER, o bibliotecă de inferență de înaltă performanță cu nuclee pre-optimizate care se integrează direct, fără necesitatea reglării manuale.
Beneficii:
Sursa: AMD