NVIDIA își ajustează direcția strategică în domeniul inteligenței artificiale, și își extinde portofoliul de produse și pune accentul de pe antrenarea modelelor AI către zona de inferență. Schimbarea vine într-un moment în care marii furnizori de servicii cloud își dezvoltă propriile cipuri, intensificând competiția.
Potrivit TrendForce, această evoluție reflectă transformările rapide din ecosistemul infrastructurii AI.
Giganți din zona cloud, precum Google și Amazon, investesc tot mai mult în dezvoltarea de cipuri proprii, bazate pe arhitecturi ASIC. Aceste soluții sunt optimizate pentru sarcini specifice și devin o alternativă tot mai atractivă la procesoarele grafice tradiționale.
Estimările indică faptul că serverele AI bazate pe ASIC vor reprezenta aproape 28% din livrările totale în 2026, cu o creștere semnificativă până la aproximativ 40% până la finalul deceniului.
În acest context, NVIDIA își mută atenția către aplicațiile de inferență – adică utilizarea modelelor AI în scenarii reale, dincolo de etapa de antrenare.
Această schimbare a fost evidentă și în cadrul evenimentului NVIDIA GTC 2026, unde compania a pus accent pe implementarea AI în diverse industrii, nu doar în infrastructura cloud.
O componentă centrală a noii strategii o reprezintă dezvoltarea sistemelor integrate la nivel de rack, care combină procesoare grafice și unități de procesare centrală. Platforme precum GB300 sau VR200 sunt concepute pentru a susține sarcini complexe de inferență la scară mare.
De asemenea, compania a prezentat sistemul Vera Rubin, o arhitectură integrată care combină mai multe tipuri de cipuri și configurații hardware pentru a susține aplicații AI avansate.
Pe măsură ce modelele AI devin mai complexe, o provocare majoră o reprezintă latența și cerințele de memorie. Pentru a răspunde acestor limitări, NVIDIA propune o arhitectură de tip „inferență disociată”, care separă etapele de procesare.
Astfel, sarcinile intensive din punct de vedere computațional sunt gestionate de sisteme precum Vera Rubin, în timp ce etapele sensibile la latență sunt preluate de unități specializate.
În acest context, compania introduce și noi tipuri de procesoare dedicate inferenței, precum unitățile LPU dezvoltate pe baza tehnologiei Groq. Acestea sunt concepute pentru a reduce latența și pentru a optimiza generarea de răspunsuri în timp real.
Totuși, capacitatea acestora este limitată în raport cu dimensiunea modelelor AI moderne, ceea ce explică necesitatea unei arhitecturi hibride.
Strategia adoptată de NVIDIA reflectă o schimbare mai amplă în industrie: trecerea de la dezvoltarea modelelor AI la implementarea lor în aplicații concrete.
În același timp, competiția din partea furnizorilor de cloud și a soluțiilor personalizate bazate pe ASIC sugerează că piața infrastructurii AI va deveni tot mai fragmentată.
În acest peisaj, capacitatea de a oferi soluții integrate și adaptabile ar putea deveni un factor decisiv pentru menținerea avantajului competitiv.
:format(webp):quality(100)/https://www.go4it.ro/wp-content/uploads/2026/03/Projected-AI-Server-shipments.jpg)