Google a prezentat miercuri, la conferința anuală Cloud Next din Las Vegas, două noi acceleratoare de IA dezvoltate intern: unul conceput pentru a accelera antrenarea și altul destinat reducerii costurilor de servire a modelelor. Modelul numit TPU 8t va fi destinat antrenării modelelor, iar altul, TPU 8i, este destinat inferenței, potrivit TechCrunch.
Inferența este utilizarea continuă a modelelor de IA, adică ceea ce se întâmplă după ce utilizatorii trimit solicitări.
Google susține că unitățile sale de procesare de generația a opta sunt de până la 2,8 ori mai rapide în antrenare și oferă o performanță cu 80% mai mare pe dolar pentru inferența LLM, comparativ cu TPU-urile Ironwood de anul trecut.
Compania promovează câteva specificații de performanță impresionante pentru aceste noi TPU-uri în comparație cu generațiile anterioare, dar și capacitatea de a face ca peste 1 milion de TPU-uri să funcționeze împreună într-un singur cluster. Rezultatul ar trebui să fie o putere de calcul mult mai mare pentru mult mai puțină energie și costuri pentru clienți decât în versiunile anterioare.
Dar cipurile Google nu reprezintă un atac frontal asupra viitorului Nvidia, cel puțin nu încă. La fel ca ceilalți furnizori uriași de cloud, inclusiv Microsoft și Amazon, Google folosește aceste cipuri pentru a completa sistemele bazate pe Nvidia pe care le oferă în infrastructura sa. Nu înlocuiește complet Nvidia. De fapt, Google promite că cloud-ul său va avea cel mai recent cip al Nvidia, Vera Rubin, disponibil mai târziu în acest an.
La fel ca acceleratoarele sale anterioare, TPU 8t de la Google este proiectat pentru antrenare la scară masivă.
În interior, Google a ajustat combinația de acceleratoare de vector, unități de multiplicare matricială și încorporare SparseCore introduse odată cu cipurile sale Ironwood pentru a maximiza randamentul efectiv în virgulă mobilă.
Fiecare accelerator dispune de 216 GB de memorie cu lățime de bandă mare (HBM), pentru o lățime de bandă de 6,5 TB/s, 128 MB de SRAM pe cip, pentru o putere de calcul de până la 12,6 petaFLOPS de calcul în virgulă mobilă pe 4 biți și până la 19,2 Tbps de lățime de bandă chip-la-chip.
TPU 8t utilizează comutatoare cu circuite optice, o tehnologie de comutare optomecanică ce funcționează mai degrabă ca o centrală telefonică decât ca un comutator de pachete, pentru a conecta până la 9.600 de acceleratoare într-un singur pod unificat.
Pentru TPU 8i, axat pe inferență, Google schimbă o parte din FLOPS pentru un cache SRAM mult mai mare și un pool de memorie mai rapid și cu capacitate mai mare.
Pe hârtie, cipul este aproximativ comparabil cu acceleratoarele Blackwell de la Nvidia. TPU 8i oferă 10,1 petaFLOPS de calcul FP4 alimentat de 384 MB de SRAM pe cip și 288 GB de HBM, suficient pentru o lățime de bandă de 8,6 TB/s. Lățimea de bandă de interconectare, între timp, rămâne neschimbată față de modelul axat pe antrenare.
Potrivit Google, toată acea memorie SRAM ajută TPU 8i să păstreze o parte mai mare din cache-ul (memoria pe termen scurt a modelului) rezidentă pe cip și să reducă timpul în care nucleele așteaptă datele.
TPU 8i renunță, de asemenea, la SparseCores de la Google în favoarea unui motor de accelerare colectivă (CAE). După cum sugerează și numele, acest bloc accelerează inferența prin descărcarea comunicațiilor colective, scurtând blocajele de sincronizare care altfel ar lăsa nucleele (tensor) ale cipului inactive.
Atât TPU 8t, cât și TPU 8i vor fi disponibile prin Google Cloud mai târziu în acest an.
TPU 8t și TPU 8i sunt proiectate având în vedere dezvoltatorii terți. Google a declarat că cipurile acceptă, de asemenea, framework-uri precum JAX, MaxText, PyTorch, SGLang și vLLM, permițând dezvoltatorilor să ruleze sarcini de lucru de IA existente fără rescrieri majore de software sau obstacole de migrare.