DiffusionGemma, noul pariu al Google pentru AI-ul local rapid

Echipa Google AI, inclusiv cercetătorii Google DeepMind, a lansat DiffusionGemma, un model deschis experimental pentru generarea de text. Acesta utilizează difuzia textului în locul decodării autoregresive standard. Modelul este distribuit sub o licență permisivă Apache 2.0. Google poziționează acest model deschis (open weights — ponderi deschise) pentru dezvoltatori și cercetători care explorează fluxuri de lucru locale interactive, în care viteza este esențială, relatează ArsTechnica.

După cum explică Google, DiffusionGemma funcționează prin plasarea unui strat de tokenuri aleatorii, pe care le rafinează până la obținerea rezultatului final.

În comparație cu modelele LLM convenționale, care sunt limitate de lățimea de bandă a memoriei și necesită multă VRAM, modelele de difuzie sunt o sarcină de lucru predominant limitată de puterea de calcul, motiv pentru care Google le poziționează pentru implementare locală.

DiffusionGemma este destul de mare în domeniul modelelor deschise ale Google. Este un model Mixture of Experts (MoE) cu un total de 26 de miliarde de parametri, dar doar 3,8 miliarde sunt activați în timpul inferenței. Asta înseamnă că ar trebui să încapă în alocarea de 18 GB RAM a unui GPU de ultimă generație.

Google este foarte direct în privința compromisului. DiffusionGemma prioritizează viteza și generarea paralelă a conținutului. Calitatea generală a rezultatelor sale este mai scăzută decât cea a modelului standard Gemma 4. Pentru o producție în care calitatea primează, Google recomandă în continuare modelul autoregresiv Gemma 4.

Această abordare a generării de text mută blocajul de la lățimea de bandă a memoriei la puterea de calcul, generând până la 256 de tokenuri în paralel. Google afirmă că acest lucru oferă un impuls măsurabil în sarcini neliniare, cum ar fi editarea în linie, secvențierea moleculară și reprezentarea grafică a ecuațiilor matematice.

Te-ar putea interesa și: SUA blochează accesul străinilor la noile modele Anthropic din motive de securitate națională

Există câteva dezavantaje ale difuziei textului, principalul fiind o rată de eroare mai mare. În modelele de difuzie a imaginilor, un singur pixel prevăzut greșit nu face imaginea inutilă, dar limbajul este discret. O eroare echivalentă în text poate face ca un bloc de tokenuri să nu mai aibă sens și te poate obliga să o iei de la capăt pentru a obține un rezultat mai bun. Modelele de difuzie risipesc, de asemenea, resurse atunci când rezultatul dorit are doar câteva tokenuri. Acestea trebuie să efectueze mult mai multă muncă paralelă pentru a reduce la cinci tokenuri ceea ce un model autoregresiv realizează de la început până la sfârșit în doar cinci pași.

Pentru LLM-urile autoregresive, în timpul generării de tokenuri, parametrii activi ai modelului trebuie transmișii din memorie pentru fiecare token generat, ceea ce face ca lățimea de bandă a memoriei să fie un obstacol major.

În cloud, furnizorii de inferență echilibrează puterea de calcul și lățimea de bandă a memoriei prin procesarea a sute sau mii de cereri în paralel.

AI-ul local se confruntă cu cicluri de calcul irosite din cauza lățimii de bandă reduse a memoriei și a timpului de inactivitate. Modelele de difuzie pot utiliza mai eficient puterea de calcul disponibilă, dar aceasta nu este singura cale. Google a început recent să implementeze și generatoare de predicții multi-token (MTP), care utilizează cicluri de calcul ce altfel ar fi irosite pentru a prezice tokenuri posibile, în scopul creșterii vitezei. Difuzia este însă chiar mai rapidă decât versiunile MTP ale Gemma.

Google subliniază că DiffusionGemma este un model experimental, dar este disponibil sub aceeași licență Apache 2.0 ca toate celelalte modele Gemma de a patra generație. Ponderile modelului IA pot fi descărcate chiar astăzi de pe Hugging Face. Google afirmă că a colaborat cu Nvidia pentru a se asigura că DiffusionGemma a fost optimizat pentru o varietate de configurații, inclusiv GPU-uri RTX de ultimă generație și sisteme enterprise precum platforma H100 sau DGX Spark.

Tags: diffusiongemma generare text ia Google AI llm open source modele difuzie text

Urmărește Go4IT.ro pe Google News

Iți recomandăm