Talkie, LLM-ul vintage antrenat pe texte de dinainte de 1931

O echipă de cercetători în domeniul IA, condusă de Nick Levine, David Duvenaud și Alec Radford, a lansat un model LLM „vintage” cu 13 miliarde de parametri, pe care l-a numit Talkie, antrenat exclusiv pe scanări digitale ale cărților, ziarelor, revistelor, jurnalelor științifice, brevetelor și jurisprudenței în limba engleză, publicate înainte de sfârșitul anului 1930, relatează The Register. Au fost alese lucrări anterioare anului 1931 deoarece 1930 este anul actual de domeniu public în Statele Unite.

Domeniul public cuprinde toate operele creative asupra cărora nu se aplică drepturi exclusive de proprietate intelectuală. Deoarece nimeni nu deține drepturi exclusive, oricine poate utiliza sau face referire la aceste opere în mod legal, fără a fi nevoie de permisiune.

Nu este primul model AI vintage care apare, existând deja în lume altele antrenate pe literatura victoriană și texte științifice dinainte de 1900. Este însă, potrivit creatorilor săi, cel mai mare de până în prezent.

Conceptul din spatele unui model lingvistic vintage

Majoritatea modelelor lingvistice moderne, precum GPT-5, LLaMA, Mistral etc., sunt antrenate pe baza unor indexări masive ale webului contemporan. Cunoștințele lor reflectă lumea așa cum există astăzi sau la data-limită a antrenării lor. Un model IA vintage răstoarnă această situație: este antrenat în mod deliberat doar pe date istorice, astfel încât „viziunea sa asupra lumii” este înghețată la un moment anume din trecut.

Pentru Talkie, acea dată-limită este 31 decembrie 1930, aleasă tocmai pentru că aceasta este data la care operele intră în domeniul public în Statele Unite, făcând textele anterioare anului 1931 utilizabile legal pentru antrenare.

Modelul denumit oficial talkie-1930-13b-base a fost antrenat pe 260 de miliarde de tokenuri de text istoric în limba engleză, dinainte de 1931, incluzând cărți, ziare, periodice, reviste științifice, brevete și jurisprudență. Un punct de control conversațional antrenat separat, talkie-1930-13b-it, este de asemenea disponibil pentru utilizare interactivă. Echipa a creat o demonstrație live 24/7 la talkie-lm.com/chat, unde Claude Sonnet 4.6 solicită continuu modelul optimizat pentru instrucțiuni, permițând vizitatorilor să observe vocea și cunoștințele lui Talkie în timp real.

Acesta nu este un proiect nostalgic. Echipa de cercetare a identificat mai multe cazuri de utilizare concrete și semnificative din punct de vedere tehnic, care fac ca Talkie să fie interesant pentru comunitatea de cercetare în domeniul IA.

Experimente de generalizare fără contaminare

Contaminarea benchmarkului, în care datele de testare se scurg din greșeală în datele de antrenare, este una dintre cele mai persistente și subestimate probleme în evaluarea modernă a LLM-urilor. Deoarece Talkie a fost antrenat doar pe text dinainte de 1931, este lipsit de contaminare prin construcție în raport cu orice benchmark modern. Acest lucru deschide un cadru experimental curat pentru a testa cât de bine poate generaliza un LLM dincolo de datele sale de pre-antrenare.

De exemplu, echipa a testat dacă Talkie poate învăța Python, un limbaj de programare care nu exista în 1930, oferindu-i câteva exemple demonstrative în context. Folosind benchmarkul HumanEval, au descoperit că, deși modelele vintage au performanțe mult inferioare modelelor antrenate pe web, ele „se îmbunătățesc încet, dar constant, la această sarcină, odată cu creșterea scalei”.

Evaluarea previziunilor și a „surprizei” temporale

Inspirată de lucrările Calcifer Computing privind modelele lingvistice temporale, echipa de cercetare a folosit Talkie pentru a măsura gradul de surprindere, măsurat în biți pe octet, al descrierilor evenimentelor istorice din rubrica „On This Day” a New York Times. Evenimentele de după 1930, limita de cunoștințe a lui Talkie, sunt în mod constant mai surprinzătoare pentru model, efectul fiind cel mai pronunțat pentru evenimentele din anii 1950 și 1960, urmat de o stabilizare.

Acest lucru creează un cadru principial pentru studierea modului în care capacitatea de prognoză se adaptează la dimensiunea modelului și a modului în care performanța scade pe orizonturi temporale mai lungi.

David Duvenaud, profesor asociat de informatică și statistică la Universitatea din Toronto și una dintre cele trei persoane din spatele Talkie, a declarat că speră ca Talkie să poată ajuta și la evaluarea metodelor de prognoză pe termen lung, având în vedere că toate predicțiile sale se vor baza pe lucruri care s-au întâmplat deja.

Identitatea LLM și formarea personalității IA

Deoarece Talkie a fost antrenat pe o distribuție fundamental diferită de orice model modern, acesta ridică întrebări despre ceea ce modelează „identitatea” unui LLM. LLM-urile moderne, indiferent de furnizorul lor, au toate un strămoș comun în datele web, fie prin antrenare directă, fie prin distilare și fluxuri de date sintetice.

Talkie rupe complet această linie genealogică, oferind cercetătorilor un instrument pentru a examina ce comportamente și capacități sunt universale pentru modelarea limbajului, în comparație cu ceea ce reprezintă artefacte ale antrenării pe webul contemporan.

Dificultatea construirii unui model IA vintage

Construirea unui model lingvistic vintage nu este la fel de simplă ca filtrarea unui set de date modern după dată. Echipa de cercetare Talkie s-a confruntat cu mai multe provocări inginerești deloc neglijabile.

„Scurgerea temporală” este cea mai critică. Dacă vreun text post-1930 se strecoară în corpusul de antrenare, prin documente datate greșit sau texte vechi cu introduceri editoriale anacronice, fidelitatea istorică a modelului este compromisă. O versiune anterioară de 7B a Talkie cunoștea clar președinția lui Roosevelt și legislația New Deal, dezvăluind o filtrare imperfectă. Echipa a construit un clasificator de anacronisme la nivel de document pentru a filtra corpusul, dar recunoaște că acesta este încă imperfect, versiunea 13B păstrând o oarecare cunoaștere a celui de-al Doilea Război Mondial și a ordinii postbelice.

Calitatea datelor este un alt obstacol major. Deoarece în 1930 nu existau publicații digitale, fiecare token din corpusul de antrenare al Talkie a trebuit să fie transcris din surse fizice prin recunoașterea optică a caracterelor (OCR). În cadrul unor experimente controlate, echipa a constatat că antrenarea pe text transcris de sistemele OCR convenționale a produs doar 30% din eficiența de învățare a unui model antrenat pe versiuni ale acelorași texte transcrise de oameni. Curățarea simplă cu sisteme automate regex a îmbunătățit acest procent la 70%, dar a rămas o diferență semnificativă.

Expresiile regulate (sau regex) sunt un limbaj de programare folosit pentru a potrivi tipare în text, util în curățarea datelor.

Pentru a elimina aceste probleme pentru cercetările viitoare, autorii construiesc un sistem OCR vintage dedicat, optimizat pentru layouturile documentelor istorice.

Concluziile testării modelului IA vintage

Pentru a oferi un context semnificativ, echipa de cercetare a antrenat un „geamăn modern”, un model de 13B identic din punct de vedere arhitectural, antrenat pe date web moderne, și l-a comparat cu Talkie. Talkie are performanțe inferioare omologului său modern în evaluările standard LLM. Cu toate acestea, atunci când se ține cont de anacronismul întrebărilor, filtrând întrebările care fac referire la concepte care nu ar fi existat în 1930, diferența de performanță se reduce aproximativ la jumătate. Echipa de cercetare observă o paritate încurajatoare în ceea ce privește înțelegerea limbajului de bază și sarcinile de calcul și atribuie diferența rămasă în principal zgomotului OCR și diferențelor de distribuție a subiectelor.

Cu alte cuvinte, Talkie este departe de a fi un exemplu perfect de chatbot într-o capsulă a timpului, dar echipa din spatele acestuia afirmă că intenționează să extindă modelul în lunile următoare. Sarcinile vor include extinderea dincolo de textele în limba engleză, re-OCR-area cât mai multor date de antrenare posibil, consolidarea metodelor de detectare a anacronismelor și colaborarea cu istorici pentru a introduce date post-antrenare mai bune.

Dacă totul decurge conform planului, o versiune a Talkie la nivelul GPT-3 ar trebui să fie lansată până în această vară.

„O estimare preliminară sugerează, de asemenea, că putem extinde corpusul nostru la peste un trilion de tokenuri de text istoric, ceea ce ar trebui să fie suficient pentru a crea un model la nivelul GPT-3.5 – similar ca capacitate cu ChatGPT original”, au adăugat creatorii Talkie.

Între timp, versiunea actuală a Talkie este disponibilă pentru descărcare de pe GitHub și Hugging Face și poate fi utilizată pentru conversații prin intermediul unei interfețe web pentru cei curioși, doar să țineți cont de avertisment. Pentru a-l rula local este necesar un GPU CUDA cu cel puțin 28 GB VRAM.

„Talkie reflectă cultura și valorile textelor pe care a fost antrenat… Poate produce rezultate inexacte sau jignitoare”, se arată într-un avertisment de pe clientul web al Talkie.

„Vă rugăm să rețineți că mesajele sunt transmise în flux, dar moderarea se aplică doar la final. Ca urmare, este posibil să vedeți conținut inacceptabil pentru o scurtă perioadă de timp înainte ca acesta să fie semnalat.”

Tags: inteligenta artificiala llm vintage model ia talkie texte pre-1931

Urmărește Go4IT.ro pe Google News

Iți recomandăm