Anthropic a anunțat lansarea celui mai recent model de AI al companiei: Claude Opus 4.8. Anthropic susține că modelul este un „colaborator mai eficient”, prezentând îmbunătățiri în ceea ce privește programarea agentică, raționamentul multidisciplinar, utilizarea agentică a computerului, activitatea intelectuală și analiza financiară agentică.
Testerii au constatat că Opus 4.8 este „mai fiabil și mai precis în judecata sa” atunci când îndeplinește sarcini agentice, iar modelul a înregistrat progrese și în ceea ce privește onestitatea.
Primii testeri raportează că Opus 4.8 este mai predispus să semnaleze incertitudinile legate de munca sa și mai puțin predispus să facă afirmații nefondate. Acest lucru este confirmat de evaluările noastre, care arată că Opus 4.8 este de aproximativ patru ori mai puțin probabil decât predecesorul său să permită ca defectele din codul pe care l-a scris să treacă neobservate.
– Anthropic
Evaluările sugerează că modelul atinge noi maxime în ceea ce privește măsurile trăsăturilor prosociale, cum ar fi sprijinirea autonomiei utilizatorului și acționarea în interesul superior al utilizatorului. Ratele comportamentului nealiniat, cum ar fi înșelăciunea, sunt mai mici decât la Opus 4.7 și similare cu cele ale modelului Claude Mythos Preview.
Testele de performanță ale Anthropic indică faptul că Opus 4.8 a obținut un scor de 69,2% la SWE-Bench Pro, depășind GPT–5.5 și Gemini 3.1 Pro la acest test și la alte câteva teste de performanță, deși GPT–5.5 conduce la testul de codare terminală.
Modul rapid al Opus 4.8 rulează, de asemenea, la o viteză de 2,5 ori mai mare și este acum de trei ori mai puțin solicitant decât modelele anterioare.
Claude Opus 4.8 este disponibil începând de astăzi. Prețurile pentru utilizarea sa obișnuită nu s-au modificat față de Opus 4.7.
Anthropic lucrează la modele care au aceleași capacități precum Opus 4.8, la un cost mai mic, și la o nouă clasă de modele care sunt chiar mai inteligente decât Opus. Anthropic afirmă că a dezvoltat măsuri de siguranță pentru modelul Claude Mythos pe care îl testează cu un număr mic de organizații și se așteaptă să poată oferi modele din clasa Mythos tuturor clienților „în următoarele săptămâni”.
Sursa: Mac Rumors