ArXiv, o platformă populară pentru cercetarea academică preprint, face un nou pas pentru a încerca să reducă volumul de lucrări care includ erori generate de IA.
Arhiva cu acces liber, care a servit drept canal principal de distribuție pentru cercetarea preprint în informatică, matematică și fizică timp de mai bine de trei decenii, va interzice accesul autorilor timp de un an dacă aceștia trimit lucrări care conțin semne evidente de generare de către IA fără verificare, potrivit TechCrunch.
Un preprint este o versiune preliminară a unei lucrări științifice, publicată (de obicei pe platforme online specializate) înainte de a trece prin procesul oficial de evaluare colegială (peer-review/inter pares) și de a fi acceptată într-un jurnal academic. Acesta oferă cercetătorilor o modalitate rapidă de a-și disemina descoperirile, dar trebuie tratat cu precauție, deoarece nu a fost încă validat de experți.
Dacă o lucrare prezintă „dovezi incontestabile că autorii nu au verificat rezultatele generării LLM”, cum ar fi referințe halucinate sau „meta-comentarii” lăsate de un LLM, autorii vor fi interziși pe ArXiv timp de un an, potrivit lui Thomas Dietterich, președintele secțiunii de informatică a ArXiv. Viitoarele lucrări trimise către ArXiv vor trebui, de asemenea, să fie acceptate la „o publicație de renume, evaluată de colegi (peer-review)”.
Deși articolele sunt postate pe site înainte de a fi evaluate de colegi, ArXiv (pronunțat „archive”) a devenit una dintre principalele modalități de circulație a cercetării în domenii precum informatica și matematica, iar site-ul a devenit o sursă de date privind tendințele din cercetarea științifică.
ArXiv a luat deja măsuri pentru a combate numărul tot mai mare de lucrări de calitate scăzută, generate de IA, de exemplu, solicitând celor care postează pentru prima dată să obțină o recomandare de la un autor consacrat.
După ce a fost găzduită de Universitatea Cornell timp de mai bine de 20 de ani, organizația devine o organizație non-profit independentă, ceea ce ar trebui să-i permită să strângă mai mulți bani pentru a aborda probleme precum conținutul de slabă calitate generat de IA.
De reținut că aceasta nu este o interdicție categorică privind utilizarea LLM-urilor, ci mai degrabă o insistență ca, așa cum a spus Dietterich, autorii să își asume „întreaga responsabilitate” pentru conținut, „indiferent de modul în care este generat conținutul”. Așadar, dacă cercetătorii copiază și lipesc „limbaj inadecvat, conținut plagiat, conținut părtinitor, erori, greșeli, referințe incorecte sau conținut înșelător” direct dintr-un LLM, atunci sunt în continuare responsabili pentru acesta.
Dietterich a declarat pentru 404 Media că aceasta va fi o regulă de „o singură abatere”, dar moderatorii trebuie să semnaleze problema, iar președinții secțiunilor trebuie să confirme dovezile înainte de a impune sancțiunea. Autorii vor putea, de asemenea, să conteste decizia.
Cercetări recente, evaluate de colegi, au constatat că citările halucinate sunt în creștere în cercetarea biomedicală, probabil din cauza modelelor LLM.
Pentru domeniile care se bazează în mare măsură pe ArXiv, acestea sunt sancțiuni severe. Publicarea preprinturilor în domenii precum astrofizica este considerată pe scară largă parte a procesului normal de publicare, iar oamenii de știință primesc adesea feedback cu privire la preprinturi, care îi ajută să îmbunătățească ceea ce trimit pentru evaluare inter pares. Problema este că, la fel ca în cazul celorlalte lucruri, sistemul poate fi exploatat: oamenii ar putea trimite conținut defectuos care menționează ca autori persoane care nu au fost niciodată implicate.
Anul trecut, ArXiv și-a actualizat, de asemenea, politicile pentru a reduce conținutul de slabă calitate generat de IA, permițând publicarea articolelor de revizuire și a documentelor de poziție din domeniul informaticii numai dacă acestea au fost evaluate inter pares și au fost acceptate la o conferință sau într-o revistă. „Apariția modelelor LLM a făcut ca acest tip de conținut să fie relativ ușor de produs la cerere, iar majoritatea articolelor de sinteză pe care le primim nu sunt altceva decât bibliografii adnotate, fără o discuție substanțială a problemelor de cercetare deschise”, a declarat ArXiv la momentul respectiv.
Te-ar putea interesa și: Studenții americani au huiduit invitații ce lăudau inteligența artificială la festivitățile de absolvire