VALL-E, un nou AI Microsoft, poate să îți „cloneze” vocea folosind doar 3 secunde de înregistrare

11.01.2023
VALL-E, un nou AI Microsoft, poate să îți

Ultimii câțiva ani au fost concentrați în jurul noilor tehnologii AI și cum acestea vor schimba semnificativ modul în care vom folosi computerele și vom lucra în multe domenii. Microsoft continuă dezvoltarea de astfel de soluții cu VALL-E, un nou algoritm de inteligență artificială care poate reproduce aproape oricare voce umană care vorbește în limba engleză folosind o mostră de doar trei secunde de vorbire.

AI-ul VALL-E funcționează momentan doar în engleză

Practic, acest software îți va putea permite să îi oferi o mostră din vocea ta, probabil dintr-o înregistrare anterioară, sau dintr-o nouă înregistrare, făcută pe loc în câteva secunde, iar apoi, introducând un text, VALL-E va putea să ți-l citească înapoi cu propria ta voce. Acest lucru va accelera cu siguranță modul în care se lucrează în producție video și audio, în special în televiziuni sau posturi de radio, sau, de ce nu, în crearea de conținut online.

Procesul de redactare a unui text, care apoi trebuie înregistrat audio și editat pentru a fi inclus într-un material finit este unul de durată. Cu o astfel de soluție, nu trebuie decât să ai textul gata, iar vocea este generată apoi în câteva secunde. Mai mult, folosind AI pentru a redacta un text, cu soluții precum GPT-3, poți scădea din timpul necesar pentru realizarea unui material și mai mult. Desigur, aceste tehnologii sunt doar la început, iar utilizarea lor în situații reale nu este tocmai indicată, întrucât rezultatele nu sunt încă perfecte.

vall-e Overview

Microsoft numește acest AI un „neural codec language model”, fiind construit pe tehnologia EnCodec. Astfel, software-ul poate analiza sunetele pe care persoana le are în vorbire și folosește rezultatele pentru a crea o reproducere cât mai corectă a vocii. Antrenamentul AI-ului VALL-E a fost realizat folosind o selecție de 60.000 de ore de sunet de la 7.000 de persoane diferite, din biblioteca de sunete LibriVox, care include cărți audio gratuite. Desigur, rezultatele sunt mult mai bune cu cât vocea sursă se aseamănă mai mult cu vocile din acea librărie.

AI-ul poate păstra timbrul vocal și cel emoțional al vorbitorului, însă este capabil și să le schimbe, pe baza unor variabile.

Microsoft spune că poate detecta dacă o înregistrare este realizată cu AI-ul său

Desigur, această tehnologie aduce din nou în discuție utilizarea ei în scopuri nedorite. Din acest motiv, Microsoft va păstra VALL-E un software cu sursă închisă și va putea fi folosit doar în modul în care compania dorește. Pe lângă asta, există deja posibilitatea de a identifica înregistrările generate de AI:

„Întrucât VALL-E poate sintetiza vorbire care păstrează identitatea vorbitorului, ar putea veni cu riscuri în utilizarea în moduri nedorite a acestuia, precum păcălirea sistemelor de securitate bazate pe voce sau imitarea unui anume vorbitor. Pentru a nu ne supune la astfel de riscuri, este posibil să creăm și un model de detecție pentru a verifica dacă un clip audio a fost sau nu realizat cu VALL-E. Vom pune de asemenea Principiile Microsoft AI în practică atunci când dezvoltăm modele noi în viitor”, spun cercetătorii din spatele acestui proiect.

sursa: Arstechnica

Urmărește Go4IT.ro pe Google News
Cătălin Niţu
Cătălin Niţu
Redactor-șef Go4it.ro. Lucrează în presa de tehnologie și gaming din 2008. Absolvent al Facultății de Jurnalism și pasionat de gadget-uri, PC-uri și console de gaming. citește mai mult