Google foloseşte tehnologii AI pentru a dezvolta cel mai eficient sistem de interpretare a buzelor de până acum

Autor: Aurelian Mihai 24.11.2016
Google foloseşte tehnologii AI pentru a dezvolta cel mai eficient sistem de interpretare a buzelor de până acum

Dezvoltat de Google în cadrul programului Deep Mind, cu sprijinul cercetătorilor de la Universitatea din Oxford, software-ul de tip reţea neurală a reuşit interpretarea cu acurateţe de 46.8% a cuvintelor rostite. Spre comparaţie, cu aceeaşi mostră de programe TV un interpretor profesionist a reuşit identificarea cuvintelor rostite în numai 12.4% din cazuri.

Lucrând în condiţii ideale, folosind material video înregistrat cu voluntari puşi să rostească propoziţii  formulate după un anumit tipar, un alt software pentru interpretare vocală numit LipNet a obţinut o acurateţe de 93.4%, comparat unui rezultat de 52.3% obţinut cu ajutorul unui interpretor profesionist.

Antrenat citind „pe buze” conversaţiile purtate în peste 5000 ore de programe TV, software-ul Google botezat “Watch, Listen, Attend, and Spell” ar putea extinde capabilitatea de interpretare a programelor de asistenţă prin comandă vocală (ex. Siri, Alexa), cât şi ajuta subtitrarea programelor de televiziune.

Nu tocmai liniştitoare, perspectiva unui software AI capabil spioneze de la distanţă citind pe buze conversaţiile purtate în spaţii publice pare mai aproape decât oricând. Echipa de cercetători vine însă cu observaţii, precizând că este o diferenţă mare între citirea „pe buze” a conversaţiilor din imagini de televiziune bine iluminate şi interpretarea fluxului video preluat de pe camere CCTV, în general mai puţin clar şi cu framerate redus.

Tags: