Microsoft a adaugat o nouă funcție de inteligență artificială (IA) la Copilot, care are acum capacitatea de a genera audio nativ.
Această nouă funcție este una de generare audio, prin care utilizatorii vor putea să pună un text, iar Copilot îl va converti într-o voce bazată pe IA în diferite stiluri.
Deoarece este vorba de generare vocală nativă, niciunul dintre moduri nu va suna ca modelele tipice de text-vorbire. Microsoft alimentează această capacitate prin intermediul modelului IA MAI-Voice-1 pe care l-a dezvoltat.
Într-o postare pe X, Mustafa Suleyman, CEO al Microsoft AI, a anunțat lansarea noilor moduri de generare audio ale Copilot. El a subliniat că acestea sunt alimentate de modelul IA MAI-Voice-1, care a fost lansat la sfârșitul lunii august. În prezent, această experiență este disponibilă doar prin Copilot Labs, cu o conectare printr-un cont personal.
You asked, we shipped! Scripted mode just dropped for audio generation in Copilot Labs (c/o our new MAI-Voice-1 model).
Scripted mode: reads your input verbatim
Emotive: riffs a bit for max drama
Story: performs multiple voices/characters
Try out all 3 ➡️ https://t.co/9hL81LTFwF pic.twitter.com/rOVZKGbDjX— Mustafa Suleyman (@mustafasuleyman) September 10, 2025
Noua funcție are trei moduri în care va genera vocea. Primul este modul Scripted, în care chatbot-ul cu inteligență artificială citește ad litteram textul introdus, fără a adăuga vreo notă sau stil. Acest mod este cel mai bine de utilizat pentru sarcini precum anunțuri formale, nararea documentelor și prezentarea informațiilor.
Al doilea mod este denumit Emotive. Suleyman a spus că acesta este mai concentrat pe a face ca textul introdus să sune dramatic și atrăgător. Vocea de aici va include o gamă largă de intonații, tonuri și înălțime pentru a oferi un mod artistic. Acesta este ideal pentru publicitate, marketing sau narațiune informală.
Ultimul mod de generare audio al Copilot este Story. Acesta este cel mai versatil format, care include mai multe voci și personaje. Compania spune că acest mod este ideal pentru povestiri, prezentări de tip podcast și sarcini legate de analiză. Funcția este în prezent gratuită. Nu este clar când va fi lansată funcția în aplicațiile mobile și desktop.
De amintit că, la momentul lansării, Microsoft declara că MAI-Voice-1 este un model de generare a vorbirii care generează nativ o voce expresivă și cu un sunet natural. Poate genera un minut întreg de sunet în mai puțin de o secundă pe o singură placă grafică. Gigantul tehnologic a antrenat modelul pe aproximativ 15.000 de plăci grafice Nvidia.