Microsoft a creat dispozitivul care îți poate clona vocea după doar trei secunde de audio

19 01. 2023, 17:00

Microsoft susține că noul său dispozitiv, bazat pe Inteligență Artificială (AI) de tipul text-to-speech, îți poate clona vocea, cu tot cu ton emoțional, dintr-un fragment audio de doar trei secunde. Tehnologia se numește VALL-E și, deocamdată, trezește sentimente contradictorii.

Tehnologia de bază din spatele sistemului, pe care Microsoft l-a numit într-o nouă lucrare un „model de limbaj cu codec neural” este complexă, dar în practică, utilizarea sistemului pare a fi extrem de simplă. Conectezi o mostră audio, apoi un text și, iată: un discurs care sună real, conform Futurism.

Desigur, pe piață există deja multe aplicații text-to-speech. Multe dintre programele existente care generează vorbirea necesită o cantitate mare de informații. Totodată, acestea nu au reușit exact să facă ca vocile AI să sune precum cele umane, în mare parte din cauza faptului că tonul emoțional și micile inflexiuni sunt extrem de greu de transmis.

Un conținut vocal extrem de realist și credibil

Potrivit creatorilor săi, VALL-E are o serie de aplicații, inclusiv „zero-shot TTS, editare vocală și creare de conținut”, adăugând că sistemul de modelare a limbajului GPT-3 de la open-AI, o tehnologie în care Microsoft, prin investiția sa masivă în OpenAI, a alocat tone de resurse și lucrează deja la câteva produse, ar fi o piesă tehnologică utilă, care, combinată cu un nou generator vocal, ar funcționa ca un mijloc de a producere a conținutului.

În mod teoretic, prin combinarea VALL-E și a GPT-3, două piese puternice ale tehnologiei bazate pe AI, ai putea pune cap la cap o tonă de conținut realist și credibil, extrem de rapid.

Dar, desigur, aici intră în discuție unele ipoteze dificile din punct de vedere etic.

Cum va putea detecta VALL-E că vocea transmisă este direct înregistrată, și nu preluată de pe alte aplicații?

Biții falși și înșelători de sunet reprezintă, în mod evident, o preocupare, în cazul de față. La urma urmei, dacă ai nevoie de doar trei secunde audio, ai putea, teoretic, să folosești orice, de la un interviu cu celebrități la povestea unei persoane reale de pe Instagram, pentru a imita pe cineva.

Acestea fiind spuse, Microsoft a abordat această îngrijorare, explicând că se abține, cel puțin pentru moment, de la a face codul o sursă deschisă din cauza „potențialelor riscuri în utilizarea abuzivă a modelului”. Compania susține, de asemenea, că lucrează la încorporarea unui fel de sistem care detectează dacă înregistrarea audio a fost creată folosind VALL-E, dar, poate că ar trebui să îi întrebe pe prietenii de la OpenAI cât de ușor este.

Vă mai recomandăm și:

Investițiile în șampanie, mai performante decât cele în tehnologie și criptomonede

Inteligența artificială a prezis câștigătorul Cupei Mondiale din 2022

Un sistem de Inteligență Artificială poate citi pe buze în mai multe limbi

Un studiu arată că este prea devreme să folosim Inteligența Artificială în justiția penală

Articole recomandate