Home » Lumea digitală » Un sistem de Inteligență Artificială poate citi pe buze în mai multe limbi

Un sistem de Inteligență Artificială poate citi pe buze în mai multe limbi

Un sistem de Inteligență Artificială poate citi pe buze în mai multe limbi
Sursa foto: Shutterstock
Publicat: 03.12.2022

În ultimii ani, tehnicile de învățare profundă au obținut rezultate remarcabile în numeroase sarcini de procesare a limbajului și a imaginilor. Printre acestea se numără și recunoașterea vizuală a vorbirii (VSR), adică, pe înțelesul tuturor, Inteligența Artificială (AI) care poate citi pe buze.

În timp ce unii algoritmi de învățare profundă au obținut rezultate foarte promițătoare în sarcinile VSR, aceștia au fost instruiți în primul rând pentru a detecta vorbirea în limba engleză, deoarece majoritatea seturilor de date de antrenament existente includ doar vorbire în limba engleză.

Acest lucru limitează baza lor potențială de utilizatori la persoanele care trăiesc sau lucrează în contexte vorbitoare de limba engleză.

Cercetătorii de la Imperial College London, din Anglia, au dezvoltat recent AI-ul care poate citi pe buze în mai multe limbi.

Cum a fost realizat AI-ul care poate citi pe buze în mai multe limbi?

Acest model, descris într-o lucrare publicată în Nature Machine Intelligence, s-a descoperit că depășește unele modele propuse anterior antrenate pe seturi de date mult mai mari.

„Recunoașterea vizuală a vorbirii (VSR) a fost unul dintre subiectele principale ale tezei mele de doctorat”, a declarat Dr, Pingchuan Ma, absolvent al Imperial College, care a efectuat studiul.

„În timpul studiilor, am lucrat pe mai multe subiecte, de exemplu, explorând cum să combin informațiile vizuale cu audio pentru recunoașterea audio-vizuală a vorbirii și cum să recunosc vorbirea vizuală independent de poziția capului participanților. Mi-am dat seama că marea majoritate a literaturii existente s-a ocupat doar de limba engleză”, a explicat el.

Obiectivul cheie al studiului realizat de Ma și colegii săi a fost să antreneze un model de învățare profundă pentru a recunoaște vorbirea în alte limbi decât engleza din mișcările buzelor vorbitorilor și apoi să compare performanța acestuia cu cea a altor modele antrenate să recunoască vorbirea în limba engleză.

Modelul creat de cercetători este similar cu cel introdus de alte echipe în trecut, dar unii dintre hiper-parametrii săi au fost optimizați, setul de date a fost mărit (adică, mărit prin adăugarea unor versiuni sintetice, ușor modificate de date) și au fost utilizate funcții suplimentare, notează Tech Xplore.

Un model mai eficient

„Am arătat că putem folosi aceleași modele pentru a antrena modele VSR în alte limbi”, a explicat Ma.

„Modelul nostru preia imagini brute ca intrare, fără a extrage nicio caracteristică, apoi învață automat ce caracteristici utile să extragă din aceste imagini pentru a finaliza sarcinile VSR. Principala noutate a acestei lucrări este că antrenăm un model pentru a efectua VSR și, de asemenea, adăugăm câteva metode suplimentare de creștere a datelor și funcții de pierdere”, continuă cercetătorul.

În evaluările inițiale, modelul creat de Ma și colegii săi a funcționat remarcabil de bine, depășind alte modele VSR antrenate pe seturi de date mult mai mari, chiar dacă a necesitat mai puține date originale de antrenament. Așa cum era de așteptat, totuși, AI-ul care poate citi pe buze nu a funcționat la fel de bine ca modelele de recunoaștere a vorbirii în limba engleză, în principal din cauza seturilor de date mai mici disponibile pentru instruire.

„Am obținut rezultate de ultimă generație în mai multe limbi prin proiectarea cu atenție a modelului, mai degrabă decât prin simpla utilizare a seturi de date mai mari sau modele mai mari, care este tendința actuală în literatură”, a spus Ma.

„Cu alte cuvinte, am arătat că modul în care este proiectat un model este la fel de important pentru performanța sa ca creșterea dimensiunii acestuia sau utilizarea mai multor date de antrenament. Acest lucru poate duce la o schimbare în modul în care cercetătorii încearcă să îmbunătățească modelele VSR”, a adăugat Ma.

Către ce ar putea duce această cercetare?

Ma și colegii săi au arătat că se pot obține performanțe de ultimă generație în sarcinile VSR prin proiectarea cu atenție a modelelor de învățare profundă, în loc să utilizeze versiuni mai mari ale aceluiași model sau să colecteze date suplimentare de antrenament, ceea ce este atât costisitor, cât și consumator de timp. În viitor, munca lor ar putea inspira alte echipe de cercetare să dezvolte modele VSR alternative care pot recunoaște citi pe buze în mod eficient și în alte limbi în afară de engleză.

„Unul dintre principalele domenii de cercetare care mă interesează este modul în care putem combina modelele VSR cu recunoașterea vocală existentă (numai audio),” a adăugat Ma.

„Sunt interesat în special de modul în care aceste modele pot fi ponderate dinamic, adică de modul în care modelul poate afla pe ce model ar trebui să se bazeze în funcție de zgomot. Cu alte cuvinte, într-un mediu zgomotos, un model audio-vizual ar trebui să se bazeze mai mult pe flux vizual, dar atunci când regiunea gurii este acoperită, ar trebui să se bazeze mai mult pe fluxul audio. Modelele existente sunt în esență blocate odată ce sunt antrenate și nu se pot adapta la schimbările din mediu”, a conchis el.

Vă recomandăm să citiți și:

Traficul de la orele de vârf ar putea fi descongestionat cu Inteligență Artificială

Dispozitivele Bluetooth au o vulnerabilitate care permite hackerilor să acceseze locația utilizatorilor

Amazon intensifică utilizarea roboților, dar susține că are în continuare nevoie de oameni

Ochelarii VR care te omoară pe loc dacă mori în joc au fost inventați

Ștefan Trepăduș
Ștefan Trepăduș
Ștefan Trepăduș este blogger începând cu anul 2009, având experiență și în domeniile publicitate și jurnalism. Este pasionat de marketing și de tehnologie, dar cel mai mult îi place să știe lucruri, motiv pentru care a fost atras de Descopera.ro. citește mai mult
Urmărește DESCOPERĂ.ro pe
Google News și Google Showcase