Home » Lumea digitală » Un sistem de Inteligență Artificială poate citi pe buze în mai multe limbi

Un sistem de Inteligență Artificială poate citi pe buze în mai multe limbi

Un sistem de Inteligență Artificială poate citi pe buze în mai multe limbi
Sursa foto: Shutterstock
Publicat: 03.12.2022

În ultimii ani, tehnicile de învățare profundă au obținut rezultate remarcabile în numeroase sarcini de procesare a limbajului și a imaginilor. Printre acestea se numără și recunoașterea vizuală a vorbirii (VSR), adică, pe înțelesul tuturor, Inteligența Artificială (AI) care poate citi pe buze.

În timp ce unii algoritmi de învățare profundă au obținut rezultate foarte promițătoare în sarcinile VSR, aceștia au fost instruiți în primul rând pentru a detecta vorbirea în limba engleză, deoarece majoritatea seturilor de date de antrenament existente includ doar vorbire în limba engleză.

Acest lucru limitează baza lor potențială de utilizatori la persoanele care trăiesc sau lucrează în contexte vorbitoare de limba engleză.

Cercetătorii de la Imperial College London, din Anglia, au dezvoltat recent AI-ul care poate citi pe buze în mai multe limbi.

Cum a fost realizat AI-ul care poate citi pe buze în mai multe limbi?

Acest model, descris într-o lucrare publicată în Nature Machine Intelligence, s-a descoperit că depășește unele modele propuse anterior antrenate pe seturi de date mult mai mari.

„Recunoașterea vizuală a vorbirii (VSR) a fost unul dintre subiectele principale ale tezei mele de doctorat”, a declarat Dr, Pingchuan Ma, absolvent al Imperial College, care a efectuat studiul.

„În timpul studiilor, am lucrat pe mai multe subiecte, de exemplu, explorând cum să combin informațiile vizuale cu audio pentru recunoașterea audio-vizuală a vorbirii și cum să recunosc vorbirea vizuală independent de poziția capului participanților. Mi-am dat seama că marea majoritate a literaturii existente s-a ocupat doar de limba engleză”, a explicat el.

Obiectivul cheie al studiului realizat de Ma și colegii săi a fost să antreneze un model de învățare profundă pentru a recunoaște vorbirea în alte limbi decât engleza din mișcările buzelor vorbitorilor și apoi să compare performanța acestuia cu cea a altor modele antrenate să recunoască vorbirea în limba engleză.

Modelul creat de cercetători este similar cu cel introdus de alte echipe în trecut, dar unii dintre hiper-parametrii săi au fost optimizați, setul de date a fost mărit (adică, mărit prin adăugarea unor versiuni sintetice, ușor modificate de date) și au fost utilizate funcții suplimentare, notează Tech Xplore.

Un model mai eficient

„Am arătat că putem folosi aceleași modele pentru a antrena modele VSR în alte limbi”, a explicat Ma.

„Modelul nostru preia imagini brute ca intrare, fără a extrage nicio caracteristică, apoi învață automat ce caracteristici utile să extragă din aceste imagini pentru a finaliza sarcinile VSR. Principala noutate a acestei lucrări este că antrenăm un model pentru a efectua VSR și, de asemenea, adăugăm câteva metode suplimentare de creștere a datelor și funcții de pierdere”, continuă cercetătorul.

În evaluările inițiale, modelul creat de Ma și colegii săi a funcționat remarcabil de bine, depășind alte modele VSR antrenate pe seturi de date mult mai mari, chiar dacă a necesitat mai puține date originale de antrenament. Așa cum era de așteptat, totuși, AI-ul care poate citi pe buze nu a funcționat la fel de bine ca modelele de recunoaștere a vorbirii în limba engleză, în principal din cauza seturilor de date mai mici disponibile pentru instruire.

„Am obținut rezultate de ultimă generație în mai multe limbi prin proiectarea cu atenție a modelului, mai degrabă decât prin simpla utilizare a seturi de date mai mari sau modele mai mari, care este tendința actuală în literatură”, a spus Ma.

„Cu alte cuvinte, am arătat că modul în care este proiectat un model este la fel de important pentru performanța sa ca creșterea dimensiunii acestuia sau utilizarea mai multor date de antrenament. Acest lucru poate duce la o schimbare în modul în care cercetătorii încearcă să îmbunătățească modelele VSR”, a adăugat Ma.

Către ce ar putea duce această cercetare?

Ma și colegii săi au arătat că se pot obține performanțe de ultimă generație în sarcinile VSR prin proiectarea cu atenție a modelelor de învățare profundă, în loc să utilizeze versiuni mai mari ale aceluiași model sau să colecteze date suplimentare de antrenament, ceea ce este atât costisitor, cât și consumator de timp. În viitor, munca lor ar putea inspira alte echipe de cercetare să dezvolte modele VSR alternative care pot recunoaște citi pe buze în mod eficient și în alte limbi în afară de engleză.

„Unul dintre principalele domenii de cercetare care mă interesează este modul în care putem combina modelele VSR cu recunoașterea vocală existentă (numai audio),” a adăugat Ma.

„Sunt interesat în special de modul în care aceste modele pot fi ponderate dinamic, adică de modul în care modelul poate afla pe ce model ar trebui să se bazeze în funcție de zgomot. Cu alte cuvinte, într-un mediu zgomotos, un model audio-vizual ar trebui să se bazeze mai mult pe flux vizual, dar atunci când regiunea gurii este acoperită, ar trebui să se bazeze mai mult pe fluxul audio. Modelele existente sunt în esență blocate odată ce sunt antrenate și nu se pot adapta la schimbările din mediu”, a conchis el.

Vă recomandăm să citiți și:

Traficul de la orele de vârf ar putea fi descongestionat cu Inteligență Artificială

Dispozitivele Bluetooth au o vulnerabilitate care permite hackerilor să acceseze locația utilizatorilor

Amazon intensifică utilizarea roboților, dar susține că are în continuare nevoie de oameni

Ochelarii VR care te omoară pe loc dacă mori în joc au fost inventați

Ștefan Trepăduș
Ștefan Trepăduș
Ștefan Trepăduș este blogger începând cu anul 2009, având experiență și în domeniile publicitate și jurnalism. Este pasionat de marketing și de tehnologie, dar cel mai mult îi place să știe lucruri, motiv pentru care a fost atras de Descopera.ro. citește mai mult
Urmărește DESCOPERĂ.ro pe
Google News și Google Showcase
Cele mai noi articole
Top 10 țări în care femeile trăiesc cel mai mult
Top 10 țări în care femeile trăiesc cel mai mult
Johnson & Johnson, obligată să plătească 40 de milioane de dolari din cauza pudrelor pentru bebeluși
Johnson & Johnson, obligată să plătească 40 de milioane de dolari din cauza pudrelor pentru bebeluși
Obiceiul care face diferența pentru sănătate. Este mai important decât dieta și sportul!
Obiceiul care face diferența pentru sănătate. Este mai important decât dieta și sportul!
Nostradamus, unul dintre cele mai controversate personaje ale istoriei. A fost profet sau şarlatan?
Nostradamus, unul dintre cele mai controversate personaje ale istoriei. A fost profet sau şarlatan?
Microbiomul intestinal, puternic afectat de alimente și poluare. Cercetătorii au fost „surprinși”
Microbiomul intestinal, puternic afectat de alimente și poluare. Cercetătorii au fost „surprinși”
Care este principala diferență dintre super-gripă și răceală?
Care este principala diferență dintre super-gripă și răceală?
Arheologii au găsit o frescă cu Iisus reprezentat ca „Păstorul cel bun”
Arheologii au găsit o frescă cu Iisus reprezentat ca „Păstorul cel bun”
O predicție făcută de Albert Einstein în urmă cu un secol tocmai a fost confirmată
O predicție făcută de Albert Einstein în urmă cu un secol tocmai a fost confirmată
Ar putea fi „Steaua din Betleem” o planetă? Un vizitator strălucitor ne oferă un indiciu
Ar putea fi „Steaua din Betleem” o planetă? Un vizitator strălucitor ne oferă un indiciu
Everest, Chimborazo, Mauna Kea: care este cu adevărat cel mai înalt munte din lume?
Everest, Chimborazo, Mauna Kea: care este cu adevărat cel mai înalt munte din lume?
Când au aprins oamenii primul foc din istorie?
Când au aprins oamenii primul foc din istorie?
De ce uneori te trezești cu câteva minute înainte de alarma de dimineață?
De ce uneori te trezești cu câteva minute înainte de alarma de dimineață?
Un tratament similar cu Ozempic ar putea ajuta în curând pisicile grăsuțe
Un tratament similar cu Ozempic ar putea ajuta în curând pisicile grăsuțe
O substanță din ciocolata neagră ar putea încetini îmbătrânirea
O substanță din ciocolata neagră ar putea încetini îmbătrânirea
Oamenii de știință au descoperit două gene care ar putea opri răspândirea cancerului
Oamenii de știință au descoperit două gene care ar putea opri răspândirea cancerului
Lepra, între istorie și știință: ce înseamnă cu adevărat această boală și cât de mare este riscul astăzi
Lepra, între istorie și știință: ce înseamnă cu adevărat această boală și cât de mare este riscul astăzi
O navă spațială NASA de pe orbita planetei Marte s-a deconectat în mod misterios
O navă spațială NASA de pe orbita planetei Marte s-a deconectat în mod misterios
Geminidele ating vârful în weekendul 13 – 14 decembrie 2025. Cum să le vezi?
Geminidele ating vârful în weekendul 13 – 14 decembrie 2025. Cum să le vezi?