Home » Știință » Cercetătorii au descoperit cum am putea „să auzim” imagini

Cercetătorii au descoperit cum am putea „să auzim” imagini

Publicat: 01.10.2023

Cercetătorii au găsit o modalitate pentru extragerea de sunet din poze și din videoclipuri fără sunet după ce un profesor a fost inspirat să facă acest lucru de către serialul Fringe.

În serial, FBI-ul poate extrage sunetul înregistrat dintr-un geam topit. Den of Geek a spus că ideea este o „tehnică de pseudo-știință ridicolă”, ceea ce pare destul de corect. Cu toate acestea, profesorul de inginerie electrică și informatică și informatică Kevin Fu, de la Universitatea Northeastern (SUA),  a văzut recenzia și a început să arate că extragerea de sunet din poze și videoclipuri fără sunet este posibilă.

„Imaginați-vă că cineva face un videoclip pe TikTok, îi oprește sonorul și pune muzică. Ați fost vreodată curioși ce spune acea persoană cu adevărat? A spus ‘pepene’ sau ‘iată parola mea’? Vorbea cineva în spatele ei? De fapt, poți să înțelegi ceea ce se vorbește în ‘spatele’ camerei de filmat”, a spus Fu într-un comunicat de presă.

Cum poate fi realizată extragerea de sunet din poze?

Dar cum este posibil? Camerele, deși au ca scop captarea informațiilor vizuale, preiau din neatenție și informații audio. Practic, toate telefoanele cu cameră au tehnologie de stabilizare a imaginii încorporată. Arcurile țin obiectivul camerei suspendat în lichid, în timp ce un electromagnet împinge obiectivul camerei pentru a reduce tremuratul cauzat de mâini.

Deși aceasta este o caracteristică interesantă, ea este cea care permite captarea sunetului. Pe măsură ce cineva sau ceva face un zgomot lângă obiectivul camerei, arcurile vibrează ușor și îndoaie lumina foarte ușor. Nu se observă, „cu excepția cazului în care cauți”, potrivit lui Fu. De unul singur, însă, acesta nu ar fi un sunet util. Cu toate acestea, o altă caracteristică a camerelor moderne ale telefoanelor ajută la transformarea acestui sunet în ceva ce poate fi ascultat.

„Modul în care camerele funcționează astăzi pentru a reduce costurile, practic, este că nu scanează toți pixelii unei imagini simultan, ci câte un rând odată. Acest lucru se întâmplă de sute de mii de ori într-o singură fotografie. Ceea ce înseamnă, practic, că poți amplifica de peste o mie de ori câte informații de frecvență poți obține, adică granularitatea sunetului”, a explicat Fu.

Folosind aceste informații capturate ca un produs secundar al modului în care sunt făcute fotografiile, este posibil să extrageți sunet, chiar dacă destul de slab, din aproape orice fotografie care conține lumină. Aplicând un algoritm de învățare automată numit Side Eye de către echipă, poate fi obținut un sunet util, subliniază IFL Science.

„Dacă vrei să știi dacă am spus da sau nu, poți antrena Side Eye pe oamenii care spun da și nu, apoi te uiți la tipare și cu mare încredere, când ai o imagine mai târziu, știi dacă cineva a spus da sau nu”, a declarat Fu.

Cât de precis poate fi extras sunetul din imagini statice?

Testând sistemul pe 10 smartphone-uri diferite, echipa lui Fu a descoperit că acesta poate recunoaște cifrele rostite cu o precizie de 80,66%, poate identifica care dintre cei 20 de vorbitori a spus cuvintele cu o acuratețe de 91,28% și poate ghici sexul vorbitorilor cu o acuratețe de 99,67%.

Acest lucru ar putea fi, desigur, un coșmar al securității cibernetice dacă oamenii cu intenții nefaste sunt capabili să audă ceea ce se spune în imagini statice și videoclipuri în care nu a fost captat (intenționat) audio. Echipa a încercat să abordeze soluții, inclusiv arcuri mai puternice, lentile de blocare și randomizarea modului în care obturatorul rulant captează pixelii.

În cele din urmă, totuși, echipa este mai interesată de modul în care extragerea de sunet din poze ar putea fi utilizată în cazurile juridice.

„Poate că există un alibi și este admis în instanță și cineva vrea să demonstreze că cineva a fost sau nu a fost acolo. S-ar putea să puteți utiliza această tehnică dacă aveți un videoclip autentificat cu un marcaj de timp cunoscut pentru a confirma într-un fel sau altul. Dacă auziți vocea persoanei, este mai mult ca sigur că este acolo”, a spus Fu.

Studiul este postat pe serverul de pre-print arXiv și a fost prezentat la Simpozionul IEEE 2023 privind Securitatea și Confidențialitatea.

Vă recomandăm să citiți și:

Misterul a fost dezlegat: de ce pisicile sunt obsedate de ton?

ntorsătură neașteptată de situație: Internetul ar fi benefic pentru prevenirea demenței

Cele mai frecvente 10 coșmaruri și ce înseamnă fiecare, potrivit științei

Care este culoarea Statuii Libertății, de fapt? Nu este verde!

Ștefan Trepăduș
Ștefan Trepăduș
Ștefan Trepăduș este blogger începând cu anul 2009, având experiență și în domeniile publicitate și jurnalism. Este pasionat de marketing și de tehnologie, dar cel mai mult îi place să știe lucruri, motiv pentru care a fost atras de Descopera.ro. citește mai mult
Urmărește DESCOPERĂ.ro pe
Google News și Google Showcase