O informație care, la prima vedere, sună ca science fiction: un algoritm care poate „auzi” depresia în vocea ta și poate semnala un risc crescut. Tehnologia există și este deja evaluată în studii clinice din SUA și Canada, promițând să îmbunătățească detectarea precoce a depresiei la milioane de oameni care nu ajung niciodată la cabinetul unui specialist.
Depresia afectează aproximativ 332 de milioane de oameni la nivel global, conform Organizației Mondiale a Sănătății, dar rămâne nedetectată la aproximativ jumătate dintre cei afectați în țările dezvoltate și la 80–90% în țările cu venituri mici și medii. În SUA, ghidurile recomandă screeningul pentru depresie în medicina de familie, însă aplicarea lui depinde de timp, resurse și de existența unor sisteme de diagnostic, tratament și urmărire. Chestionarul standard folosit de obicei de clinicieni pentru a evalua simptomele de depresie este PHQ-9, un chestionar validat științific, care se completează în câteva minute și ajută la estimarea gradului de severitate.
Aici intră în scenă inteligența artificială, dar într-un mod diferit față de cum ne-am aștepta.
Cercetători de la Massachusetts Institute of Technology (MIT) și companii precum Kintsugi Health dezvoltă modele de învățare automată care analizează tipare subtile în vorbire — nu ceea ce spui, ci cum spui. Tonalitatea, ritmul, pauzele, variațiile de înălțime a vocii, monotonia vocală și viteza de vorbire contribuie împreună la o „amprentă” acustică legată de starea mentală.
Un studiu publicat în ianuarie 2025 în Annals of Family Medicine a evaluat tehnologia Kintsugi Voice pe 14.898 de adulți din SUA și Canada. Participanților li s-a cerut să vorbească liber timp de cel puțin 25 de secunde despre un subiect la alegere. Algoritmul a comparat apoi aceste înregistrări cu rezultatele chestionarului PHQ-9. Rezultatele au arătat că sistemul a identificat depresia moderată până la severă cu o sensibilitate de circa 71,3% și o specificitate de 73,5% în comparație cu scorurile PHQ-9, ceea ce sugerează un potențial util în screening (triere) clinic.
Cercetătorii explică faptul că sistemele pot funcționa „context-free”, adică nu trebuie să înțeleagă despre ce vorbești; contează doar caracteristicile vocale de bază pentru a face inferențe predictive. „Am programat modelul să descopere singur la ce să fie atent,” explică unul dintre cercetători. „Nu îi cerem să caute răspunsuri la întrebări specifice. El învață ce tipare vocale sunt asociate cu depresia.” Echipa a constatat că analiza limbajului (cuvintele folosite) poate necesita mai puține secvențe de vorbire pentru predicție decât analiza caracteristicilor pur acustice, dar combinația ambelor oferă cele mai bune rezultate.
Un alt studiu publicat în Scientific Reports în 2024 folosește un model avansat numit wav2vec 2.0, pre-antrenat pe volume mari de vorbire, și raportează pe baza de date DAIC-WOZ (o colecție folosită des în cercetare) o acuratețe de clasificare binară (depresie da/nu) de aproximativ 96,48%. Autorii subliniază că aceste rezultate sunt obținute pe seturi de date controlate și nu reflectă neapărat performanța în contexte clinice reale.
Cercetătorii au testat și alte abordări de analiză vocală pentru sănătate mintală și au găsit că aceste instrumente pot oferi indicii nu doar despre depresie, ci și despre anxietate sau tulburări de somn, pe baza unor conversații scurte.
Ideea nu este ca AI să înlocuiască complet psihiatrii. Așa explică și specialiștii: dacă cineva înregistrează un jurnal vocal acasă și sistemul observă o schimbare semnificativă în tipare, acest lucru poate semnala că e util să contactezi un medic. Este un instrument suplimentar, nu un înlocuitor.
Există totuși preocupări importante: tehnologiile actuale au fost testate preponderent în engleză sau chineză, deci rămâne întrebarea cum s-ar comporta în alte limbi, accente sau înregistrări scurte. Un studiu recent a arătat că înregistrările foarte scurte (sub 3 secunde) pot fi dificil de folosit pentru extragerea caracteristicilor vocale stabile. Confidențialitatea este, de asemenea, un subiect critic: cine are acces la aceste înregistrări? Cum sunt protejate datele pentru a nu fi folosite abuziv?
Mai degrabă decât perfecțiunea algoritmică, potențialul real al acestor tehnologii este accesibilitatea: un smartphone ar putea deveni un instrument de triere pentru sănătate mintală, disponibil oricui, oricând, cu riscuri minime și fără bariere birocratice. Pentru sistemele de sănătate suprasolicitate, această abordare ar putea duce la identificarea timpurie a multor cazuri care altfel trec neobservate.
Desigur, un algoritm nu poate înlocui o conversație umană, empatia unui terapeut sau complexitatea unui diagnostic clinic complet. Dar poate fi un prim filtru, un semnal de alarmă care te îndeamnă să cauți ajutorul de care ai nevoie.
Surse:
https://pubmed.ncbi.nlm.nih.gov/39805690/
https://www.sciencedirect.com/science/article/abs/pii/S0167865525004131
https://www.nature.com/articles/s41598-024-63556-0
https://www.who.int/news-room/fact-sheets/detail/depression
Piața software, lovită puternic de Inteligența Artificială
Care țară produce cele mai „deștepte” modele de Inteligență Artificială?
Inteligența Artificială este acum mai creativă decât omul, arată un studiu