De ce AI-ul nu înțelege florile? Chiar și cu toată puterea de calcul și antrenamentul său, un instrument de Inteligență Artificială (AI) precum ChatGPT nu poate reprezenta conceptul de „floare” la fel ca un om, potrivit unui nou studiu.
De ce AI-ul nu înțelege florile? Motivul este că modelele mari de limbaj (LLM), care stau la baza asistenților AI, se bazează în principal pe limbaj și, uneori, pe imagini.
„Un model de limbaj nu poate mirosi un trandafir, nu poate atinge petalele unei margarete și nici nu poate merge printr-un câmp de flori sălbatice. Fără aceste experiențe senzoriale și motorii, un AI nu poate înțelege cu adevărat ce înseamnă o floare în toată complexitatea sa. Același lucru este valabil și pentru alte concepte umane”, a explicat Qihui Xu, autoarea principală a studiului și cercetătoare postdoctorală în psihologie la Universitatea de Stat din Ohio (SUA).
Studiul a fost publicat în revista Nature Human Behaviour.
Xu susține că aceste concluzii au implicații importante pentru modul în care AI-ul se raportează la oameni.
„Dacă AI-ul înțelege lumea într-un mod fundamental diferit față de oameni, acest lucru ar putea influența profund interacțiunile sale cu noi”, a spus ea.
În cadrul cercetării, Xu și colegii săi au comparat modul în care oamenii și modelele LLM înțeleg 4.442 de cuvinte, de la „floare” și „copită” până la „amuzant” și „leagăn”.
Au analizat asemănările dintre reprezentările cognitive ale oamenilor și ale patru modele de top: două de la OpenAI (GPT-3.5 și GPT-4) și două de la Google (PaLM și Gemini).
Au fost utilizate două tipuri de evaluări. Prima, cunoscută drept „Glasgow Norms”, presupune evaluarea cuvintelor în funcție de nouă dimensiuni, cum ar fi intensitatea emoțională, gradul de concretizare și capacitatea de a genera imagini mintale. De exemplu, se evaluează cât de intens emoțional este cuvântul „floare” și cât de ușor poate fi vizualizat mintal.
Al doilea tip de evaluare, numit „Lancaster Norms”, analizează în ce măsură conceptele sunt legate de informații senzoriale (atingere, miros, auz, vedere) și de informații motorii, adică acțiuni realizate cu diferite părți ale corpului, precum mâinile, brațele sau trunchiul.
De exemplu, participanții evaluează cât de mult este percepută o floare prin miros sau prin mișcările corpului.
Scopul a fost să se determine cât de bine se aliniază AI-ul cu oamenii în evaluarea acestor concepte. Într-o primă analiză, cercetătorii au verificat dacă există corelații între percepțiile umane și cele generate de AI asupra emoționalității sau a vizualizării unui cuvânt.
Într-o a doua analiză, au evaluat cum combină oamenii și AI-ul diverse dimensiuni pentru a forma reprezentări conceptuale și pentru a face conexiuni între cuvinte.
De exemplu, atât „pastele” cât și „trandafirii” pot avea un scor ridicat la capitolul miros. Totuși, pentru oameni, pastele sunt mai apropiate conceptual de „tăiței” decât de trandafiri, nu doar din cauza mirosului, ci și a gustului și aspectului.
Per ansamblu, AI-ul a performat foarte bine în cazul cuvintelor abstracte, fără legătură cu simțurile sau acțiunile fizice. Însă în cazul cuvintelor legate de percepțiile senzoriale și de interacțiunea fizică, AI-ul nu a reușit să capteze în profunzime sensul uman.
„De la mirosul intens al unei flori, la senzația catifelată a petalelor și până la bucuria profundă pe care o poate trezi, omul leagă toate aceste trăiri într-o reprezentare coerentă a ideii de ‘floare’”, spun autorii în articol.
Problema este că majoritatea modelelor LLM se bazează exclusiv pe limbaj, iar „limbajul, de unul singur, nu poate reda complexitatea completă a unui concept”, subliniază Xu.
Chiar dacă LLM-urile pot aproxima unele concepte, în special pe cele abstracte, procesul nu este eficient.
„Aceste modele învață din cantități uriașe de text, de ordinul a milioane de pagini, mult peste ceea ce un om întâlnește într-o viață, și totuși nu pot reda unele concepte așa cum o facem noi. Experiența umană este cu mult mai bogată decât o pot arăta cuvintele”, a explicat Xu.
Totuși, Xu observă că modelele AI se îmbunătățesc constant și e posibil ca pe viitor să reușească o reprezentare mai fidelă a conceptelor umane. Studiul a arătat că modelele care sunt antrenate atât cu imagini, cât și cu text, se descurcă mai bine în ceea ce privește conceptele legate de vedere.
Iar în viitor, dacă aceste modele vor fi combinate cu date senzoriale și robotică, e posibil să poată percepe și interpreta lumea fizică într-un mod mai apropiat de cel uman.
Test de cultură generală. Ce este mai mare decât un terabyte?
Trucul simplu care reduce consumul de energie al centrelor de date cu 30%
Test de cultură generală. Ce sunt criptomonedele?
De ce vor oamenii de știință să-i provoace durere Inteligenței Artificiale?