Home » D:News » Tehnologia care dă mari bătăi de cap Inteligenței Artificiale

Tehnologia care dă mari bătăi de cap Inteligenței Artificiale

Tehnologia care dă mari bătăi de cap Inteligenței Artificiale
Foto: Shutterstock
Publicat: 13.03.2026

Formatul PDF este unul dintre cele mai răspândite tipuri de documente din lume, dar pentru sistemele de inteligență artificială rămâne surprinzător de dificil de analizat.

Specialiștii spun că limitările tehnice ale acestui format ar putea duce, pe termen lung, chiar la înlocuirea lui cu alternative mai ușor de citit de către mașini.

PDF-ul (Portable Document Format) a fost creat de compania Adobe în 1993 pentru a permite deschiderea documentelor pe orice computer fără a modifica aspectul acestora. De-a lungul anilor, formatul a devenit standard pentru documente oficiale, formulare administrative, lucrări academice sau documente de lucru, scrie Il Post.

Un PDF funcționează mai degrabă ca o „fotografie” a unui document

Problema este că PDF-urile au fost concepute în primul rând pentru a fi citite de oameni, nu de programe informatice. Deși modelele moderne de inteligență artificială pot analiza texte complexe, ele întâmpină dificultăți atunci când încearcă să interpreteze structura unui document PDF. De exemplu, atunci când textul este organizat în coloane, include grafice sau tabele. Din aceste motive, programele pot interpreta greșit ordinea informațiilor, ceea ce duce la rezultate confuze.

Din punct de vedere tehnic, un PDF funcționează mai degrabă ca o „fotografie” a unui document. Fișierul conține instrucțiuni pentru a reproduce exact aceeași pagină pe orice dispozitiv. Pentru a extrage textul, programele trebuie să folosească tehnologii de recunoaștere optică a caracterelor (OCR), care transformă imaginile în text digital. Aceste sisteme funcționează relativ bine în cazul documentelor simple. Ele întâmpină probleme majore atunci când fișierele conțin scanări, scris de mână sau structuri grafice complexe.

Limitările PDF-urilor reprezintă o problemă dublă

În schimb, alte formate precum HTML sunt mult mai ușor de analizat de către inteligența artificială. Explicația este că acestea includ etichete care indică structura documentului: titluri, subtitluri sau paragrafe.

Limitările PDF-urilor reprezintă o problemă dublă pentru companiile din domeniul inteligenței artificiale. Pe de o parte, utilizatorii se confruntă frecvent cu dificultăți atunci când încearcă să ofere documente PDF pentru analiză sau rezumare. Pe de altă parte, aceste limitări împiedică accesul la un volum uriaș de conținut de calitate care ar putea fi folosit pentru antrenarea modelelor AI. Estimările arată că între 80% și 90% dintre datele existente în companii sunt stocate în formate „nestructurate”. Iar aici sunt incluse PDF-uri, înregistrări audio sau video, care sunt dificil de analizat automat.

În contextul creșterii rapide a industriei AI, mai multe companii încearcă să găsească soluții pentru această problemă. Startup-ul israelian Factify a atras recent peste 70 de milioane de dolari pentru dezvoltarea unui nou tip de format de document. El a fost conceput pentru a păstra avantajele PDF-ului, dar care să poată fi analizat mai ușor de sistemele de inteligență artificială.

În paralel, compania europeană Mistral a lansat un sistem OCR bazat pe AI pentru a îmbunătăți citirea documentelor PDF. Momentan, rezultatele nu sunt încă semnificativ mai bune decât cele ale tehnologiilor existente.

Pentru moment, PDF-ul rămâne standardul dominant pentru documente digitale. Totuși, pe măsură ce inteligența artificială devine tot mai importantă în analizarea datelor, presiunea pentru dezvoltarea unor formate mai prietenoase cu mașinile este tot mai mare.

Urmărește DESCOPERĂ.ro pe
Google News și Google Showcase
Cele mai noi articole
Trenuri de pasageri reluate între China și Coreea de Nord
Trenuri de pasageri reluate între China și Coreea de Nord
O cometă recent descoperită ar putea fi vizibilă pe cerul zilei în luna aprilie
O cometă recent descoperită ar putea fi vizibilă pe cerul zilei în luna aprilie
De unde provin cele mai multe dintre artefactele din Epoca Bronzului?
De unde provin cele mai multe dintre artefactele din Epoca Bronzului?
Cercetătorii au identificat segmente neobișnuite de ADN care accelerează evoluția
Cercetătorii au identificat segmente neobișnuite de ADN care accelerează evoluția
Oamenii de știință ar fi descoperit un mineral complet nou pe Marte
Oamenii de știință ar fi descoperit un mineral complet nou pe Marte
Cercetătorii au descoperit că ratonii rezolvă puzzle-uri pentru distracție, nu neapărat pentru recompensă
Cercetătorii au descoperit că ratonii rezolvă puzzle-uri pentru distracție, nu neapărat pentru recompensă
Cum a ajuns o monedă feniciană veche de 2.000 de ani în casieria unui șofer de autobuz din Anglia?
Cum a ajuns o monedă feniciană veche de 2.000 de ani în casieria unui șofer de autobuz din Anglia?
Ce se întâmplă cu sănătatea ta atunci când petreci timp în compania unor oameni dificili?
Ce se întâmplă cu sănătatea ta atunci când petreci timp în compania unor oameni dificili?
Companiile producătoare de ciocolată ar putea în curând să folosească cacao crescută în laborator
Companiile producătoare de ciocolată ar putea în curând să folosească cacao crescută în laborator
Aproape o treime dintre americani cred că lumea se va sfârși în timpul vieții lor
Aproape o treime dintre americani cred că lumea se va sfârși în timpul vieții lor
Dioxidul de carbon atmosferic este atât de ridicat încât slăbește oasele oamenilor
Dioxidul de carbon atmosferic este atât de ridicat încât slăbește oasele oamenilor
MedLife anunță primele rezultate ale primului studiu de genomică din România
MedLife anunță primele rezultate ale primului studiu de genomică din România
Test de cultură generală. De ce urșii polari merg încet?
Test de cultură generală. De ce urșii polari merg încet?
Un semnal fără precedent detectat în Marea Mediterană a fost asociat cu găurile negre supermasive
Un semnal fără precedent detectat în Marea Mediterană a fost asociat cu găurile negre supermasive
O greșeală banală pe care o facem cu toții primăvara agravează alergia la polen
O greșeală banală pe care o facem cu toții primăvara agravează alergia la polen
Cum putem folosi CD-urile vechi pentru a ne proteja plantele din grădină?
Cum putem folosi CD-urile vechi pentru a ne proteja plantele din grădină?
Războiul din Iran lovește puternic în prețul biletelor de avion
Războiul din Iran lovește puternic în prețul biletelor de avion
Omul care a cerut iertare pentru păcatele Bisericii Catolice. Discursul istoric al Papei Ioan Paul al II-lea
Omul care a cerut iertare pentru păcatele Bisericii Catolice. Discursul istoric al Papei Ioan Paul al II-lea