Home » D:News » Tehnologia care dă mari bătăi de cap Inteligenței Artificiale

Tehnologia care dă mari bătăi de cap Inteligenței Artificiale

Tehnologia care dă mari bătăi de cap Inteligenței Artificiale
Foto: Shutterstock
Publicat: 13.03.2026

Formatul PDF este unul dintre cele mai răspândite tipuri de documente din lume, dar pentru sistemele de inteligență artificială rămâne surprinzător de dificil de analizat.

Specialiștii spun că limitările tehnice ale acestui format ar putea duce, pe termen lung, chiar la înlocuirea lui cu alternative mai ușor de citit de către mașini.

PDF-ul (Portable Document Format) a fost creat de compania Adobe în 1993 pentru a permite deschiderea documentelor pe orice computer fără a modifica aspectul acestora. De-a lungul anilor, formatul a devenit standard pentru documente oficiale, formulare administrative, lucrări academice sau documente de lucru, scrie Il Post.

Un PDF funcționează mai degrabă ca o „fotografie” a unui document

Problema este că PDF-urile au fost concepute în primul rând pentru a fi citite de oameni, nu de programe informatice. Deși modelele moderne de inteligență artificială pot analiza texte complexe, ele întâmpină dificultăți atunci când încearcă să interpreteze structura unui document PDF. De exemplu, atunci când textul este organizat în coloane, include grafice sau tabele. Din aceste motive, programele pot interpreta greșit ordinea informațiilor, ceea ce duce la rezultate confuze.

Din punct de vedere tehnic, un PDF funcționează mai degrabă ca o „fotografie” a unui document. Fișierul conține instrucțiuni pentru a reproduce exact aceeași pagină pe orice dispozitiv. Pentru a extrage textul, programele trebuie să folosească tehnologii de recunoaștere optică a caracterelor (OCR), care transformă imaginile în text digital. Aceste sisteme funcționează relativ bine în cazul documentelor simple. Ele întâmpină probleme majore atunci când fișierele conțin scanări, scris de mână sau structuri grafice complexe.

Limitările PDF-urilor reprezintă o problemă dublă

În schimb, alte formate precum HTML sunt mult mai ușor de analizat de către inteligența artificială. Explicația este că acestea includ etichete care indică structura documentului: titluri, subtitluri sau paragrafe.

Limitările PDF-urilor reprezintă o problemă dublă pentru companiile din domeniul inteligenței artificiale. Pe de o parte, utilizatorii se confruntă frecvent cu dificultăți atunci când încearcă să ofere documente PDF pentru analiză sau rezumare. Pe de altă parte, aceste limitări împiedică accesul la un volum uriaș de conținut de calitate care ar putea fi folosit pentru antrenarea modelelor AI. Estimările arată că între 80% și 90% dintre datele existente în companii sunt stocate în formate „nestructurate”. Iar aici sunt incluse PDF-uri, înregistrări audio sau video, care sunt dificil de analizat automat.

În contextul creșterii rapide a industriei AI, mai multe companii încearcă să găsească soluții pentru această problemă. Startup-ul israelian Factify a atras recent peste 70 de milioane de dolari pentru dezvoltarea unui nou tip de format de document. El a fost conceput pentru a păstra avantajele PDF-ului, dar care să poată fi analizat mai ușor de sistemele de inteligență artificială.

În paralel, compania europeană Mistral a lansat un sistem OCR bazat pe AI pentru a îmbunătăți citirea documentelor PDF. Momentan, rezultatele nu sunt încă semnificativ mai bune decât cele ale tehnologiilor existente.

Pentru moment, PDF-ul rămâne standardul dominant pentru documente digitale. Totuși, pe măsură ce inteligența artificială devine tot mai importantă în analizarea datelor, presiunea pentru dezvoltarea unor formate mai prietenoase cu mașinile este tot mai mare.

Urmărește DESCOPERĂ.ro pe
Google News și Google Showcase
Cele mai noi articole
Musca digitală. Cât de aproape suntem de simularea unui creier?
Musca digitală. Cât de aproape suntem de simularea unui creier?
Cum putem salva plantele de apartament: trucul simplu care dă roade
Cum putem salva plantele de apartament: trucul simplu care dă roade
Este adevărat că un microbiom cât mai divers ne ferește de boli?
Este adevărat că un microbiom cât mai divers ne ferește de boli?
Creierul după infecții. Cum pot virusurile „obișnuite” să afecteze memoria și atenția
Creierul după infecții. Cum pot virusurile „obișnuite” să afecteze memoria și atenția
Criza Tăcerii: un studiu arată că rostim din ce în ce mai puține cuvinte
Criza Tăcerii: un studiu arată că rostim din ce în ce mai puține cuvinte
O ultimă „suflare” de la cometa interstelară 3I/ATLAS pe măsură ce iese din Sistemul Solar
O ultimă „suflare” de la cometa interstelară 3I/ATLAS pe măsură ce iese din Sistemul Solar
Diferență majoră între bărbații și femeile din România la ocuparea forței de muncă
Diferență majoră între bărbații și femeile din România la ocuparea forței de muncă
Anghel Saligny, inginerul care a testat cu preţul vieţii podul de la Cernavodă
Anghel Saligny, inginerul care a testat cu preţul vieţii podul de la Cernavodă
O lege fără precedent permite condamnarea copiilor de 12 ani la închisoare pe viață
O lege fără precedent permite condamnarea copiilor de 12 ani la închisoare pe viață
De ce tot mai mulți bărbați se înrolează de bunăvoie în armata Thailandei?
De ce tot mai mulți bărbați se înrolează de bunăvoie în armata Thailandei?
România este „campioană” la inflație în Uniunea Europeană
România este „campioană” la inflație în Uniunea Europeană
Scădere puternică pentru puterea de cumpărare a românilor
Scădere puternică pentru puterea de cumpărare a românilor
De ce avem tot mai multe opțiuni, dar luăm decizii mai proaste
De ce avem tot mai multe opțiuni, dar luăm decizii mai proaste
Documentul care a scandalizat Marea Britanie după cele două războaie mondiale
Documentul care a scandalizat Marea Britanie după cele două războaie mondiale
Cercetătorul care a demonstrat că educația genetică poate reduce prejudecățile rasiale
Cercetătorul care a demonstrat că educația genetică poate reduce prejudecățile rasiale
Teama de a nu rata „pe cineva mai bun”. Relațiile moderne, între libertate, vulnerabilitate și căutarea sensului
Teama de a nu rata „pe cineva mai bun”. Relațiile moderne, între libertate, vulnerabilitate și căutarea sensului
Cercetătorii au crezut că aceste rozătoare au dispărut acum 11 milioane de ani, dar apoi le-au găsit în junglă
Cercetătorii au crezut că aceste rozătoare au dispărut acum 11 milioane de ani, dar apoi le-au găsit în junglă
O navă funerară de sub un tumul antic este mai veche decât vikingii
O navă funerară de sub un tumul antic este mai veche decât vikingii