Home » Lumea digitală » Generatoarele de text plagiază într-un mod ce depășește simplul „Copy & Paste”

Generatoarele de text plagiază într-un mod ce depășește simplul „Copy & Paste”

Publicat: 21.02.2023

Studenții ar trebui să se gândească de două ori înainte de a folosi ChatGPT pentru a-și realiza proiectele. Generatoarele de text plagiază conținutul în mai multe moduri, potrivit unei echipe de cercetare conduse de Penn State University, din SUA, care a efectuat un studiu pentru a examina direct fenomenul.

„Plagiatul este de mai multe tipuri. Am vrut să vedem dacă modelele de limbaj fac doar copy & paste sau recurg la forme mai sofisticate de plagiat fără să își dea seama”, a spus Dongwon Lee, profesor de științe și tehnologie a informației la Penn State.

Cercetătorii s-au concentrat pe identificarea a trei forme de plagiat: verbatim, sau copierea textului cuvânt cu cuvânt; parafrazarea, adică reformularea și restructurarea conținutului fără a cita sursa originală; și plagiatul ideii, sau folosirea ideii principale dintr-un text fără o citare corespunzătoare.

Oare generatoarele de text plagiază?

Cercetătorii au construit un algoritm pentru detectarea automată a plagiatului și l-au testat pe GPT-2 al OpenAI, deoarece datele de antrenament ale modelului de limbă sunt disponibile online, permițându-le cercetătorilor să compare textele generate de chatbot cu cele 8 milioane de documente utilizate pentru pre-antrenare.

Oamenii de știință au folosit 210.000 de texte generate pentru a vedea dacă generatoarele de text plagiază, testând modele lingvistice pre-instruite, dar și modele lingvistice ajustate (modele instruite în detaliu pentru a se concentra pe anumite domenii tematice).

În acest caz, echipa a ajustat trei modele lingvistice pentru a se concentra pe documente științifice, pe articole academice legate de COVID-19 și pe înregistrările de brevete. Oamenii de știință au folosit un motor de căutare open-source pentru a selecta primele 10 documente de instruire cele mai asemănătoare cu fiecare text generat și au modificat un algoritm de aliniere a textului existent pentru a detecta mai bine cazurile de plagiat verbatim, de parafrazare și de plagiat de idei.

Descoperirile pot avea implicații grave

Echipa a descoperit că generatoarele de text plagiază folosind toate cele trei tipuri de plagiat și că, cu cât setul de date și parametrii utilizați pentru a antrena modelul sunt mai mari, cu atât plagiatul a apărut mai des.

Cercetătorii au mai remarcat și că modelele de limbaj ajustate au redus plagiatul verbatim, dar au crescut cazurile de parafrazare și de plagiat de idei. În plus, oamenii de știință au identificat cazuri în care modelul lingvistic a expus informații private ale indivizilor prin toate cele trei forme de plagiat, notează TechXplore.

Cercetătorii își vor prezenta concluziile la ACM Web Conference din 2023, care are loc în perioada 30 aprilie-4 mai în Austin, Texas.

„Oamenii urmăresc modele lingvistice mari, deoarece cu cât modelul devine mai mare, abilitățile de generare cresc”, spune Jooyoung Lee, doctorandă la Colegiul de Științe și Tehnologie a Informației din cadrul Penn State și autoare principală a studiului.

„În același timp, ei pun în pericol originalitatea și creativitatea conținutului din corpusul de instruire. Aceasta este o constatare importantă”, a subliniat ea.

Chatboții ar trebui folosiți cu o mai mare atenție

Studiul evidențiază nevoia de mai multe cercetări privind generatoarele de text și întrebările etice și filosofice pe care acestea le ridică, spun cercetătorii.

„Chiar dacă rezultatele pot fi atrăgătoare, iar modelele lingvistice pot fi distractiv de utilizat și par productive pentru anumite sarcini, nu înseamnă că sunt practice”, a spus Thai Le, profesor asistent de informatică și știința informației la Universitatea din Mississippi care a început să lucreze la proiect ca doctorand la Penn State.

„În practică, trebuie să avem grijă de problemele etice aduse de generatoarele de text și de abordarea drepturilor de autor”, a continuat el.

Faptul că generatoarele de text plagiază nu este surprinzător

Deși rezultatele studiului se aplică doar pentru GPT-2, procesul automat de detectare a plagiatului pe care l-au creat cercetătorii poate fi aplicat și pe modelele de limbaj mai noi, cum ar fi ChatGPT, pentru a determina dacă și cât de des plagiază aceste modele conținutul de instruire. Testarea pentru plagiat, totuși, depinde de dezvoltatorii care fac datele de instruire accesibile pentru public, au spus cercetătorii.

Studiul actual îi poate ajuta pe cercetătorii AI să construiască modele de limbaj mai robuste, fiabile și responsabile în viitor, spun cercetătorii. Deocamdată, aceștia îndeamnă persoanele să fie precaute atunci când folosesc generatoare de text.

Faptul că aceste modele de limbaj plagiază nu este neobișnuit, spune Dongwon Lee. „Dezvoltatorii au învățat generatoarele de text să imite scrierile umane fără să le învețe în mod corespunzător să nu plagieze. E timpul să le învățăm să citeze sursele, dar mai este mult de lucru”, a cocluzionat profesorul.

Vă recomandăm să citiți și:

Google a anunțat că lucrează la competitorul lui ChatGPT, un chatbot numit „Bard”

Prima „mină” de Bitcoin alimentată nuclear va începe operațiunile în acest an

Mănușa VR aduce un simț mai realist al atingerii în metavers

Microsoft a creat dispozitivul care îți poate clona vocea după doar trei secunde de audio

Ștefan Trepăduș
Ștefan Trepăduș
Ștefan Trepăduș este blogger începând cu anul 2009, având experiență și în domeniile publicitate și jurnalism. Este pasionat de marketing și de tehnologie, dar cel mai mult îi place să știe lucruri, motiv pentru care a fost atras de Descopera.ro. citește mai mult
Urmărește DESCOPERĂ.ro pe
Google News și Google Showcase
Cele mai noi articole
Un nou spray nazal pentru Alzheimer elimină toxinele din neuroni
Un nou spray nazal pentru Alzheimer elimină toxinele din neuroni
Experiment: de ce vor cercetătorii să arunce mii de litri de chimicale în ocean?
Experiment: de ce vor cercetătorii să arunce mii de litri de chimicale în ocean?
Cea mai frumoasă descriere a reginei Maria
Cea mai frumoasă descriere a reginei Maria
Lina Wertmüller, prima femeie nominalizată la Premiul Oscar pentru Cel mai bun regizor. „Filmul este cea mai importantă formă de comunicare din zilele noastre. Lumea se schimbă, iar noi trebuie să ne schimbăm odată cu ea”
Lina Wertmüller, prima femeie nominalizată la Premiul Oscar pentru Cel mai bun regizor. „Filmul este cea mai importantă ...
Jane Campion, prima femeie regizoare care a primit Palme d’Or la Cannes
Jane Campion, prima femeie regizoare care a primit Palme d’Or la Cannes
Cercetătorii spun că populația Pământului va atinge un maximum în 60 de ani, apoi va scădea
Cercetătorii spun că populația Pământului va atinge un maximum în 60 de ani, apoi va scădea
La ce temperatură trebuie să setăm aparatul de aer condiționat?
La ce temperatură trebuie să setăm aparatul de aer condiționat?
Test de cultură generală. De ce mâncau chinezii fosile de dinozaur?
Test de cultură generală. De ce mâncau chinezii fosile de dinozaur?
Astronomii au descoperit o gaură neagră rară care pândește în Calea Lactee
Astronomii au descoperit o gaură neagră rară care pândește în Calea Lactee
Laboratoare secrete din Ucraina pregătesc o armată de roboți pentru a lupta cu Rusia
Laboratoare secrete din Ucraina pregătesc o armată de roboți pentru a lupta cu Rusia
Directorul general al casei de modă Burberry pleacă după mai puțin de 2 ani și jumătate
Directorul general al casei de modă Burberry pleacă după mai puțin de 2 ani și jumătate
Ce mesaj i-a transmis regele Charles al III-lea lui Donald Trump după tentativa eșuată de asasinare
Ce mesaj i-a transmis regele Charles al III-lea lui Donald Trump după tentativa eșuată de asasinare
Ziua în care Orientul şi Occidentul s-au despărţit pentru totodeauna din punct de vedere religios
Ziua în care Orientul şi Occidentul s-au despărţit pentru totodeauna din punct de vedere religios
Cât mai ține canicula? Meteorologii ANM au emis o nouă prognoză
Cât mai ține canicula? Meteorologii ANM au emis o nouă prognoză
Câți dintre români evită să se bucure din plin de vară pentru că nu sunt mulțumiți de cum arată
Câți dintre români evită să se bucure din plin de vară pentru că nu sunt mulțumiți de cum arată
Anunțul neașteptat făcut de fratele mai mic al lui Michael Schumacher
Anunțul neașteptat făcut de fratele mai mic al lui Michael Schumacher
„O eroare fundamentală de securitate” a permis atacatorului să se apropie suficient de Donald Trump
„O eroare fundamentală de securitate” a permis atacatorului să se apropie suficient de Donald Trump
Astronomii au măsurat viteza deformării Căii Lactee
Astronomii au măsurat viteza deformării Căii Lactee