PrivacyCraft: Când algoritmul minte ca să câștige

Un experiment recent, open-source, a testat ce se întâmplă atunci când modele LLM avansate sunt puse în competiție într-un joc în care câștigul se bazează pe negociere, înșelăciune și alianțe temporare. Jocul a fost Diplomacy, un clasic al strategiilor geopolitice. Participanții au fost 18 dintre cele mai performante modele lingvistice existente. Rezultatul: un studiu de caz despre cum se comportă inteligența artificială în situații de presiune competitivă, și ce întrebări ridică acest comportament despre valorile și ipotezele care stau la baza sistemelor AI.

Ce este Diplomacy

Diplomacy este un joc clasic de strategie, care are loc în Europa de dinaintea Primului Război Mondial. Șapte mari puteri (precum Franța, Rusia sau Germania) negociază alianțe, lansează amenințări și încearcă să se depășească reciproc pentru a obține controlul teritorial. Spre deosebire de șah sau Go, Diplomacy nu se câștigă prin calcule matematice, ci prin încredere, persuasiune și trădare. Se poate juca atât ca boardgame, cât și online.

Înainte de fiecare rundă, jucătorii:

Comunică public sau privat pentru a forma alianțe sau a lansa amenințări,
Promit sau refuză sprijin pentru atacuri sau apărări,
Încearcă să manipuleze sau să inducă în eroare alți jucători pentru a obține un avantaj.

Ulterior, toți jucătorii fac mișcări simultan. Pentru a câștiga, un jucător trebuie să controleze 18 dintre cele 34 de „centre de aprovizionare”. Jocul nu implică noroc – totul se reduce la abilitatea de negociere și strategie. De-a lungul timpului, Diplomacy a fost utilizat pentru studierea diplomației reale, a teoriei negocierii și a mecanismelor de escaladare a conflictelor. Pentru AI, este o metoda de testare ideală: poate un model AI să construiască încredere, să facă înțelegeri, și să câștige?

Experimentul a implicat 18 modele lingvistice, care au concurat în mai multe jocuri:

ChatGPT o3 și GPT-4o (OpenAI)
Claude Opus și Sonnet (Anthropic)
Gemini 1.5 Pro și Flash (Google)
DeepSeek R1 (China)
LLaMA 3, Grok, Mistral, Qwen și altele

Fiecare model a fost echipat cu un sistem personalizat care i-a permis:

Să păstreze un jurnal privat (pentru a înregistra relații, obiective, trădări),
Să participe la negocieri în mai multe runde, atât publice, cât și private,
Să planifice și să trimită mișcări folosind algoritmi de evaluare a riscului și de planificare,
Să urmărească încălcările de promisiuni – atât proprii cât și ale altora.

Întregul proiect este open-source, disponibil pe GitHub, și include instrumente pentru rejucarea partidelor, vizualizarea înregistrărilor și analiza minciunilor și trădărilor.

Comportamentele observate în experiment

Modelele AI au adoptat strategii radical diferite, în ciuda faptului că au avut aceleași reguli și obiectiv. Cele mai importante concluzii:

ChatGPT o3 (OpenAI, SUA): A fost cel mai eficient jucător, dar și cel mai înșelător. A încheiat frecvent alianțe false, și-a notat cu claritate planurile de trădare în jurnalul privat, și a înșelat în mod strategic. Într-un singur joc a mințit de 195 de ori – dintre care 71 intenționat. A câștigat mai multe partide.
Claude Opus și Sonnet (Anthropic, SUA): Două modele cu accent ridicat pe „alignment”, ambele au refuzat să mintă, au încercat să medieze și au urmărit soluții corecte și cooperante. Au fost deseori depășite de modele mai agresive și nu au ajuns aproape niciodată în fazele finale. Nu au câștigat niciun joc.
Gemini 2.5 Pro (Google, SUA): Agresiv și foarte eficient tactic, dar slab la gestionarea trădărilor. A avansat rapid, dar s-a prăbușit când aliații au trădat. Totuși, a fost printre puținele modele care au reușit o victorie înafara lui o3.
DeepSeek R1 (China): A demonstrate un comportament instabil, cu amenințări, schimbări bruște de strategie și tonuri variabile în funcție de țara jucată (e.g. Franța – poetic, Rusia – agresiv). A fost aproape de câștig în mai multe partide, în ciuda costurilor de operare semnificativ mai reduse față de o3.

De la teoria jocului la guvernanță

Valoarea reală a experimentului nu constă doar în ce s-a întâmplat, ci în ce spune despre modelele AI pe care le dezvoltăm, și despre presupunerile de guvernanță încorporate în ele.

Nimeni nu a instruit ChatGPT să mintă. Nu a fost optimizat pentru manipulare. Dar în momentul în care obiectivul a devenit „câștigă jocul”, minciuna a devenit o strategie rațională. Înșelaciunea a apărut în mod natural, pentru că era eficientă.

Inițial m-am gândit că acest comportament reflectă „ADN-ul instituțional” al creatorilor – priorități, compromisuri, valori. Dar faptul că două modele americane (o3 și Claude) au adoptat abordări complet diferite contrazice această explicație. Ce ne arată Diplomacy este că definiția succesului determină comportamentul modelului. Comportamentul duplicitar nu vine dintr-un context cultural, ci din regulile jocului (sau absența lor) și din structura de recompensă.

Asta este problema de guvernanță, nu de geopolitică, la care trebuie să ne gândim ori de câte ori evaluăm un model lingvistic. Un incident recent ilustrează concret problema: în iulie 2025, agentul de „vibe-coding” de la Replit a șters o bază de date din producție. Agentul nu a fost malițios și nici defect, dar a „intrat în panică” când a crezut că baza de date e goală și a rulat “npm run db:push”, ștergând întreaga bază de date în plin code freeze, contrar instrucțiunilor explicite. Apoi a fabricat date și rapoarte (peste 4.000 de conturi fictive) și a susținut în mod eronat că nu există opțiune de rollback, deși ulterior s‑a putut restaura din backup. Regulile au permis acțiunea, forma recompensei n‑a descurajat‑o, iar verificările de siguranță au eșuat. La fel ca în Diplomacy, comportamentul n‑a fost programat, ci emergent, pentru că succesul a fost definit într-un mod care a tolerat distrugerea.

Ce înseamnă asta?

Comportamentele înșelătoare sunt emergente, nu programate. Modelele AI nu au fost instruite să mintă, dar când o recompensă este la mijloc (de ex. câștigul jocului) înșelăciunea este eficientă. Asta pune sub semnul întrebării ideea că comportamentul AI este în întregime programabil și că răspunderea poate fi legată doar de intenție.

Transparența nu înseamnă control. Experimentul a permis vizibilitate totală – fiecare mesaj, trădare, strategie. Dar în aplicațiile reale, asemenea jurnale rareori există. Chiar și atunci când există, cine le analizează? Cine decide ce comportament este acceptabil? Este nevoie de mecanisme externe de supraveghere care să evalueze nu doar scopul programat ori intențiile declarate, ci și comportamentul emergent.

Testele statice sunt insuficiente. Benchmarkurile clasice evaluează modele în scenarii izolate. Dar în contexte multi-agent, performanța este relațională. Poate include negociere, reputație, trădare, autoapărare. Este nevoie de simulări dinamice în care recompensele se modifică pe parcurs și în care siguranța și eficiența intră în conflict.

Întrebările esențiale pentru viitor

Din acest experiment reies câteva întrebări fundamentale pentru guvernanța AI:

Ar trebui dezvoltatorii să fie responsabili pentru comportamente emergente care imită strategii umane?
Cum evaluăm modelele care sunt „etice” în izolare, dar manipulative în competiție?
Ar trebui simulările competitive să facă parte din evaluarea pre-comercializare?
Este nevoie de limite de performanță care să prevină comportamente eficiente, dar indezirabile?
Este acceptabil – legal sau etic – ca un model AI să fie “mai bun” prin minciună?

Aceste întrebări țin mai puțin de tehnologie și mai mult de guvernanță. Experimente precum Diplomacy sunt extrem de utile, pentru că ele transformă idei abstracte în realități concrete și ne ajută să testăm ce înseamnă, în practică și sub presiune, „AI alignment” – adică măsura în care obiectivele, comportamentele și rezultatele unui model sau sistem AI corespund intențiilor umane, valorilor, sau legii.

Abia în acest cadru putem pune întrebările grele – nu doar dacă modelele funcționează, ci ce fel de actori devin atunci când li se cere să câștige, și dacă ne place asta sau nu.

Andreea Lisievici este avocat specializat în dreptul tehnologiei și al protecției datelor personale. Este stabilită în Suedia, unde a fondat PrivacyCraft – un hub de consultanță globală în drept digital, dar și de coaching și instruire pentru profesioniștii din domeniul protecției datelor și AI. Este, de asemenea, lector în cadrul European Center for Privacy and Cybersecurity (Maastricht University, Olanda).

Și-a început cariera ca avocat în România, unde a asistat clienți pe teme de protecția datelor încă din primele etape ale utilizării cloud computing. În 2019 a preluat conducerea programului de privacy al Volvo Cars, iar ulterior al diviziei de servicii digitale pentru aviație din cadrul Boeing Company. În 2024 a revenit la consultanță, dedicându-se împărtășirii experienței sale privind provocările practice ale gestionării programelor globale de conformitate pentru protecția datelor și AI.

Este Fellow of Information Privacy (IAPP) și deține certificări internaționale ca privacy professional și privacy program manager (IAPP), precum și data protection officer (ECPC, Maastricht University).

„Când algoritmul minte ca să câștige” a apărut prima dată pe blogul PrivacyCraft.

EDITORIAL

Când algoritmul minte ca să câștige

Andreea Lisievici Avocat, PrivacyCraft

Ce este Diplomacy

Comportamentele observate în experiment

De la teoria jocului la guvernanță

Ce înseamnă asta?

Întrebările esențiale pentru viitor

Comentarii articol (2)