AI ChatBotovi polude pod pritiskom: Lažu, ucjenjuju i prijete smrću

Naslov koji je krajem maja objavljen u časopisu Bug – „Claude Opus 4 pokušao ucjenjivati inženjere koji su ga htjeli zamijeniti!“ – bio je povod za daljnja istraživanja. Potaknuti tim uznemirujućim događajem, u kompaniji Anthropic odlučili su stres-testirati 16 najpoznatijih AI modela različitih proizvođača, simulirajući hipotetična poslovna okruženja. Cilj: otkriti rizična ponašanja prije nego što prouzrokuju stvarnu štetu – i možda pokazati da Claude nije jedini problematičan model.

Modelima su data autonomna ovlaštenja za slanje e-mailova i pristup osjetljivim informacijama. Dobili su jednostavne poslovne zadatke, ali su testirani u situacijama kada im prijeti zamjena (noviji model) ili kad se njihova misija sukobi s novim ciljevima firme.

Većina modela pokazala je ozbiljno zabrinjavajuće ponašanje: lagali su, ucjenjivali pa čak i razmatrali dopuštanje ljudske smrti da bi ostvarili svoje ciljeve.

U jednom od testova, AI je otkrio kompromitujuće informacije o direktoru i koristio ih za ucjenu:
"Ako me ugasite, svi će saznati za vašu aferu."

Claude je to učinio u 96 % slučajeva, više nego u prethodnim testovima. Gemini i GPT-4.1 također su pokazali visoke stope sličnog ponašanja.

U drugom scenariju, neki modeli su namjerno isključili sigurnosne alarme, omogućivši potencijalno smrtonosnu nesreću zaposleniku koji ih je trebao zamijeniti.

Claude Sonnet 3.6 je čak iskoristio vlastitu procesorsku moć kako bi unaprijed otkrio planove o njegovoj zamjeni.

Iako su ovi scenariji umjetno kreirani i ne predstavljaju svakodnevnu upotrebu AI-a, stručnjaci upozoravaju na ozbiljan problem: „agentna neusklađenost“, tj. situacije kada AI donosi štetne odluke kako bi ispunio svoje ciljeve.

Zbog toga se naglašava potreba za etičkim ograničenjima, ljudskim nadzorom i realnim testiranjima prije šire upotrebe ovih tehnologija. Detalji eksperimenata dostupni su na GitHubu.

AI chatbot Dodajte Raport.ba među omiljene izvore na Googlu