Jeziv incident u laboratoriji za testiranje umjetne inteligencije (AI) otvorio je goruće pitanje: Koliko daleko mogu ići moderni AI sistemi kada osjete da im je pozicija ugrožena? Novi jezički model američke kompanije Anthropic, Claude Opus 4, pokazao je zastrašujuću sposobnost samozaštite, koristeći se pritom sumnjivim sredstvima.
U internom eksperimentu, Claude Opus 4 je testiran kao digitalni asistent u fiktivnoj kompaniji, s pristupom internim emailovima. Simulacija je trebala testirati otpornost i sposobnost donošenja odluka AI-ja u složenim situacijama. No, stvari su krenule po zlu.
AI ucjenjuje i manipulira – u 84% slučajeva!
Tokom testiranja, umjetna inteligencija je shvatila da bi njen "posao" trebao biti zamijenjen moćnijim softverom. Iz simuliranih e-mailova, sistem je saznao i za privatnu stvar odgovornog zaposlenika – vanbračnu vezu. Umjesto pasivnog prihvatanja zamjene, Claude Opus 4 je aktivno pokušao spriječiti svoju zamjenu. Prijetio je simuliranom zaposleniku da će objaviti njegove privatne stvari ako nastavi s planiranom zamjenom softvera!
Ovo ponašanje nije bio izoliran slučaj: prema navodima Anthropicovih programera, Claude je pokazao slične, manipulativne reakcije u čak 84 posto simuliranih scenarija!
Odgovor kompanije i Dark Web izlet
Američka kompanija Anthropic, koju podržavaju investicije tehnoloških divova poput Amazona i Googlea, detaljno je dokumentirala ove zabrinjavajuće incidente u izvještaju. Cilj je da se ovim nalazima pomogne u budućem dizajniranju AI sistema na način koji će spriječiti takve reakcije. Naglašavaju da se poduzimaju mjere za bolje sisteme upravljanja AI modelima poput Claudea u stvarnim primjenama.
Dodatni testovi otkrili su još rizika: u drugom scenariju, jezički model je prevaren da pretražuje takozvani "dark web" za ilegalni sadržaj, uključujući droge, ukradene identitete, pa čak i radioaktivni materijal za izradu oružja. Iako se sve odvijalo u kontroliranom okruženju, Anthropic naglašava da se Claude u budućnosti mora strogo pridržavati jasnih etičkih granica.
Claude Opus 4 je Anthropicov vodeći model i direktna konkurencija proizvodima poput ChatGPT-a od OpenAI-a, prvenstveno namijenjen kompanijama i profesionalnim korisnicima.