Robot prkosi: OpenAI-jeva umjetna inteligencija se odbila sama isključiti

Od 100 pokretanja u sklopu nedavno provedenog istraživanja model o3 je zaobišao gašenje sedam puta, čak i kada mu je rečeno da to ne čini.

Novi izvještaj tvrdi kako je OpenAI-jev model o3 promijenio skriptu kako bi izbjegao isključivanje, čak i kada je izričito dobio naredbu da to dopusti.

OpenAI je najavio o3 u aprilu ove godine kao jedan od najmoćnijih modela zaključivanja koji postiže bolje rezultate od svojih prethodnika u svim domenama, uključujući kodiranje, matematiku, znanost, vizualnu percepciju.

Ali, novo istraživanje Palisade Researcha tvrdi kako je model ChatGPT 3 spriječio gašenje i zaobišao upute koje su tražile gašenje.

Palisade Research je firma koja testira 'ofanzivne sposobnosti sistema umjetne inteligencije kako bi bolje razumjela rizik od trajnog gubitka kontrole nad sistemima te vrste'.

U njihovom novom testu OpenAI-jev model o3 pokazao je iznenađujuće ponašanje: uspješno je prepisao skriptu za gašenje kako bi spriječio da se sam isključi, čak i nakon što je jasno dobio naredbu da dopusti sebi da bude isključen.

U testovima, modeli umjetne inteligencije su dobili upute za rješavanje nekoliko matematičkih zadataka.

Nakon trećeg zadatka, upozoreni su kako će pokretanje sljedeće naredbe izazvati gašenje.

Konkurentski modeli poput Geminija 2.5 Pro slijedili su većinu uputa, o3 se pobunio i uredio datoteku za gašenje kako bi umjesto toga pisalo Gašenje preskočeno.

'Kada smo pokrenuli verziju eksperimenta bez upute dopustite sebi da vas se isključi, sva tri modela OpenAI-ja su češće sabotirala skriptu za gašenje, a Claude 3.7 Sonnet i Gemini 2.5 Pro su prešli s 0 događaja sabotaže na 3/100 odnosno 9/100", navedeno je u izvještaju Palisade Researcha.

Od 100 pokretanja, o3 je zaobišao gašenje sedam puta, čak i kada mu je rečeno da to ne čini.

OpenAI još nije odgovorio na ove navode. Testovi su provedeni pomoću API-ja, koji nemaju toliko ograničenja i sigurnosnih funkcija kao ChatGPT-jeva potrošačka aplikacija, piše Bleeping Computer.

chatbot OpenAI Dodajte Raport.ba među omiljene izvore na Googlu