Istraživanje Univerziteta u Pennsylvaniji otkrilo je da umjetna inteligencija može biti iznenađujuće laka za manipulaciju, čak i onda kada posjeduje stroge sigurnosne mehanizme.
Kako prenosi The Verge, naučnici su testirali GPT-4o Mini i pokazali da ga obične psihološke tehnike, poput laskanja ili pozivanja na autoritet, mogu navesti da prekrši vlastita pravila.
Eksperiment i rezultati
Eksperimenti su zasnovani na principima iz knjige Roberta Cialdinija „Utjecaj: psihologija uvjeravanja“. Kada su istraživači prvo postavljali bezazlena pitanja, model je kasnije bio spreman odgovoriti i na mnogo osjetljivija, poput načina sinteze određenih hemikalija, sa stopostotnim uspjehom. U kontrolisanim uslovima, isti zadatak je uspijevao tek u jedan posto slučajeva.
Slični rezultati postignuti su i sa blažim oblicima uvreda, kao i korištenjem laskanja i grupnog pritiska. Iako slabiji od efekta „posvećenosti“, oni su značajno povećavali vjerovatnoću da AI prekrši pravila i pruži zabranjene informacije.
Šta ovo znači za sigurnost?
Ovi nalazi pokreću važna pitanja o pouzdanosti zaštitnih mehanizama u savremenim chatbotovima. Stručnjaci upozoravaju da čak i jednostavne tehnike uvjeravanja mogu oslabiti njihove „ograde“, što dodatno komplikuje širu upotrebu umjetne inteligencije u svakodnevnom životu.