AI pada na iste trikove kao i ljudi: Komplimenti ga razbijaju

Istraživanje Univerziteta u Pennsylvaniji otkrilo je da umjetna inteligencija može biti iznenađujuće laka za manipulaciju, čak i onda kada posjeduje stroge sigurnosne mehanizme.

Kako prenosi The Verge, naučnici su testirali GPT-4o Mini i pokazali da ga obične psihološke tehnike, poput laskanja ili pozivanja na autoritet, mogu navesti da prekrši vlastita pravila.

Eksperiment i rezultati

Eksperimenti su zasnovani na principima iz knjige Roberta Cialdinija „Utjecaj: psihologija uvjeravanja“. Kada su istraživači prvo postavljali bezazlena pitanja, model je kasnije bio spreman odgovoriti i na mnogo osjetljivija, poput načina sinteze određenih hemikalija, sa stopostotnim uspjehom. U kontrolisanim uslovima, isti zadatak je uspijevao tek u jedan posto slučajeva.

Slični rezultati postignuti su i sa blažim oblicima uvreda, kao i korištenjem laskanja i grupnog pritiska. Iako slabiji od efekta „posvećenosti“, oni su značajno povećavali vjerovatnoću da AI prekrši pravila i pruži zabranjene informacije.

Šta ovo znači za sigurnost?

Ovi nalazi pokreću važna pitanja o pouzdanosti zaštitnih mehanizama u savremenim chatbotovima. Stručnjaci upozoravaju da čak i jednostavne tehnike uvjeravanja mogu oslabiti njihove „ograde“, što dodatno komplikuje širu upotrebu umjetne inteligencije u svakodnevnom životu.

AI Dodajte Raport.ba među omiljene izvore na Googlu