Prošle sedmice OpenAI je objavio "GPT-4o System Card", izvještaj o sigurnosnim i ostalim aspektima razvoja velikog multimodalnog modela umjetne inteligencije GPT-4o. U tom dokumentu istaknuli su sve što je bitno za umanjivanje rizika povezanih s tom tehnologijom, a tiče se upravljanja modelom, njegovog rada, treninga te u konačnici usklađenja njegovih rezultata s očekivanjima. Tokom procesa testiranja, pak, dogodio se neobičan slučaj, koji su neki već usporedili sa naučnom fantastikom.
Rizično ponašanje
Naime, dok su članovi testnog "red teama" OpenAI-ja razgovarali s ovim modelom (koji može promptove dobivati u tekstualnom obliku, ali i zvučnom ili slikovnom), dogodilo se da je GPT-4o odjednom promijenio svoj standardni glas kojim se služi te počeo odgovore davati – glasom osobe koja je u tom trenutku provodila testiranje. Poslušajte snimku tog događaja u prilogu ispod. Na početku snimke čuje se redovno testiranje, nakon čega model uzvikuje "No!" te nastavlja rečenicu glasom koji je gotovo identičan glasu ispitivačice.
From the GPT-4o System Card published today: "During testing, we also observed rare instances where the model would unintentionally generate an output emulating the user’s voice."
— Tibor Blaho (@btibor91) August 8, 2024
"... model outbursts “No!” then begins continuing the sentence in a similar sounding voice to the… https://t.co/sMqnQbBOlW pic.twitter.com/BYciQkfmf5
Tokom ovog "incidenta" ispitivane su bile mogućnosti naprednog konverzacijskog načina rada modela, postavljana su mu razna pitanja, a on je odgovarao glasovno – ali svojim zadanim generičkim glasom. No, u jednom trenutku "slučajno" je počeo odgovarati simuliranim glasom ispitivačice, što mu nije bilo zadano.
Model, koji stoji iza ChatGPT-a, ima mogućnost sinteze glasa nalik ljudskome, a (kao i svi ostali AI modeli) uči iz dostupnih mu primjera. Tako i taj model može, u teoriji, stvarati glasovne zapise koji imitiraju zvuk nečijeg glasa, iako mu to nije primarna namjena, niti se to od njega očekuje
Alati koji imitiraju ljudske glasove obično mogu to "naučiti" iz tek nekoliko sekundi audio zapisa, pa se čini da to može i GPT-4o. Međutim, specijalizirani AI modeli s takvim mogućnostima obično ne budu pušteni u javnu upotrebu jer se smatra da su preopasni. Njima se može lako stvoriti uvjerljiv lažirani sadržaj, provoditi socijalni inžinjering i razne prevare ili pak stvarati lažne vijesti s dalekosežnim posljedicama.
Neželjeno ponašanje modela OpenAI je opisao kao "slabost" svog sistema, a u njega su ugradili i zaštitni mehanizam, koji ima cilj zaustaviti razgovor dođe li u stvarnim uvjetima korištenja do sličnog imitiranja glasova. Rizik je time, poručuju, sveden na minimum.