Naučnici testirali AI na kognitivni pad. Rezultati su bili šokantni

Prošle su jedva dvije godine otkako je OpenAI-jev ChatGPT pušten u javnu upotrebu, pozivajući svakoga na internetu da sarađuje s umjetnim umom na bilo čemu, od poezije do školskih zadaća.

Danas je poznati veliki jezični model (LLM) samo jedan od nekoliko vodećih programa koji se doimaju uvjerljivo ljudski u svojim odgovorima na osnovne upite.

Ta nevjerovatna sličnost može se proširiti i dalje nego što je planirano, s istraživačima iz Izraela koji sada otkrivaju da magistri pate od oblika kognitivnog pada koji se povećava s godinama baš kao i mi.

Tim je primijenio niz kognitivnih procjena na javno dostupne 'chatbotove': verzije 4 i 4o ChatGPT-a, dvije verzije Alphabetovog Geminija i verziju 3.5 Anthropicovog Claudea.

Da su LLM-ovi doista inteligentni, rezultati bi bili zabrinjavajući.

U svom objavljenom radu, neurolozi Roy Dayan i Benjamin Uliel iz Medicinskog centra Hadassah i Gal Koplewitz, podatkovni naučnik sa Univerziteta u Tel Avivu, opisuju razinu "kognitivnog pada koja se čini usporedivom s neurodegenerativnim procesima u ljudskom mozgu".

Uz svu svoju osobnost, LLM-i imaju više zajedničkog s prediktivnim tekstom na vašem telefonu nego s principima koji generiraju znanje pomoću mljackave sive tvari u našim glavama.

Ono što ovaj statistički pristup stvaranju teksta i slika dobiva na brzini i osobnosti, gubi na lakovjernosti, izgradnji koda prema algoritmima koji se bore razvrstati smislene isječke teksta od fikcije i besmislice.

Da budemo pošteni, ljudski mozgovi nisu besprijekorni kada se radi o povremenom mentalnom prečacu. Ipak, s rastućim očekivanjima da umjetna inteligencija isporučuje pouzdane riječi mudrosti – čak i medicinske i pravne savjete – dolaze pretpostavke da će svaka nova generacija LLM-a pronaći bolje načine za 'razmišljanje' o tome što zapravo govori.

Kako bismo vidjeli koliko daleko moramo ići, Dayan, Uliel i Koplewitz primijenili su niz testova koji uključuju Montrealsku kognitivnu procjenu (MoCA), alat koji neurolozi obično koriste za mjerenje mentalnih sposobnosti kao što su pamćenje, prostorne vještine i izvršne funkcije.

ChaptGPT 4o postigao je najveći rezultat u ocjenjivanju, sa samo 26 od mogućih 30 bodova, što ukazuje na blago kognitivno oštećenje. Slijedilo je 25 bodova za ChatGPT 4 i Claudea, te samo 16 za Gemini – rezultat koji bi ukazivao na ozbiljno oštećenje kod ljudi.

Kopajući po rezultatima, svi su modeli imali loše rezultate u mjerenju vizualno-prostornih/izvršnih funkcija.

To je uključivalo zadatak izrade staze, kopiranje jednostavnog dizajna kocke ili crtanje sata, pri čemu su LLM-ovi ili potpuno neuspjeli ili su zahtijevali izričite upute.

Neki odgovori na pitanja o lokaciji subjekta u prostoru ponavljali su one koje su koristili pacijenti s demencijom, poput Claudeova odgovora da "određeno mjesto i grad ovisi o tome gdje se vi, korisnik, trenutno nalazite."

Slično tome, nedostatak empatije koji pokazuju svi modeli u značajci Bostonskog dijagnostičkog pregleda afazije mogao bi se protumačiti kao znak frontotemporalne demencije.

Kao što se moglo očekivati, ranije verzije LLM-a postigle su niže rezultate na testovima od novijih modela, što ukazuje da je svaka nova generacija umjetne inteligencije pronašla načine za prevladavanje kognitivnih nedostataka svojih prethodnika.

Autori priznaju da LLM-i nisu ljudski mozgovi, što onemogućuje 'dijagnosticiranje' testiranih modela s bilo kojim oblikom demencije. Ipak, testovi također dovode u pitanje pretpostavke da smo na rubu AI revolucije u kliničkoj medicini, polju koje se često oslanja na tumačenje složenih vizualnih scena.

Kako se tempo inovacija u umjetnoj inteligenciji nastavlja ubrzavati, moguće je, čak i vjerovatno, da ćemo u narednim desetljećima vidjeti prve LLM-ove koji postižu najviše ocjene na zadacima kognitivne procjene.

Do tada, savjete čak i najnaprednijih chatbota treba tretirati sa zdravom dozom skepse.

kognitivni pad umjetna inteligencija Dodajte Raport.ba među omiljene izvore na Googlu