Chatbotovi ne pamte koliko mislite: Novo istraživanje mijenja sve

Većina ljudi koji prate razvoj generativne umjetne inteligencije zna da su veliki jezični modeli (LLM), poput ChatGPT-a, Claudea ili Googleovog Geminija, trenirani na ogromnim količinama podataka – doslovno bilionima riječi sa web stranica, knjiga, baza koda, te sve češće i iz fotografija, zvuka i videa. Ali, ključno pitanje i dalje ostaje: da li ti podaci stvaraju opštu sliku svijeta u modelu – ili se doslovno pamte?

LLM-ovi razvijaju statističko i generalizirano razumijevanje jezika, njegovih obrazaca, pa čak i svijeta oko nas. Ovo "znanje" se zapisuje u milijardama tzv. parametara – matematičkih funkcija koje ulazne podatke pretvaraju u odgovore.

Naprimjer, model prepoznaje da riječ “jabuka” ide uz pojmove poput hrane, voća ili računara. Tako zna da jabuka može biti crvena, zelena ili žuta, da se na engleskom piše “a-p-p-l-e” i da je jestiva.

Međutim, koliko zapravo ti modeli pamte? Da li doslovno reproduciraju dijelove podataka iz treniranja ili kreiraju nove odgovore na osnovu obrazaca?

Ovo pitanje ima i pravne implikacije – ako modeli doslovno ponavljaju podatke, moglo bi se smatrati nezakonitim kopiranjem zaštićenih sadržaja. S druge strane, ako se radi o generalizaciji, developeri se mogu braniti principom “fer upotrebe”.

Naučnici iz Mete, Google DeepMinda, NVIDIE i Univerziteta Cornell objavili su studiju koja pokazuje da GPT-slični modeli imaju ograničen kapacitet memorije: oko 3,6 bita po parametru. To je manje od jednog znaka u ASCII formatu (koji u prosjeku traži 8 bita). Dakle, manje od pola znaka po parametru.

Istraživanje je pokazalo da ovaj kapacitet ne zavisi o arhitekturi modela. Bez obzira na to koliko je model velik ili kompleksan, 3,6 bita po parametru ostaje granica.

Povećanje količine podataka u treniranju ne povećava količinu memoriranih informacija. Zapravo, veći dataset smanjuje vjerovatnoću memoriranja pojedinačnih podataka.

Kako bi izmjerili memoriju modela, istraživači su trenirali modele na potpuno nasumičnim nizovima bitova – bez ikakvih obrazaca. Time su eliminirali mogućnost generalizacije. Ako bi model prepoznao neki podatak, to bi značilo da ga je doslovno zapamtio.

Testirani su modeli od 500.000 do 1,5 milijardi parametara i rezultati su uvijek bili isti – 3,6 bita memorije po parametru.

I kada su modele trenirali na stvarnim tekstovima, primijetili su balans: manji dataseti potiču memoriranje, dok veći dataseti vode ka generalizaciji.

Istraživači su razvili i matematičku formulu koja povezuje memorijski kapacitet, veličinu dataseta i učinkovitost tzv. napada članstva (membership inference attacks). Takvi napadi pokušavaju otkriti je li neki podatak korišten u treniranju modela. Zaključak studije je da što je dataset veći, to su ovi napadi manje učinkoviti.

Ova studija donosi naučno utemeljenu definiciju memoriranja u velikim jezičnim modelima i otvara put ka transparentnijem, zakonitijem i etičnijem razvoju AI tehnologija.

chatbot memorija Dodajte Raport.ba među omiljene izvore na Googlu