chat botovi

Umjetna inteligencija nije stručnjak za historiju

botovi

Koliko god neki AI chat botovi dobro obavljali mnoge zadatke, rezultati poređenja performansi s obzirom na historijsko znanje i razumijevanje koje je sproveo međunarodni tim istraživača uz učešće Bečkog naučnog centra za kompleksnost (CSH) bili su pomiješani.

Peter Turchin, koji vodi istraživačku grupu za socijalnu složenost i kolaps u CSH, bio je iznenađen lošim učinkom u pitanjima na akademskom nivou. Dugi niz godina on i njegove kolege prikupljaju znanje o ljudskoj historiji u „Seshat Global History DataBanku“.

Ova baza podataka je također poslužila kao osnova za testiranje chatbotova sa umjetnom inteligencijom zasnovanih na takozvanim modelima velikih jezika (LLM) za njihovo razumijevanje historijskog znanja.

GPT-4 Turbo se najbolje pokazao

Sedam modela je trebalo da odabere tačan odgovor od četiri moguća odgovora. Slučajnu stopu od 25 posto premašili su svi, ali ne mnogo. GPT-4 Turbo iz ChatGPT developera OpenAI je bio najbolji sa stopom pogodaka od 46 posto, dok je Llama-3.1-8B iz Facebook grupe Meta bio posljednji sa 33,6 posto. Treba napomenuti da nisu postavljana opća znanja, već su pitanja bila na ekspertskom nivou - u skladu sa bazom podataka koja obuhvata saznanja oko 600 kompanija širom svijeta.

Ono što je također testirano nije samo da li modeli ispravno identifikuju činjenice, već i da li ih mogu izvesti iz indirektnih dokaza, objasnio je prvi autor Jakob Hauser iz CSH u saopćenju za javnost. Prema studiji, koja je nedavno predstavljena na konferenciji NeurIPS u Vancouveru (Kanada), istaknutom mjestu okupljanja zajednice AI, postoje velike razlike u određenim područjima.

Razlike prema temama, regijama i epohama

Bilo je nedostataka, naprimjer, kada se procjenjuju karakteristike prošlih društava izvan Sjeverne Amerike i Zapadne Evrope. Značajne praznine u historijskom razumijevanju bile su evidentne i u novijim epohama do danas, dok je na pitanja o ranoj historiji, posebno iz perioda između 8000 p.n.e. i 3000 godina p.n.e. pne, odgovoreno vrlo precizno. Što se tiče kategorije tema, modeli su bili slabiji kada je u pitanju diskriminacija i društvena mobilnost.

Modeli bi bili idealni za prenošenje osnovnih činjenica, "ali kada su u pitanju nijansiranija historijska istraživanja, oni još nisu na visini zadatka", kaže koautorica Maria del Rio-Chanona, vanjska članica fakulteta CSH i asistentica profesorica na Univerzitetskom koledžu u Londonu

. U budućnosti će više podataka iz nedovoljno zastupljenih regiona biti uključeno u poređenje performansi i više modela će biti testirano.