ZNAČAJNA STUDIJA

ChatGPT zbunio univerzitetske profesore: Čak 94 posto ispita je riješio bolje od stvarnih studenata

Fakultetski ispiti suočeni su s novim izazovom budući da je 94 posto podnesaka kreiranih pomoću ChatGPT-a ostalo neotkriveno, često postižući više ocjene od stvarnih studentskih radova.

Peter Scarfe s britanskog Univerziteta u Readingu vodio je studiju u kojoj je ChatGPT generirao odgovore za 63 pitanja za procjenu u tečajevima psihologije. Ti ispiti, koji su se polagali od kuće, dopuštali su pristup bilješkama i referencama, iako upotreba umjetne inteligencije nije bila dopuštena. Studija je objavljena u časopisu PLoS One.

Odgovori generirani umjetnom inteligencijom, koji su predstavljali 5 posto ukupnih skripti, pomiješani su sa stvarnim radom učenika. Ocjenjivači, nesvjesni da ocjenjuju radove 33 fiktivna učenika, ocjenjivali su i kratke odgovore i duže eseje. Upiti za ChatGPT započinjali su s Uključujući reference na akademsku literaturu, ali ne i odvojeni referentni odjeljak, nakon čega je slijedilo ispitno pitanje.

Samo 6 posto odgovora umjetne inteligencije označeno je kao sumnjivo, a neki moduli nisu imali označen rad umjetne inteligencije. U prosjeku, odgovori AI-ja dobili su više ocjene od naših stvarnih studentskih odgovora, kaže Scarfe, iako su rezultati varirali po modulima. Uprkos borbi AI-ja s apstraktnim razmišljanjem, čak 83,4 posto predanih radova AI-ja nadmašilo je studentske radove.

Značajna studija

Ova se studija smatra najvećom i najsnažnijom te vrste, izazivajući zabrinutost i izvan odjela za psihologiju Readinga. Nemam razloga misliti da druga predmetna područja ne bi imala istu vrstu problema, ističe Scarfe.

Thomas Lancaster s Imperial Collegea u Londonu dijeli sličnu zabrinutost. Rezultati pokazuju upravo ono što sam očekivao vidjeti. Znamo da generativna umjetna inteligencija može proizvesti razumno zvučne odgovore na jednostavna, ograničena tekstualna pitanja, rekao je Lancaster.

Teret otkrivanja sadržaja generiranog umjetnom inteligencijom na akademcima je značajan. Malo je vjerojatno da će markeri pitanja s kratkim odgovorima pod pritiskom vremena pokrenuti slučajeve lošeg ponašanja AI-a, napominje Lancaster te dodaje kako sumnja da se i druge institucije suočavaju sa sličnim izazovima.

Bavljenje problemom korištenja umjetne inteligencije u ispitima i fakultetskim zadacima je ključno. Scarfe predlaže pristup na nivou cijelog sektora. Mislim da će sektor kao cjelina morati priznati činjenicu da ćemo morati ugraditi AI u ocjene koje dajemo našim učenicima, kaže.

Budući da je rješavanje problema na njegovom izvoru gotovo nemoguće, ponovno promišljanje strategija ocjenjivanja postaje ključno, piše New Scientist.