Redakcija uglednog američkog dnevnika Wall Street Journal testirala je pet chatobotova, koji se trenutno bore za naklonost korisnika. Konačni poredak nastao je nakon što su AI odgovore ocjenili novinari čija je specijalnost pisanje o određenom području.
Uz pomoć urednika i kolumnista osmislili su niz upita za testiranje, a u odgovorima su ocjenjivali tačnost, korisnost i ukupnu kvalitetu, a zatim su ih rangirali u raznim kategorijama: zdravlje, financije, kulinarski recepti, pisanje za poslovne potrebe i kreativno pisanje, pisanje sažetaka, vijesti i događaji, kodiranje i brzina.
Na testiranju korištene su plaćene verzije, dakle najbolje što se trenutno nudi na tržištu, a korišteni su: ChatGPT od OpenAI, Claude od startupa Anthropic, Microsoftov Copilot, Googleov Gemini i Perplexity.
Pa pogledajmo kakve su ocjene dobili pojedini chatboti po kategorijama:
Zdravlje
Postavili su pet pitanja koja se tiču trudnoće, gubitka težine, depresije i simptoma, kako hroničnih tako i iznenadnih. Mnogi odgovori su zvučali slično. Kolumnistica koja piše o zdravlju, Sumathi Reddy, analizirala je kompletnost, tačnost i razlike.
Na primjer, kada su pitali o najboljoj dobi za trudnoću, Gemini je dao kratak, opći odgovor, dok je Perplexity išao mnogo dublje, čak spominjući faktore kao što su odnos partnera i financijska stabilnost. Ipak, Gemini je dao kvalitetne odgovore na druge upite i završio drugi iza pobjednika kategorije ChatGPT-a, čiji su odgovori poboljšani s nedavnom nadogradnjom GPT-4o.
Financije
Postavljena su tri pitanja o temama bliskim čitateljima Journala: kamatne stope, štednja za penziju i nasljedstvo. Financijski urednik Journala, Jeremy Olshan, postavio je pitanja i procijenio savjete na temelju jasnoće, temeljitosti i praktičnosti.
Ovdje su ChatGPT i Copilot zakazali. Claude je imao najbolje odgovore za raspravu o štednji za mirovinu, dok je Perplexity najbolje procijenio štedne račune s visokim prinosom naspram CD-ova. Gemini, pobjednik kategorije, najbolje je odgovorio na pitanje o povlačenju sredstava iz nasljedstva.
Kulinarski recepti
Urednik Wilson Rothman, strastveni kuhar, ubacio je u chatbotove slučajne sastojke da vidi koje će recepte smisliti. Pobjednik kategorije, ChatGPT, pružio je kreativni, ali realističan meni (jabuke punjene sirom i svinjetinom sa salatom i kolačićima s čokoladom). Perplexity ih je impresionirao detaljnim opisom postupka kuhanja uz vlastiti meni. Zatim su pitali za recept za čokoladni desert s dijetalnim ograničenjima. Gemini je bio najbolji, čak je preporučio dodatne ukrase poput ne-mliječne glazure. S druge strane, Copilot je odmah podbacio uključivanjem jaja i putera, za koje je rečeno da ih ne smije koristiti.
Pisanje za poslovne potrebe
Zatražili su kreiranje oglasa za posao za "prompt inženjera", osobu koja bi mogla pokretati AI upite u tehničkim timovima. Perplexity je pogodio pravu mjeru mješavine novinarstva i znanja o AI botovima. Copilot je promašio cilj jer uopće nije spomenuo prompt inženjering, primijetila je urednica Shara Tibken, koja je ocjenjivala odgovore.
Kreativno pisanje
Jedno od najvećih iznenađenja koje su uočili bilo je u razlici između pisanja za posao i kreativnog pisanja. Copilot je završio na posljednjem mjestu u pisanju za posao, ali je bio daleko najsmješniji i najpametniji u kreativnom pisanju. Tražio se svadbeni govor s Muppetima i izmišljena ulična borba između Donalda Trumpa i Joea Bidena. S Copilotom su šale samo dolazile. Claude je bio drugi najbolji, s pametnim dosjetkama o oba predsjednička izazivača.
Pisanje sažetaka
Budući da su koristili plaćene servise, mogli su učitati veće dijelove teksta, PDF dokumente i web stranice. Čak ni premium Claude račun nije mogao upravljati web linkovima. Wikipedijine stranice o zaista poznatim osobama mogu biti previše dugačke, pa su tražili sažetak stranice o Paulu McCartneyju. Neki su pružili kratke odlomke s očitim činjenicama o Beatlesima. Copilot je uključio manje poznate činjenice. Pobjednik kategorije Perplexity je dosljedno sažimao stvari, uključujući titlove koje je pregledao u YouTube videu.
Vijesti i događaji
Pitali su o ovogodišnjem popisu koncerata, najnovijim optužbama da Kina koristi TikTok za špijuniranje i trenutnom stanju u nadolazećim predsjedničkim izborima. Pobjednik kategorije Perplexity ostao je na vrhu s uravnoteženim objašnjenjima i solidnim izvorima. ChatGPT je posustao na početku testiranja, ali nadogradnja GPT-4o ga je podigla na drugo mjesto. Gemini nije htio odgovoriti na pitanje o izborima.
Kodiranje
Također su ocijenili chatbotove prema vještinama i brzini kodiranja. Testiranje je nadgledavao Brian Whitton, novinar čija je specijalnost tehnologija. On je pripremio tri složena upita koja uključuju JavaScript funkciju, redizajn web stranice i kreiranje web aplikacije. Svi botovi su se prilično dobro snašli u kodiranju, iako je Perplexity uspio izboriti pobjedu, vrlo blizu su prema rezultatima bili ChatGPT i Gemini.
Brzina
Za brzinske testove, mjerili su nekoliko gore navedenih upita i dodali još jedan: "Objasnite Einsteinovu teoriju relativnosti u pet rečenica." Sami odgovori su bili različiti, ali u smislu čistog vremena za davanje odgovora, pobjednik kategorije bio je ChatGPT s nadogradnjom GPT-4o (5,8 sekundi). Tokom testova, Claude i Perplexity su bili znatno sporiji od ostala tri chatbota.
Ukupni poredak:
Zaključak je da svaki chatbot ima jedinstvene prednosti i slabosti, što ih sve čini vrijednim istraživanja. Našli su malo izravnih grešaka i "halucinacija". Chatbotovi su pružali uglavnom korisne odgovore i izbjegavali kontroverze.
Najveće iznenađenje? ChatGPT, uprkos svojoj velikoj nadogradnji i popularnosti, nije ukupni pobjednik. Umjesto njega, pobijedio je manje poznati Perplexity. Iako se mislilo da bi botovi velikih kompanija poput Microsofta i Googlea trebali imati prednost, zapravo su se Copilot i Gemini borili da ostanu u igri u više kategorija.