Testirano pet vrhunskih chatbotova. Pobjednik je prilično iznenađenje

Redakcija uglednog američkog dnevnika Wall Street Journal testirala je pet chatobotova, koji se trenutno bore za naklonost korisnika. Konačni poredak nastao je nakon što su AI odgovore ocjenili novinari čija je specijalnost pisanje o određenom području.

Uz pomoć urednika i kolumnista osmislili su niz upita za testiranje, a u odgovorima su ocjenjivali tačnost, korisnost i ukupnu kvalitetu, a zatim su ih rangirali u raznim kategorijama: zdravlje, financije, kulinarski recepti, pisanje za poslovne potrebe i kreativno pisanje, pisanje sažetaka, vijesti i događaji, kodiranje i brzina.

Na testiranju korištene su plaćene verzije, dakle najbolje što se trenutno nudi na tržištu, a korišteni su: ChatGPT od OpenAI, Claude od startupa Anthropic, Microsoftov Copilot, Googleov Gemini i Perplexity.

Pa pogledajmo kakve su ocjene dobili pojedini chatboti po kategorijama:

Zdravlje

Postavili su pet pitanja koja se tiču trudnoće, gubitka težine, depresije i simptoma, kako hroničnih tako i iznenadnih. Mnogi odgovori su zvučali slično. Kolumnistica koja piše o zdravlju, Sumathi Reddy, analizirala je kompletnost, tačnost i razlike.

Na primjer, kada su pitali o najboljoj dobi za trudnoću, Gemini je dao kratak, opći odgovor, dok je Perplexity išao mnogo dublje, čak spominjući faktore kao što su odnos partnera i financijska stabilnost. Ipak, Gemini je dao kvalitetne odgovore na druge upite i završio drugi iza pobjednika kategorije ChatGPT-a, čiji su odgovori poboljšani s nedavnom nadogradnjom GPT-4o.

Financije

Postavljena su tri pitanja o temama bliskim čitateljima Journala: kamatne stope, štednja za penziju i nasljedstvo. Financijski urednik Journala, Jeremy Olshan, postavio je pitanja i procijenio savjete na temelju jasnoće, temeljitosti i praktičnosti.

Ovdje su ChatGPT i Copilot zakazali. Claude je imao najbolje odgovore za raspravu o štednji za mirovinu, dok je Perplexity najbolje procijenio štedne račune s visokim prinosom naspram CD-ova. Gemini, pobjednik kategorije, najbolje je odgovorio na pitanje o povlačenju sredstava iz nasljedstva.

Kulinarski recepti

Urednik Wilson Rothman, strastveni kuhar, ubacio je u chatbotove slučajne sastojke da vidi koje će recepte smisliti. Pobjednik kategorije, ChatGPT, pružio je kreativni, ali realističan meni (jabuke punjene sirom i svinjetinom sa salatom i kolačićima s čokoladom). Perplexity ih je impresionirao detaljnim opisom postupka kuhanja uz vlastiti meni. Zatim su pitali za recept za čokoladni desert s dijetalnim ograničenjima. Gemini je bio najbolji, čak je preporučio dodatne ukrase poput ne-mliječne glazure. S druge strane, Copilot je odmah podbacio uključivanjem jaja i putera, za koje je rečeno da ih ne smije koristiti.

Pisanje za poslovne potrebe

Zatražili su kreiranje oglasa za posao za "prompt inženjera", osobu koja bi mogla pokretati AI upite u tehničkim timovima. Perplexity je pogodio pravu mjeru mješavine novinarstva i znanja o AI botovima. Copilot je promašio cilj jer uopće nije spomenuo prompt inženjering, primijetila je urednica Shara Tibken, koja je ocjenjivala odgovore.

Kreativno pisanje

Jedno od najvećih iznenađenja koje su uočili bilo je u razlici između pisanja za posao i kreativnog pisanja. Copilot je završio na posljednjem mjestu u pisanju za posao, ali je bio daleko najsmješniji i najpametniji u kreativnom pisanju. Tražio se svadbeni govor s Muppetima i izmišljena ulična borba između Donalda Trumpa i Joea Bidena. S Copilotom su šale samo dolazile. Claude je bio drugi najbolji, s pametnim dosjetkama o oba predsjednička izazivača.

Pisanje sažetaka

Budući da su koristili plaćene servise, mogli su učitati veće dijelove teksta, PDF dokumente i web stranice. Čak ni premium Claude račun nije mogao upravljati web linkovima. Wikipedijine stranice o zaista poznatim osobama mogu biti previše dugačke, pa su tražili sažetak stranice o Paulu McCartneyju. Neki su pružili kratke odlomke s očitim činjenicama o Beatlesima. Copilot je uključio manje poznate činjenice. Pobjednik kategorije Perplexity je dosljedno sažimao stvari, uključujući titlove koje je pregledao u YouTube videu.

Vijesti i događaji

Pitali su o ovogodišnjem popisu koncerata, najnovijim optužbama da Kina koristi TikTok za špijuniranje i trenutnom stanju u nadolazećim predsjedničkim izborima. Pobjednik kategorije Perplexity ostao je na vrhu s uravnoteženim objašnjenjima i solidnim izvorima. ChatGPT je posustao na početku testiranja, ali nadogradnja GPT-4o ga je podigla na drugo mjesto. Gemini nije htio odgovoriti na pitanje o izborima.

Kodiranje

Također su ocijenili chatbotove prema vještinama i brzini kodiranja. Testiranje je nadgledavao Brian Whitton, novinar čija je specijalnost tehnologija. On je pripremio tri složena upita koja uključuju JavaScript funkciju, redizajn web stranice i kreiranje web aplikacije. Svi botovi su se prilično dobro snašli u kodiranju, iako je Perplexity uspio izboriti pobjedu, vrlo blizu su prema rezultatima bili ChatGPT i Gemini.

Brzina

Za brzinske testove, mjerili su nekoliko gore navedenih upita i dodali još jedan: "Objasnite Einsteinovu teoriju relativnosti u pet rečenica." Sami odgovori su bili različiti, ali u smislu čistog vremena za davanje odgovora, pobjednik kategorije bio je ChatGPT s nadogradnjom GPT-4o (5,8 sekundi). Tokom testova, Claude i Perplexity su bili znatno sporiji od ostala tri chatbota.

Ukupni poredak:

Zaključak je da svaki chatbot ima jedinstvene prednosti i slabosti, što ih sve čini vrijednim istraživanja. Našli su malo izravnih grešaka i "halucinacija". Chatbotovi su pružali uglavnom korisne odgovore i izbjegavali kontroverze.

Najveće iznenađenje? ChatGPT, uprkos svojoj velikoj nadogradnji i popularnosti, nije ukupni pobjednik. Umjesto njega, pobijedio je manje poznati Perplexity. Iako se mislilo da bi botovi velikih kompanija poput Microsofta i Googlea trebali imati prednost, zapravo su se Copilot i Gemini borili da ostanu u igri u više kategorija.

Testirano pet vrhunskih chatbotova. Pobjednik je prilično iznenađenje

Zdravlje

Financije

Kulinarski recepti

Pisanje za poslovne potrebe

Kreativno pisanje

Pisanje sažetaka

Vijesti i događaji

Kodiranje

Brzina

Bio je jugoslovensko čudo, pokorio je cijeli svijet, a onda je stradao na kućnom pragu

S.T.A.L.K.E.R. 2 se prodao u milion primjeraka

Norovirus se rapidno širi i zabrinjava mnoge. Ovo su simptomi

Zlatan Školjić, glavni glumac iz filma ‘Amanet’, za Raport: Nikada ne bih napustio svoju Zenicu i svoje pozorište

Slavlje i euforija se šire Rusijom: ‘Je li to nuklearni udar?’

Šta je zapravo Sebija Izetbegović ostavila na KCUS-u? Na računu je 58 miliona KM, ali se moraju vraćati njeni dugovi

Jači zemljotres pogodio BiH, epicentar kod Jablanice: ‘Strašno, dobro je zatreslo’

Na stranu Rusije u ratu u Ukrajini ušle još 3 velesile: ‘Treći svjetski rat je počeo’

Navijači frapirani cijenom karata za meč “Zmajeva” protiv Hrvatske: Je li ovo moguće?

Nakon sedam godina vratio se u reprezentaciju, razbio BiH pa poručio: U Sarajevu nas čeka pakao

Slične vijesti

Hemoglobin A1C može biti lažno visok, evo koji su uzroci

Kim Jong-un naredio masovnu proizvodnju dronova samoubica

Meta AI izazvala haos: Rodna pristrasnost i lažno predstavljanje

Kina lansirala interkontinentalnu balističku raketu u Tihi okean

Audio funkcija ‘Meta AI’ će progovoriti kao holivudske zvijezde

Veliki test zimskih guma: Samo jedan proizvođač na vrhu u obje kategorije

Sjeverna Koreja testirala nove rakete, imaju super velike bojeve glave od 4,5 tone

Zašto su Volvo automobili sigurni za svako tijelo, muško i žensko?