OpenAI se odlučio na novi pokušaj s modelom glasovne umjetne inteligencije, koji su mu ranije upali u probleme zbog glumice Scarlett Johansson, čiji se glas pokušao iskoristiti u stilu filma Her, gdje ga je posudila. No, nije dozvolila i bila je poprilično gnjevna jer se to učinilo bez pitanja. Sve to nije obeshrabrilo OpenAI.
Stoga, predstavio je tri nova vlastita glasovna modela - gpt-4o-transcribe, gpt-4o-mini-transcribe i gpt-4o-mini-tts. Ovi će modeli u početku biti dostupni putem sučelja za programiranje aplikacija (API) kako bi developeri mogli graditi vlastite aplikacije. Također će biti dostupni na prilagođenoj demo web stranici, OpenAI.fm, kojoj pojedinačni korisnici mogu pristupiti za ograničeno testiranje i zabavu.
Nisu besplatni. Primjerice, gpt-4o-transcribe košta šest dolara jednom milionu ulaznih audio tokena, gpt-4o-mini-transcribe tri dolara i gpt-4o-mini-tts 0,60 dolara za milion ulaznih, ali i 12 dolara za milion izlaznih audio tokena.
Ujedno, glasovi modela gpt-4o-mini-tts mogu se prilagoditi iz nekoliko unaprijed postavljenih opcija putem tekstualnih uputa kako bi se promijenili naglasci, visina, ton i druge vokalne kvalitete - uključujući prenošenje bilo kojih emocija koje korisnik zatraži, što bi trebalo uvelike pomoći u rješavanju svih zabrinutosti da OpenAI namjerno oponaša glas bilo kojeg određenog korisnika. Sada je na korisniku da odluči kako želi da njegov glas umjetne inteligencije zvuči prilikom povratnog govora.
Modeli su varijante postojećeg modela GPT-4o koji je OpenAI lansirao u maju 2024. godine i koji trenutno pokreće tekstualno i glasovno iskustvo ChatGPT-a za mnoge korisnike, ali firma je taj osnovni model dodatno obučila s dodatnim podacima kako bi se istaknuo u transkripciji i govoru. Firma nije precizirala kada bi modeli mogli doći u ChatGPT.
Namijenjen je zamjeni OpenAI-jevog dvogodišnjeg otvorenog izvornog modela za pretvaranje teksta u govor, Whisper, nudeći niže stope grešaka riječi u industrijskim standardima i poboljšane performanse u bučnim okruženjima, s raznolikim naglascima i različitim brzinama govora na više od stotinu jezika.
OpenAI također organizira natjecanje za širu javnost kako bi pronašao najkreativnije primjere korištenja demo stranice za glas OpenAI.fm. Pobjednik će dobiti prilagođeni radio Teenage Engineering s logotipom OpenAI-ja, za koji je voditelj proizvoda, platforme OpenAI-ja, Olivier Godement, rekao da je jedan od samo tri u svijetu.
Poboljšanja ih čine posebno prikladnima za aplikacije kao što su korisnički pozivni centri, transkripcija bilješki sa sastanaka i pomoćnici s umjetnom inteligencijom.
Gledajući unaprijed, OpenAI planira nastaviti usavršavati audio modele i istraživati mogućnosti prilagođenog glasa, istovremeno osiguravajući sigurnost i odgovorno korištenje umjetne inteligencije. Osim zvuka, OpenAI također ulaže u multimodalnu umjetnu inteligenciju, uključujući video, kako bi omogućio dinamičnija i interaktivnija iskustva temeljena na agentima.