OpenAI predstavio glasovne modele koji u nekoliko sekundi ispisuju šta im se kaže

OpenAI se odlučio na novi pokušaj s modelom glasovne umjetne inteligencije, koji su mu ranije upali u probleme zbog glumice Scarlett Johansson, čiji se glas pokušao iskoristiti u stilu filma Her, gdje ga je posudila. No, nije dozvolila i bila je poprilično gnjevna jer se to učinilo bez pitanja. Sve to nije obeshrabrilo OpenAI.

Stoga, predstavio je tri nova vlastita glasovna modela - gpt-4o-transcribe, gpt-4o-mini-transcribe i gpt-4o-mini-tts. Ovi će modeli u početku biti dostupni putem sučelja za programiranje aplikacija (API) kako bi developeri mogli graditi vlastite aplikacije. Također će biti dostupni na prilagođenoj demo web stranici, OpenAI.fm, kojoj pojedinačni korisnici mogu pristupiti za ograničeno testiranje i zabavu.

Nisu besplatni. Primjerice, gpt-4o-transcribe košta šest dolara jednom milionu ulaznih audio tokena, gpt-4o-mini-transcribe tri dolara i gpt-4o-mini-tts 0,60 dolara za milion ulaznih, ali i 12 dolara za milion izlaznih audio tokena.

Ujedno, glasovi modela gpt-4o-mini-tts mogu se prilagoditi iz nekoliko unaprijed postavljenih opcija putem tekstualnih uputa kako bi se promijenili naglasci, visina, ton i druge vokalne kvalitete - uključujući prenošenje bilo kojih emocija koje korisnik zatraži, što bi trebalo uvelike pomoći u rješavanju svih zabrinutosti da OpenAI namjerno oponaša glas bilo kojeg određenog korisnika. Sada je na korisniku da odluči kako želi da njegov glas umjetne inteligencije zvuči prilikom povratnog govora.

Modeli su varijante postojećeg modela GPT-4o koji je OpenAI lansirao u maju 2024. godine i koji trenutno pokreće tekstualno i glasovno iskustvo ChatGPT-a za mnoge korisnike, ali firma je taj osnovni model dodatno obučila s dodatnim podacima kako bi se istaknuo u transkripciji i govoru. Firma nije precizirala kada bi modeli mogli doći u ChatGPT.

Namijenjen je zamjeni OpenAI-jevog dvogodišnjeg otvorenog izvornog modela za pretvaranje teksta u govor, Whisper, nudeći niže stope grešaka riječi u industrijskim standardima i poboljšane performanse u bučnim okruženjima, s raznolikim naglascima i različitim brzinama govora na više od stotinu jezika.

OpenAI također organizira natjecanje za širu javnost kako bi pronašao najkreativnije primjere korištenja demo stranice za glas OpenAI.fm. Pobjednik će dobiti prilagođeni radio Teenage Engineering s logotipom OpenAI-ja, za koji je voditelj proizvoda, platforme OpenAI-ja, Olivier Godement, rekao da je jedan od samo tri u svijetu.

Poboljšanja ih čine posebno prikladnima za aplikacije kao što su korisnički pozivni centri, transkripcija bilješki sa sastanaka i pomoćnici s umjetnom inteligencijom.

Gledajući unaprijed, OpenAI planira nastaviti usavršavati audio modele i istraživati mogućnosti prilagođenog glasa, istovremeno osiguravajući sigurnost i odgovorno korištenje umjetne inteligencije. Osim zvuka, OpenAI također ulaže u multimodalnu umjetnu inteligenciju, uključujući video, kako bi omogućio dinamičnija i interaktivnija iskustva temeljena na agentima.

OpenAI predstavio glasovne modele koji u nekoliko sekundi ispisuju šta im se kaže

Vučević: Izbor mandatara sveden na dva imena

Prvi put od Drugog svjetskog rata Njemačka šalje vojnike na prag Rusije

Protest zdravstvenih radnika u HNK, traže aneks kolektivnog ugovora: ‘Ministar je obezbijedio novce za sinovce’

Helez: Srbija štiti kriminalce i zločince. Pisao sam NATO-u, EUFOR-u, OHR-u i svim ambasadama

Jedan od najvećih košarkaških bh. talenata pregovara sa Miamijem i Villanovom

Dodik otkrio da je i Crna Gora ‘pogurala’ kod odluke Interpola, ali nešto bitno je prešutio

Sud BiH i Interpol Sarajevo dobili odgovor iz Lyona: Naveden razlog odbijanja crvene potjernice za Miloradom Dodikom

Dodik nakon odluke Interpola: Savršeno dobro znam šta radim, BiH se ovako najbolje ruši

Tužilaštvo BiH formiralo tim, uključeni pripadnici SIPA-e, Granične i OSA-e. Trebaju razraditi aktivnosti vezane za Dodika

Mnogi su grdili Barbareza što ga zove u reprezentaciju: Sada je svima postalo jasno zašto

Slične vijesti

ChatGPT-ev program za kreiranje slika Ghibli sada je dostupan svima

OpenAI predstavio glasovne modele koji u nekoliko sekundi ispisuju šta im se kaže

OpenAI ima nove alate. Nadaju se da će pomoću njih agenti umjetne inteligencije postati samostalniji

OpenAI briše račune koji koriste ChatGPT za dezinformacije i kriminal

Microsoft ulaže 13 milijardi dolara u OpenAI

Meta sprema napad na ChatGPT, ali plan im baš i nije briljantan

Alate OpenAI-ja svake sedmice koristi 5% svjetskog stanovništva

Sam Altman bi uskoro mogao predstaviti uređaj koji će pomaknuti granice kao nekad iPhone