Googleov novi alat Whisk omogućuje učitavanje fotografije kako bi dobili kombiniranu sliku generiranu umjetnom inteligencijom. Pritom nije potrebno dati tekstualne upute.
Korisnici mogu unijeti slike koje prikazuju subjekte, okruženje i stil prije nego što Whisk kombinira sve u jednu sliku.
Moguće je 'remiksirati' konačnu sliku uređujući unose i miješajući kategorije kako bi dobili različite slike poput plišane igračke, emajlirane igle ili naljepnice. Na to je moguće dodati tekst za finije pojedinosti, ali nije nužno.
Whisk je zamišljen kao zabavna funkcija za nadahnuće na brzinu, ne za profinjeni profesionalni rad. Nastao je na generativnoj umjetnoj inteligenciji koju je razvio DeepMind, laboratorij koji je Google kupio 2014.
Koristi model Gemini u kombinaciji s Imagen 3, generatorom teksta u sliku koji je DeepMind objavio u decembru ove godine.
Kada korisnici učitaju svoje slike, Gemini generira naslov koji biva ubačen ubacuje u Imagen 3.
Proces bilježi 'bit' subjekta za razliku od tačne replike, što omogućuje remiksiranje konačne slike, ali također znači da krajnji proizvod može biti drukčiji od upita.
Na primjer, generirana slika može imati drugačiju visinu, frizuru ili boju kože od brzih slika, rekao je Google u postu na blogu.
Whisk je zasad dostupan kao web stranica na Google Labsu za korisnike u SAD. Još je u ranoj je fazi razvoja.
OpenAI je također nedavno izdao tekst-u-video generator pod nazivom Sora, naglašavajući konkurenciju potrošačkih proizvoda, piše CNN.