Google Imagen - Humankey Digital Agency

Google Imagen

Il progetto Imagen di Google per generare foto composite interpretando le richieste vocali.
Google Imagen
Condividi:
Condividi:

Indice

L' IA che crea immagini basate sul testo

Quante volte sarà capitato a ciascuno di noi, almeno da quando è nato Google, di fantasticare sulle innumerevoli possibilità che il motore di ricerca avrebbe potuto offrire agli utenti.

Sicuramente vi sarà capitato di riflettere e di porvi le seguenti domande: “come si fa la ricerca per immagini di Google” o "come funziona Google Immagini?".

Oggi sono sotto gli occhi di tutti gli enormi passi avanti che si sono fatti nell’ambito del machine learning, dei linguaggi e degli algoritmi informatici, per non parlare di quelli fatti nel campo della IA, cioè della cosiddetta Intelligenza Artificiale.

Ed è sulla base di questi enormi passi avanti fatti nel campo dei Big Data che oggi possiamo finalmente chiederci: "è possibile fare ricerche su Google partendo dalle foto?"

Sì, oggi è possibile!

Come funziona Imagen?

Da qualche settimana sta rimbalzando sul web la notizia che Google starebbe sviluppando un progetto ancora in fase di testing chiuso, cioè solamente riservato agli addetti ai lavori del Team Google. 

Questo progetto si chiama, appunto, Imagen.

Da quanto si apprende attualmente, Imagen sarà un generatore di immagini che interpretano il testo e il linguaggio.

Come è riportato sul blog ufficiale del Team Google che sta lavorando su Imagen esso consiste precisamente in: "un modello di diffusione da testo a immagine con un grado di fotorealismo senza precedenti e un profondo livello di comprensione del linguaggio. Imagen si basa sulla potenza dei modelli di linguaggio di trasformazione di grandi dimensioni nella comprensione del testo e si basa sulla forza dei modelli di diffusione nella generazione di immagini ad alta fedeltà".

Detto in altri termini, Imagen parte da un algoritmo che sfrutta il machine learning integrandolo con l’Intelligenza Artificiale per comprendere un indicazione scritta e trasformarla in un imput al sistema. 

Per ottenere questo obiettivo di ricerca immagini di Google, Imagen attinge ad uno sconfinato database, che contiene una miriade di immagini e foto di oggetti, cose, persone e animali, e crea un collage di questi elementi – per mezzo di fotoritocco – fornendo un risultato altamente fotorealistico, partendo dagli intenti di ricerca e dagli inserimenti di descrizioni didascaliche da parte degli utenti.  

Imagen nasce in risposta e in concorrenza con un’altra piattaforma similare, DALL-E 2, che è in grado di generare immagini a partire da descrizioni didascaliche. Infatti, sono gli stessi sviluppatori ad affermare questo intento:

"Per valutare i modelli da testo a immagine in modo più approfondito, introduciamo DrawBench, un benchmark completo e stimolante per i modelli da testo a immagine. Con DrawBench, confrontiamo Imagen con metodi recenti, tra cui VQ-GAN+CLIP, Latent Diffusion Models e DALL-E 2 e scopriamo che i valutatori umani preferiscono Imagen rispetto ad altri modelli nei confronti affiancati, sia in termini di qualità del campione e allineamento immagine-testo".

Quindi, da quanto è dato apprendere i risultati finora sono davvero promettenti e Imagen sta dimostrando di essere superiore sia a DALL-E 2 che ad altre piattaforme competitors di Google. 

I risultati e i collage di immagini ottenute grazie a questo algoritmo sono stati sorprendenti e a volte davvero surreali.

Alcuni esempi

Come non rimanere impressionati e ingolositi di fronte all’immagine di una tazza a forma di fragola riempita di semi di sesamo che galleggia in un mare di cioccolato fuso. 

Oppure: come non rimanere estraniati dall’immagine paradossale di un polipo alieno con in mano un quotidiano che entra all'interno di un portale spaziale oppure da quella di un cervello che cavalca un razzo spaziale verso la Luna.

O ancora: che dire dell’immagine di un gigantesco cobra di mais all’interno di un campo di grano o di quella di un astronauta procione che osserva la città di notte. 

Immagini assurde, paradossali, a volte esilaranti, altre volte estranianti che dimostrano le potenzialità letteralmente infinite di Imagen. 

Purtroppo, questa funzione non sarà resa disponibile al pubblico nel breve periodo perché rischia di generare contenuti potenzialmente offensivi soprattutto contro le minoranze etniche, razziali e religiose e potrebbe diventare uno strumento utile a chi veicola fake news e alimenta teorie del complotto soprattutto in Rete e sui social network.  

Come spiega Google, è possibile che in futuro l’IA venga calibrata in modo da poter essere utilizzata da tutti senza restrizioni.

Arrivati a questo punto non ci resta che rimanere in attesa delle prossime mosse di Google sul progetto Imagen e sperare che questa funzione – di sicuro appeal per artisti digitali e content creators che spopolano sui social media e sempre alla ricerca di nuovi spunti creativi – possa essere alla portata di tutti al più presto possibile.

Potrebbe interessarti:
app e privacy

App e privacy: quali rischi corriamo?

Facebook e instagram illegali

Facebook e Instagram: rischio chiusura?

matomo

Passaggio a GA4. Non perdere i dati storici: usa Matomo!

Iubenda

Guida all’implementazione di Iubenda per Matomo

cookiebot

Guida all’implementazione di Cookiebot per Matomo