Image generation with Gemini just got a bananas upgrade and is the new state-of-the-art image generation and editing model. 🤯
From photorealistic masterpieces to mind-bending fantasy worlds, you can now natively produce, edit and refine visuals with new levels of reasoning,… pic.twitter.com/hYwA6l4QyY
— Google DeepMind (@GoogleDeepMind) August 26, 2025
Gemini 2.5 Flash Image è un modello avanzato di generazione e modifica d’immagini, lanciato oggi da Google DeepMind. Questo aggiornamento, si legge nel blog, consente di fondere più immagini in un’unica immagine, mantenere la coerenza dei personaggi per una narrazione ricca, apportare trasformazioni mirate utilizzando il linguaggio naturale e utilizzare la conoscenza del mondo di Gemini per generare e modificare immagini.
Questo modello è disponibile al momento tramite l’ API Gemini e Google AI Studio per sviluppatori e Vertex AI per aziende. Il prezzo di Gemini 2.5 Flash Image è di 30 dollari per 1 milione di token di output, con ogni immagine che equivale a 1290 token di output ($ 0,039 per immagine). Tutte le altre modalità di input e output seguono il prezzo di Gemini 2.5 Flash .
Fusione di più immagini in un’unica scena
Permette di unire immagini diverse in un solo output su un semplice comando testuale: si possono inserire oggetti in un ambiente, ristilizzare stanze con nuovi colori o texture, fondere soggetti con prompt unificati. In pratica puoi caricare più immagini per creare scene nuove, combinando persone, animali e ambienti diversi
Coerenza dei soggetti e fedeltà narrativa
Mantiene chiaramente la somiglianza dei soggetti attraverso revisioni iterative: i personaggi rimangono riconoscibili anche dopo più modifiche, risolvendo il problema delle alterazioni imperfette già note nei modelli precedenti. Che tu stia modificando foto di amici, familiari o animali domestici, Gemini assicura somiglianza fedele da un’immagine all’altra, anche con cambi di stile o scenari.
Cosa è l’editing multi-turn? Il modello modifica progressivamente parti specifiche di un’immagine, mantenendo intatto il resto. Consente trasformazioni precise su zone specifiche delle immagini con istruzioni come “cambia colore della maglietta”, “rimuovi una persona”, “sfoca lo sfondo”. Il modello reagisce con execution visiva accurata, senza compromettere il resto della scena.
Comprensione semantica e conoscenza del mondo.
Affonda le sue capacità nel sistema Gemini 2.5, sfruttando conoscenza contestuale e multilivello: può operare su diagrammi, annotazioni educative o scene complesse, non solo photorealismo visivo.
Benchmark e recezione
Il modello ha ottenuto punteggi di leader su LMArena con lo pseudonimo “nano‑banana”, dimostrando superiorità rispetto a GPT‑4o e altri sistemi di editing visivo Discussioni su Reddit ne lodano la qualità e realismo, pur evidenziando alcune debolezze nella trasferenza di stile.
Accesso e integrazioni
Questo modello è disponibile al momento tramite l’ API Gemini e Google AI Studio per sviluppatori e Vertex AI per aziende. Il prezzo di Gemini 2.5 Flash Image è di 30 dollari per 1 milione di token di output, con ogni immagine che equivale a 1290 token di output ($ 0,039 per immagine). Tutte le altre modalità di input e output seguono il prezzo di Gemini 2.5 Flash . Tutte le immagini portano una watermark invisibile SynthID, utile per trasparenza e tracciamento della fonte AI.
Applicazioni immediate
È ora integrato in Adobe Firefly e Adobe Express: consente creazione e modifica rapide di asset grafici, transizioni fluide tra Firefly e Express, versioni stilizzate coerenti, animazioni o resizing senza ricominciare da zero
Cosa lo distingue dai concorrenti (ChatGPT/GPT-4o, Midjourney, Copilot):
Almeno sulla carta. ChatGPT Image non raggiunge la coerenza di soggetti su iterazioni multiple né fusione multi‑immagine precisa.Midjourney eccelle nel risultato estetico, ma fatica a mantenere continuità narrativa o identità visiva nel tempo. Qui Gemini mantiene personaggi, stile, composizione nei passaggi successivi.
Per approfondire.
Aspettando ChatGpt 5 ecco Gemini 2.5 Deep Think il modello più potente di Google
Google lancia Gemini CLI, un agente AI open-source per sviluppatori #DatavizAndTools
In cinque punti cosa è Canvas Gemini
Come attivare Gemini “with personalization”?
Gemini 2.0 Flash Thinking è accessibile a tutti
Titan è il un modello di Ai di Google che ricorda come gli esseri umani
Le novità di Google: da Project Astra a Veo, in sei video
Gemini sbarca su iPhone. Ecco cosa cambia #DatavizAndTools
Gemini Live parla in italiano. I limiti e le potenzialità #DatavizAndTools
Gemini entra in Google Maps. Ecco cosa cambia e qualche altra novità
Le novità dell’Ai Gen arrivano su Google Maps
Arrivano le nuove mappe super-dettagliate di Google
Ecco come funziona l’immersive View di Google Maps che ora arriva a Firenze e Venezia
Meno soste ai semafori e più attenzioni ai consumi energetici. Le novità di Google Maps
Come funziona Veo, la nuova Ai generativa dedicata ai video?