Indica un intervallo di date:
  • Dal Al
tecnologia

Gemini 2.5 Flash Image: cosa cambia, come funziona e cosa lo distingue dagli altri modelli

Image generation with Gemini just got a bananas upgrade and is the new state-of-the-art image generation and editing model. 🤯

Gemini 2.5 Flash Image è un modello avanzato di generazione e modifica d’immagini, lanciato oggi da Google DeepMind. Questo aggiornamento, si legge nel blog, consente di fondere più immagini in un’unica immagine, mantenere la coerenza dei personaggi per una narrazione ricca, apportare trasformazioni mirate utilizzando il linguaggio naturale e utilizzare la conoscenza del mondo di Gemini per generare e modificare immagini.

Questo modello è disponibile al momento tramite l’ API Gemini e Google AI Studio per sviluppatori e Vertex AI per aziende. Il prezzo di Gemini 2.5 Flash Image è di  30 dollari per 1 milione di token di output, con ogni immagine che equivale a 1290 token di output ($ 0,039 per immagine). Tutte le altre modalità di input e output seguono il prezzo di Gemini 2.5 Flash .

Fusione di più immagini in un’unica scena
Permette di unire immagini diverse in un solo output su un semplice comando testuale: si possono inserire oggetti in un ambiente, ristilizzare stanze con nuovi colori o texture, fondere soggetti con prompt unificati. In pratica puoi caricare più immagini per creare scene nuove, combinando persone, animali e ambienti diversi

Coerenza dei soggetti e fedeltà narrativa
Mantiene chiaramente la somiglianza dei soggetti attraverso revisioni iterative: i personaggi rimangono riconoscibili anche dopo più modifiche, risolvendo il problema delle alterazioni imperfette già note nei modelli precedenti. Che tu stia modificando foto di amici, familiari o animali domestici, Gemini assicura somiglianza fedele da un’immagine all’altra, anche con cambi di stile o scenari.

Cosa è l’editing multi-turn? Il modello modifica progressivamente parti specifiche di un’immagine, mantenendo intatto il resto.  Consente trasformazioni precise su zone specifiche delle immagini con istruzioni come “cambia colore della maglietta”, “rimuovi una persona”, “sfoca lo sfondo”. Il modello reagisce con execution visiva accurata, senza compromettere il resto della scena.

Comprensione semantica e conoscenza del mondo.
Affonda le sue capacità nel sistema Gemini 2.5, sfruttando conoscenza contestuale e multilivello: può operare su diagrammi, annotazioni educative o scene complesse, non solo photorealismo visivo. 

Benchmark e recezione
Il modello ha ottenuto punteggi di leader su LMArena con lo pseudonimo “nano‑banana”, dimostrando superiorità rispetto a GPT‑4o e altri sistemi di editing visivo Discussioni su Reddit ne lodano la qualità e realismo, pur evidenziando alcune debolezze nella trasferenza di stile.

Accesso e integrazioni

Questo modello è disponibile al momento tramite l’ API Gemini e Google AI Studio per sviluppatori e Vertex AI per aziende. Il prezzo di Gemini 2.5 Flash Image è di  30 dollari per 1 milione di token di output, con ogni immagine che equivale a 1290 token di output ($ 0,039 per immagine). Tutte le altre modalità di input e output seguono il prezzo di Gemini 2.5 Flash . Tutte le immagini portano una watermark invisibile SynthID, utile per trasparenza e tracciamento della fonte AI.

Applicazioni immediate
È ora integrato in Adobe Firefly e Adobe Express: consente creazione e modifica rapide di asset grafici, transizioni fluide tra Firefly e Express, versioni stilizzate coerenti, animazioni o resizing senza ricominciare da zero

Cosa lo distingue dai concorrenti (ChatGPT/GPT-4o, Midjourney, Copilot):
Almeno sulla carta.  ChatGPT Image non raggiunge la coerenza di soggetti su iterazioni multiple né fusione multi‑immagine precisa.Midjourney eccelle nel risultato estetico, ma fatica a mantenere continuità narrativa o identità visiva nel tempo. Qui Gemini mantiene personaggi, stile, composizione nei passaggi successivi.

Per approfondire. 

Aspettando ChatGpt 5 ecco Gemini 2.5 Deep Think il modello più potente di Google

Google lancia Gemini CLI, un agente AI open-source per sviluppatori #DatavizAndTools

In cinque punti cosa è Canvas Gemini

Come attivare Gemini “with personalization”?

Gemini 2.0 Flash Thinking è accessibile a tutti

Titan è il un modello di Ai di Google che ricorda come gli esseri umani

Gemini 2.0, Project Mariner e Deep Research: Google è entrata nell’era degli Ai Agent #DatavizAndTools

Le novità di Google: da Project Astra a Veo, in sei video

Gemini sbarca su iPhone. Ecco cosa cambia #DatavizAndTools

Gemini Live parla in italiano. I limiti e le potenzialità #DatavizAndTools

Gemini entra in Google Maps. Ecco cosa cambia e qualche altra novità

Le novità dell’Ai Gen arrivano su Google Maps

Arrivano le nuove mappe super-dettagliate di Google

Ecco come funziona l’immersive View di Google Maps che ora arriva a Firenze e Venezia

Meno soste ai semafori e più attenzioni ai consumi energetici. Le novità di Google Maps

Come funziona Veo, la nuova Ai generativa dedicata ai video?

Gemini: come funziona Deep Research? #DatavizAndTools