Come funziona Gemini Omni? La nostra prova in cinque video

La vera forza di Gemini Omni risiede nell’integrazione nativa dei modelli (testo, video, audio, fisica del mondo) e, soprattutto, nella sua capacità di eseguire editing video multimodale e incrementale.

A differenza dei modelli precedenti (come Veo), Omni non richiede che tu descriva ogni singolo fotogramma in modo prescrittivo. Al contrario, si affida alla sua comprensione del mondo e permette di modificare video esistenti o generazioni precedenti tramite step successivi (“conversational video editing”), mantenendo la coerenza temporale. Eccelle inoltre nella gestione della fisica complessa (fluidodinamica, gravità, interazioni dei materiali) e nell’integrazione di testo e audio nativo e sincronizzato.

Per metterlo davvero alla prova e testarne i limiti, ti suggerisco una serie di prompt divisi per tipologia di test.

Coerenza e modifiche.

Una delle funzioni più interessanti è quella di modificare un contenuto esistente (o una clip appena generata) senza dover riscrivere tutto il prompt da zero.

Sopra il prompt era:

Qui la modifica: “Mantieni tutto esattamente identico (stesso signore, stessa luce, stesso movimento), ma aggiungi un effetto scia luminoso e animato in stile neon viola che esce dalle ruote dello skateboard durante il salto. Non alterare lo sfondo.”

Fisica e materiali.

Google Omni vanta un motore fisico notevolmente migliorato rispetto al passato. In questo video vediamo come il modello “capisce” come reagiscono i materiali. Questo il prompt: “Un video esplicativo educativo in stile stop-motion con oggetti fatti interamente di argilla e pongo. Mostra la simulazione del ripiegamento di una proteina (protein folding) che si muove in modo fluido ma scattante su un tavolo scuro, senza mani umane visibili. Movimenti fisici accurati e stile plastilina tattile.”

Orientamento della telecamera e materia. Una delle demo più sottolineate da DeepMind mostra la trasformazione della materia quando tocca una superficie. Puoi testarlo con video reali girati da te o su clip generate. Questo il prompt: “Quando la persona tocca lo specchio con la mano, fai in modo che la superficie del vetro si increspi magnificamente come se fosse liquido, e il braccio della persona si trasformi progressivamente in un materiale metallico riflettente. Mantieni il resto della stanza stabile.”

Qui sotto una variazione sul tema

Integrazione audio e testo.: Usa questo logo e poi parola per parola, una parola sullo schermo alla volta: Info Data, ogni giorno, dati, notizie e Ai . Ogni parola appare con uno stile di animazione diverso, ritmo perfetto, sizzle reel.

Qui sotto lo stesso video ma sincronizzato a tempo di rock

E infine, scienza, divulgazione e apprendimento. Google sta spingendo moltissimo per rendere la sua Ai uno strumento per le scuole. Ecco come se la cava negli “spiegoni”. Il prompt? Spiega la differenza tra informatica tradizionale e informatica quantistica. Visualizza questa frase utilizzando uno stile flat-media contemporaneo che fonde forme vettoriali minimaliste con ricche texture organiche. L’estetica è definita da una palette di colori “elettrica” ad alto contrasto, con rosa neon, ciano e verde lime su uno sfondo blu scuro. Un segno distintivo di questo stile è l’uso di ombreggiature a puntini e gradienti granulosi, che aggiungono una qualità tattile, simile alla risografia, alle forme geometriche altrimenti semplici. Combinando bordi netti con queste transizioni ammorbidite e punteggiate, l’illustrazione acquisisce un’atmosfera giocosa e editoriale.