Indica un intervallo di date:
  • Dal Al
tecnologia

Come funziona Lumiere l’Ai di Google che genera video dal testo #DatavizAndTools

Google Research insieme al Weizmann Institute of Science e all’Università di Tel Aviv, ha sviluppato un nuovo modello di intelligenza artificiale per la creazione di video a partire da foto e istruzioni testuali. Si chiama Lumiere, un chiaro omaggio ai fratelli francesi inventori della macchina da presa e del proiettore cinematografico. La novità di Lumiere IA, dal punto di vista tecnologico, è nella qualità con cui il software riesce a ricreare lo spostamento dei soggetti all’interno del filmato. Programmi come Stable Diffusion spesso mostrano imperfezioni dovute alla difficoltà di mantenere una certa coerenza nel rendere animate immagini statiche.


Il nuovo modello di generazione di video IA fa uso del diffusion model Space-Time-U-Net (STUNe), che come si evince dal nome risulta in grado di comprendere dove si trovano gli elementi nello “spazio”, potendoli dunque muovere con l’avanzare del video, il più possibile in modo realistico.

In pratica l’intelligenza artificiale promette di generare il video in un singolo processo, anziché dover lavorare sulle singole immagini fisse. Spesso i soggetti dei video generati con l’Ai sembrano deformarsi da un frame all’altro. Il motivo è che per produrre l’interno video devono generare dei video che stanno “in mezzo” a frame chiave di cui hanno l’immagine.  Spesso questi frame generati sono deformati e danno origini a immagini imprecise o “storte”. Google AI ha introdotto un’architettura chiamata Space-Time U-Net che genera l’intera durata temporale del video in un unico passaggio.

Si tratta quindi di un passo in avanti non di poco conto per il mondo IA, come si apprende anche dall’apposito paper pubblicato su arXiv.

Un esempio è quando inseriamo in Lumiere la foto di un peluche chiedendo al programma di farlo camminare da un punto A al punto B. Creando un’unica sequenza spazio-temporale, l’IA genera un filmato in cui ogni attività è strettamente legata l’un l’altra, con sintonia maggiore. Il modello video di Lumiere è stato addestrato su un set di dati di 30 milioni di video, insieme alle relative didascalie di testo.  Al momento non è un software aperto al pubblico ma solo un progetto sperimentale di ricerca.

Per approfondire.

Per approfondire.

Microsoft Copilot ora è su tutti gli smartphone. #DatavizAndTools 

Come funzionano Nightshade e Glaze? #DatavizAndTools

Fotoritocco, come funzionano Abobe Photoshop Elements e Premiere? #DatavizAndTools

Ecco come funziona Q il nuovo chatbot di AWS? #DatavizAndTools

Ecco come funziona Microsoft 365 Copilot, l’AI generativa entra nelle app di Office

Ecco come funziona GraphCast il nuovo modello per le previsioni meteorologiche globali di DeepMind

Cosa è e come funziona Code Interpreter per Gpt-4?

Come riconoscere immagini e testi generati dall’AI?

La matematica della ricchezza, la disuguaglianza inevitabile e l’econofisica

Wikipedia, l’intelligenza collettiva e gli affari #datavizandtool

Da Harry Potter mafioso agli ultimi videogiochi ripensati a 8 bit. L’Ai generativa continua a divertire #datavizandtools

Come si costruisce una mappa di Milano con ChatGpt? #datavizandtools

Come funziona MusicGen, il ChatGpt della musica di Meta #DatavizandTools

Bing, come funziona il copilota di Microsoft per il web? #DatavizAndTools

Le ultime novità “audio” dell’Ai generativa #DatavizAndTools

Gpt-4 vs Bard, cinque domande: chi risponde meglio? #howmeasuring

A proposito di mappe, cosa è Overture Maps Foundation? #DatavizAndTools

Ecco le nuove funzionalità di intelligenza artificiale generativa di Photoshop

Come funziona Image, il creatore di mappe di Eurostat?

Come si visualizzazione le serie storiche?