Gemini Robotics-ER 1.5: l’intelligenza che insegna ai robot a imparare. In cinque punti e quattro video

Google DeepMind ha presentato Gemini Robotics-ER 1.5, l’evoluzione dei modelli Gemini applicati alla robotica. L’obiettivo è ambizioso: creare una piattaforma in cui i robot possano apprendere compiti complessi nel mondo reale combinando linguaggio, visione e azione. È un passo verso la “generalizzazione fisica” dell’intelligenza artificiale — un’AI che non solo parla o scrive, ma agisce e comprende il contesto fisico in cui si trova.

Dai modelli linguistici ai modelli d’azione

Gemini Robotics-ER nasce come estensione dei modelli linguistici multimodali (LLM) della serie Gemini. Qui però il linguaggio serve come interfaccia per l’azione: i robot interpretano comandi in linguaggio naturale (“prendi la tazza blu”, “riordina la scrivania”) traducendoli in sequenze motorie precise. In pratica, Gemini non solo “capisce” il testo, ma lo trasforma in movimento.

Un addestramento in simulazione e nel mondo reale

Il modello ER (Embodied Robotics) si addestra con una combinazione di dati simulati e reali. Nelle simulazioni, i robot imparano in ambienti digitali accelerati; poi, nel mondo fisico, affinano le strategie con feedback sensoriali reali — visione, tatto, forza. Questo approccio riduce i costi e i rischi tipici dell’addestramento fisico puro.

Comprensione visiva e ragionamento spaziale

Grazie alle capacità multimodali dei modelli Gemini 1.5, il sistema integra immagini, testo e azioni. I robot non si limitano a riconoscere oggetti, ma comprendono relazioni spaziali (“la tazza è dietro il libro”) e contesti (“questo è un tavolo da lavoro, non un piano di appoggio casuale”). In prospettiva, questa comprensione spaziale è cruciale per la robotica domestica e industriale.

Una piattaforma aperta per sviluppatori

La documentazione per sviluppatori di Google introduce un’API unificata per collegare i modelli Gemini alle piattaforme robotiche. I programmatori possono descrivere i compiti in linguaggio naturale e ricevere in output policy d’azione da eseguire sul robot. È un modo per democratizzare l’accesso all’intelligenza embodied, trasformando il robot in un collaboratore programmabile a parole.

Verso la convergenza tra linguaggio e fisicità

Gemini Robotics-ER 1.5 segna una transizione: dall’AI che “ragiona in testo” all’AI che “ragiona nel mondo”. DeepMind lo descrive come un ponte tra la cognizione simbolica e l’interazione sensoriale. È una visione di lungo periodo in cui il linguaggio naturale diventa il protocollo universale per comunicare con le macchine.

Per approfondire.

Gemini 2.5 Flash Image: cosa cambia, come funziona e cosa lo distingue dagli altri modelli

Aspettando ChatGpt 5 ecco Gemini 2.5 Deep Think il modello più potente di Google

Google lancia Gemini CLI, un agente AI open-source per sviluppatori #DatavizAndTools

In cinque punti cosa è Canvas Gemini

Come attivare Gemini “with personalization”?

Gemini 2.0 Flash Thinking è accessibile a tutti

Titan è il un modello di Ai di Google che ricorda come gli esseri umani

Gemini 2.0, Project Mariner e Deep Research: Google è entrata nell’era degli Ai Agent #DatavizAndTools

Le novità di Google: da Project Astra a Veo, in sei video

Gemini sbarca su iPhone. Ecco cosa cambia #DatavizAndTools

Gemini Live parla in italiano. I limiti e le potenzialità #DatavizAndTools