Google DeepMind ha presentato Gemini Robotics-ER 1.5, l’evoluzione dei modelli Gemini applicati alla robotica. L’obiettivo è ambizioso: creare una piattaforma in cui i robot possano apprendere compiti complessi nel mondo reale combinando linguaggio, visione e azione. È un passo verso la “generalizzazione fisica” dell’intelligenza artificiale — un’AI che non solo parla o scrive, ma agisce e comprende il contesto fisico in cui si trova.
Dai modelli linguistici ai modelli d’azione
Gemini Robotics-ER nasce come estensione dei modelli linguistici multimodali (LLM) della serie Gemini. Qui però il linguaggio serve come interfaccia per l’azione: i robot interpretano comandi in linguaggio naturale (“prendi la tazza blu”, “riordina la scrivania”) traducendoli in sequenze motorie precise. In pratica, Gemini non solo “capisce” il testo, ma lo trasforma in movimento.
Un addestramento in simulazione e nel mondo reale
Il modello ER (Embodied Robotics) si addestra con una combinazione di dati simulati e reali. Nelle simulazioni, i robot imparano in ambienti digitali accelerati; poi, nel mondo fisico, affinano le strategie con feedback sensoriali reali — visione, tatto, forza. Questo approccio riduce i costi e i rischi tipici dell’addestramento fisico puro.
Comprensione visiva e ragionamento spaziale
Grazie alle capacità multimodali dei modelli Gemini 1.5, il sistema integra immagini, testo e azioni. I robot non si limitano a riconoscere oggetti, ma comprendono relazioni spaziali (“la tazza è dietro il libro”) e contesti (“questo è un tavolo da lavoro, non un piano di appoggio casuale”). In prospettiva, questa comprensione spaziale è cruciale per la robotica domestica e industriale.
Una piattaforma aperta per sviluppatori
La documentazione per sviluppatori di Google introduce un’API unificata per collegare i modelli Gemini alle piattaforme robotiche. I programmatori possono descrivere i compiti in linguaggio naturale e ricevere in output policy d’azione da eseguire sul robot. È un modo per democratizzare l’accesso all’intelligenza embodied, trasformando il robot in un collaboratore programmabile a parole.
Verso la convergenza tra linguaggio e fisicità
Gemini Robotics-ER 1.5 segna una transizione: dall’AI che “ragiona in testo” all’AI che “ragiona nel mondo”. DeepMind lo descrive come un ponte tra la cognizione simbolica e l’interazione sensoriale. È una visione di lungo periodo in cui il linguaggio naturale diventa il protocollo universale per comunicare con le macchine.
Per approfondire.
Gemini 2.5 Flash Image: cosa cambia, come funziona e cosa lo distingue dagli altri modelli
Aspettando ChatGpt 5 ecco Gemini 2.5 Deep Think il modello più potente di Google
Google lancia Gemini CLI, un agente AI open-source per sviluppatori #DatavizAndTools
In cinque punti cosa è Canvas Gemini
Come attivare Gemini “with personalization”?
Gemini 2.0 Flash Thinking è accessibile a tutti
Titan è il un modello di Ai di Google che ricorda come gli esseri umani
Le novità di Google: da Project Astra a Veo, in sei video
Gemini sbarca su iPhone. Ecco cosa cambia #DatavizAndTools
Gemini Live parla in italiano. I limiti e le potenzialità #DatavizAndTools
Gemini entra in Google Maps. Ecco cosa cambia e qualche altra novità
Le novità dell’Ai Gen arrivano su Google Maps
Arrivano le nuove mappe super-dettagliate di Google
Ecco come funziona l’immersive View di Google Maps che ora arriva a Firenze e Venezia
Meno soste ai semafori e più attenzioni ai consumi energetici. Le novità di Google Maps
Come funziona Veo, la nuova Ai generativa dedicata ai video?