Ne abbiamo parlato spesso: le grandi aziende tech hanno il potere di annunciare i propri prodotti come cambi di paradigma quando ancora sono in una fase embrionale, magari con risultati ancora pubblicati in pre-print, ossia non sottoposti a revisione da parte della comunità scientifica.
Pare che l’ultimo annuncio di Meta FAIR (che sta per Fundamental AI Research, il laboratorio di ricerca fondamentale sull’intelligenza artificiale di Meta) che riguarda TRIBE v2, un’infrastruttura di encoding, vada in questa direzione. Un modello notevole, un’infrastruttura computazionale sofisticatissima per fare neuroscienza a scala, ma che ancora non è in grado né di “leggere nella mente” né di codificare quella che usiamo chiamare coscienza.
Al momento esiste un paper autopubblicato liberamente accessibile per intero, e il modello è stato rilasciato con licenza CC BY-NC, il codice sorgente, l’articolo e una demo interattiva per aiutare i ricercatori a spingere i confini delle neuroscienze, applicare le conoscenze sul cervello per costruire sistemi di intelligenza artificiale migliori e utilizzare la simulazione computazionale per accelerare le scoperte nel trattamento dei disturbi neurologici.
Come è stato addestrato e come funziona
Fatti i dovuti disclaimer, resta il fatto che TRIBE v2 potrebbe rappresentare l’inizio di un nuovo paradigma per la neurologia in silico, come Alphafold lo è stato per l’analisi delle proteine (e non ha caso ha vinto il premio Nobel per la chimica). Studiare come il cervello umano reagisce a uno specifico stimolo — un’immagine, una frase pronunciata, una scena di film — richiede uno scanner da risonanza magnetica funzionale, soggetti umani disponibili, e la necessità di tenere conto del rumore fisiologico prodotto da battiti cardiaci, movimenti involontari, movimenti oculari. Ogni sessione sperimentale è costosa, lenta, e impone limitazioni al numero e alla varietà degli stimoli che è possibile esplorare. Qui l’idea è arrivare a risultati migliori senza coinvolgere persone reali.
L’infrastruttura TRIBE v2 è stata addestrata su un corpus di notevoli dimensioni: oltre 1.100 ore di risonanza magnetica funzionale — la tecnica di neuroimaging non invasiva che mappa l’attività cerebrale rilevando variazioni nel flusso sanguigno — raccolte su 720 soggetti in otto dataset distinti. A questi volontari sani è stato somministrato un campionario eterogeneo di stimoli del mondo reale: podcast, film, video muti e testo scritto. Il dato rilevante non è solo la quantità, ma la varietà: la copertura multimodale è la precondizione per costruire un predittore generalizzabile.
L’architettura del sistema è trimodale, come suggerisce il nome. Quando si fornisce in input un contenuto mediale, il modello mobilita encoder specializzati per ciascuna modalità — LLaMA 3.2 per il testo, V-JEPA2 per il video — che traducono immagini, suoni e linguaggio in rappresentazioni matematiche. Un transformer temporale integra poi queste rappresentazioni in modo da catturare come gli stimoli complessi si dispiegano nel tempo, in maniera analoga a come un grande modello linguistico comprende il contesto di un paragrafo. Il risultato viene infine mappato su 70.000 voxel, i “pixel tridimensionali” con cui si traccia l’attività neurale attraverso la corteccia cerebrale.
La copertura anatomica è uno degli elementi che distingue TRIBE v2 dai predecessori. La previsione avviene sia sulla superficie corticale con 20.484 vertici, sia su 8.802 voxel distribuiti in otto regioni subcorticali. Studi precedenti avevano affrontato lo stesso problema ma limitandosi a porzioni del cervello, producendo mappe più grossolane. Avere un modello capace di analizzare potenzialmente tutte le aree cerebrali in modo integrato rappresenta il salto qualitativo del progetto.
Il sistema ha inoltre dimostrato capacità di previsione zero-shot: può generare predizioni per nuovi soggetti, nuove lingue e nuovi compiti senza necessitare di riaddestramenti specifici, superando costantemente gli approcci di modellazione standard. Proprio questa caratteristica lo rende candidato plausibile a un uso sistematico nella ricerca.
Il vero cambiamento: la neuroscienza in silico
La frontiera più rilevante che TRIBE v2 contribuisce ad aprire non è la predizione in sé, ma ciò che la predizione abilita: testare ipotesi sul funzionamento cerebrale senza portare ogni volta persone dentro una macchina per la risonanza magnetica funzionale. In un’infrastruttura in bilico le ipotesi meno promettenti vengono scartate prima di consumare risorse sperimentali preziose. Quelle più solide arrivano in laboratorio già raffinate, con una base computazionale che ne aumenta la probabilità di tradursi in risultati significativi.
Che questa direzione di ricerca fosse già matura lo dimostra un lavoro pubblicato nel giugno 2025 su Nature da un team di scienziati berlinesi. In quel paper i ricercatori hanno sviluppato un metodo chiamato Relational Neural Control e lo hanno applicato per investigare come diverse aree della corteccia visiva umana codificano e condividono le rappresentazioni visive. Il metodo ha generato risposte fMRI in silico per la stessa sequenza di immagini su tutti i partecipanti — espandendo da circa diecimila a settantatremila le immagini per cui erano disponibili risposte cerebrali per partecipante — e ha poi identificato immagini capaci di allineare o separare le risposte di aree diverse.
TRIBE v2 va in questa direzione ma con un grado molto maggiore di complessità.
Le applicazioni possibili
Possiamo pensare a tre direzioni di utilizzo principali per TRIBE v2. La prima riguarda la comprensione del cervello umano: avere un gemello digitale dell’attività neurale permette di esplorare ipotesi su come il cervello elabora il linguaggio, le immagini e i suoni in modo integrato, con una velocità e un volume di esperimenti impossibili in vivo. La seconda è speculare: utilizzare le conoscenze sul cervello per costruire sistemi di intelligenza artificiale migliori. La terza riguarda le applicazioni cliniche, in particolare l’accelerazione delle scoperte nel trattamento dei disturbi neurologici attraverso la simulazione computazionale.
Su quest’ultimo punto è opportuna una certa cautela. La distanza tra la capacità di predire l’attività di un cervello sano in risposta a stimoli multimediali e la comprensione delle basi neurali di condizioni patologiche complesse rimane molto ampia. TRIBE v2 è uno strumento potente per la ricerca di base; le sue ricadute cliniche dipenderanno da un percorso di validazione lungo, che inizia esattamente dalle fasi di sperimentazione in silico che il modello contribuisce a rendere più efficienti.
Per approfondire
Cosa è AlphaFold e perché è importante per lo sviluppo dell’intelligenza artificiale
La sfida cinese ad Alphafold si chiama BioMap
Con l’Intelligenza Artificiale proteine anti E. coli in pochi secondi
Cosa è AlphaFold e perché è importante per lo sviluppo dell’intelligenza artificiale
Quanto sono efficaci le molecole scoperte con l’intelligenza artificiali nei trial clinici?
Prevedere con l’Ai come un virus evolverà semplicemente guardando alla sua sequenza genetica