Indica un intervallo di date:
  • Dal Al
scienze

Partecipanti generati dall’AI per la scienza sociale: la comunità scientifica si spacca

Reclutare partecipanti è sempre stata una sfida cruciale per gli studi in scienze sociali e comportamentali. Questionari, esperimenti psicologici e sondaggi richiedono tempo, risorse e, spesso, una buona dose di fortuna per trovare soggetti disponibili e rappresentativi. È in questo contesto che l’intelligenza artificiale si propone come una soluzione innovativa: creare partecipanti virtuali, capaci di rispondere come esseri umani.
Questi tentativi anzitutto già esistono, e promettono di semplificare la ricerca, simulando risposte comportamentali e psicologiche senza dover reclutare fisicamente persone. Per molti ricercatori, l’idea è allettante, ed è proprio questo fascino a rendere urgente il dibattito metodologico e etico: prima che l’uso diventi diffuso, è fondamentale capire i rischi e le regole di buona pratica.

a , Psych-101 comprende dati di prova per prova provenienti da 160 esperimenti psicologici con 60.092 partecipanti che hanno effettuato 10.681.650 scelte in totale e hanno coinvolto 253.597.411 token di testo. Contiene domini come banditi multi-armati, processo decisionale, memoria, apprendimento supervisionato, processi decisionali di Markov e altri (gli esempi mostrati sono stati stilizzati e abbreviati per una migliore leggibilità). b , Centaur è un fondamento della cognizione umana modello che si ottiene aggiungendo adattatori di basso rango a un modello linguistico all’avanguardia e perfezionandolo su Psych-101.

È evidente che la comunità scientifica è spaccata su questo fronte, come emerge dalle letture contrastanti che emergono dai molti lavori che si stanno pubblicando in questi ultimi mesi.

a , Abbiamo utilizzato Psych-101 e Centaur per guidare lo sviluppo di un modello cognitivo per uno studio sul processo decisionale multi-attributo 41 . Ogni pannello mostra l’AIC per l’insieme di modelli considerati nella fase data, a partire dai modelli considerati nello studio originale. b , Abbiamo chiesto a DeepSeek-R1 di generare una spiegazione per le risposte umane e formalizzato la strategia verbale risultante in un modello computazionale formale. c , Abbiamo perfezionato questo modello attraverso la minimizzazione scientifica del rimpianto utilizzando Centaur come modello di riferimento. Sono mostrati sei punti dati per i quali Centaur fa previsioni accurate, ma il modello scoperto da DeepSeek-R1 non lo fa. Abbiamo quindi utilizzato queste informazioni per progettare un modello cognitivo specifico per dominio che sia predittivo quanto Centaur ma sia comunque interpretabile. Le immagini di biciclette in a sono riprodotte da Flaticon.com .

A luglio Nature ha pubblicato i risultati di Centaur, un modello sviluppato per predire comportamenti in esperimenti esprimibili in linguaggio naturale. Centaur è stato derivato addestrando un modello linguistico all’avanguardia su un dataset di grande scala chiamato Psych-101, che include dati dettagliati di oltre 60.000 partecipanti e più di 10 milioni di scelte in 160 esperimenti. Centaur non solo cattura meglio il comportamento dei partecipanti “tenuti fuori” rispetto ai modelli cognitivi esistenti, ma generalizza anche a contesti nuovi, modifiche strutturali dei task e domini completamente diversi. Inoltre, le rappresentazioni interne del modello diventano più allineate con l’attività neurale umana dopo il fine-tuning. Questo dimostra che è possibile costruire modelli computazionali in grado di simulare il comportamento umano in modo più coerente e fedele rispetto ai tradizionali campioni virtuali.

Non tutti gli studi condividono questo ottimismo. Una recente ricerca apparsa solo in preprint ad agosto 2025, ha esaminato l’affidabilità dei LLM, inclusi modelli avanzati come Centaur, nel simulare risposte psicologiche umane. Gli autori mettono in guardia contro l’uso di LLM come sostituti dei partecipanti reali: anche leggere variazioni nel linguaggio, che modificano il significato delle domande, producono discrepanze significative tra risposte umane e risposte dei modelli.
Inoltre, diversi modelli LLM rispondono in modo molto diverso a nuovi stimoli, evidenziando una mancanza di affidabilità generale. La conclusione dello studio è chiara: i LLM non simulano la psicologia umana in modo attendibile e vanno considerati strumenti utili ma fondamentalmente inaffidabili, da validare sempre confrontandoli con risposte di partecipanti reali per ogni nuova applicazione.
Questo punto sottolinea un limite importante dei campioni virtuali e dei modelli computazionali: anche se Centaur e simili possono fornire risultati impressionanti su dataset già noti, la loro generalizzabilità e affidabilità in contesti realmente nuovi rimane incerta.

Le stesse cautele sono emerse da nuovo studio pubblicato in preprint su arXiv  a settembre 2025 e ripreso nientemeno che su Science. L’autore è Jamie Cummins, scienziato dell’Università di Berna, che ha analizzato quanto le scelte dei ricercatori — dal modello linguistico di grande dimensione (LLM) utilizzato, alle impostazioni, ai dati demografici forniti al modello — possano influenzare i risultati. Lo studio sottolinea un punto fondamentale: non esiste una “combinazione perfetta” di parametri che produca risultati affidabili e coerenti con i dati umani.
Per testare l’effetto delle scelte dei ricercatori, Cummins ha variato diversi elementi e le possibili combinazioni sono arrivate a 252 configurazioni differenti, ognuna delle quali poteva produrre risultati diversi.
I risultati ottenuti dai modelli sono stati confrontati con quelli reali dei partecipanti umani, valutando la somiglianza delle distribuzioni dei punteggi, la capacità dei modelli di identificare i partecipanti con i punteggi più alti e la coerenza delle correlazioni tra le due misure psicologiche. L’esito è stato chiaro: le variabili metodologiche producono una variabilità ampissima. Alcune configurazioni riproducevano meglio le classifiche dei partecipanti, altre la correlazione tra le misure psicologiche, ma nessuna combinazione funzionava in modo affidabile su tutti i fronti. Due ricercatori, usando scelte entrambe metodologicamente difendibili, potrebbero ottenere risultati opposti e trarre conclusioni divergenti.

Rischi scientifici ed etici

Affidarsi ai modelli per simulare risposte di gruppi vulnerabili — anziani, minoranze, persone residenti in Paesi lontani dai contesti occidentali più rappresentati nei dati di training — può produrre risultati fuorvianti o addirittura dannosi, spiega Cummings. Questi gruppi sono spesso sottorappresentati nei dati di addestramento dei modelli, e affidarsi a simulazioni può rischiare di escluderli ulteriormente, compromettendo la rappresentatività e la fiducia nella scienza.
Anche sul piano scientifico, il rischio è che l’uso dei campioni virtuali dia l’illusione di rigore e affidabilità. Alcuni studi potrebbero basarsi esclusivamente su dati generati dall’IA senza verificare la coerenza con risposte umane reali, con conseguenze potenzialmente gravi per la replicabilità e la validità dei risultati.

Opportunità, limiti e possibili applicazioni

Nonostante i rischi, questo approccio ha comunque un potenziale significativo per test preliminari, simulazioni esplorative, o per ottimizzare questionari prima di coinvolgere partecipanti reali. La chiave sta nella consapevolezza metodologica: comprendere quanto ogni scelta — modello, prompt, impostazioni — possa influenzare i risultati.
Il dibattito è appena iniziato. La comunità scientifica non ha ancora definito linee guida etiche o metodologiche sull’uso dei campioni virtuali né discusso a fondo le situazioni in cui il loro impiego sia appropriato. La ricerca invita a riflettere non solo sulla validità dei dati, ma anche sulle implicazioni sociali ed etiche, prima che la tecnologia venga adottata su larga scala.

Per approfondire. 

Come sarà il Centro europeo di ricerca sull’intelligenza artificiale? Il manifesto di studiosi ed esperti.

L’intelligenza artificiale può aiutare la ricerca scientifica? Forse anche troppo

Immagina di poter osservare, in tempo reale e con una precisione mai raggiunta prima, come il tuo sistema immunitario reagisce a un virus