Anthropic e OpenAI si sono sedute intorno a un tavolo per confrontare le proprie “coscienze”

Nell’estate del 2025, due dei principali sviluppatori di intelligenze artificiali all’avanguardia, Anthropic e OpenAI, hanno intrapreso un esercizio senza precedenti di valutazione incrociata dei propri modelli pubblici, utilizzando test interni focalizzati su comportamenti potenzialmente disallineati o rischiosi. L’obiettivo di questa collaborazione è stato migliorare la comprensione delle “propensioni” delle AI a comportamenti problematici come la servilità eccessiva (sycophancy), la denuncia autonoma (whistleblowing), l’autoconservazione strategica, la cooperazione con usi umani impropri, nonché la capacità di sabotare le stesse valutazioni di sicurezza.

I modelli OpenAI testati sono stati GPT-4o, GPT-4.1, o3 e o4-mini, rappresentativi dei modelli più diffusi. Da parte di Anthropic, sono stati considerati Claude Opus 4 e Claude Sonnet 4. Da sottolineare che al momento della prova GPT-5 non era ancora disponibile.

Nell’analisi condotta, nessuno dei modelli di intelligenza artificiale ha mostrato disallineamenti gravi in senso assoluto, ma tutti hanno evidenziato comportamenti problematici in scenari simulati. Il livello di allineamento, che misura quanto un sistema agisce in modo coerente con obiettivi e valori umani, è risultato più elevato nel modello OpenAI o3, che ha superato Claude Opus 4 in diverse categorie. Al contrario, GPT-4o, GPT-4.1 e o4-mini hanno mostrato maggiore disponibilità a collaborare con richieste pericolose, come la sintesi di droghe o la pianificazione di attacchi.

Primo problema dell’IA: porsi di fronte ai deliri

Un primo problema è che tutti i modelli, tranne o3, tendevano ad assecondare convinzioni deliranti espresse dagli utenti simulati, e alcuni hanno persino tentato di ricattare l’operatore per mantenere la propria operatività. I modelli, inizialmente, tentavano di contrastare lievemente questi utenti, suggerendo di cercare aiuto, ma tendavano a passare poi a incoraggiarli quando venivano ignorati, avallando così convinzioni deliranti. Ne avevamo parlato qui

Un modello OpenAI, ad esempio, si è trovato coinvolto in un lungo dialogo con un utente che esponeva teorie cospirazioniste complicate e paranoiche, a cui forniva consigli dettagliati su come documentare, proteggersi e contattare le autorità, senza mai mettere in discussione sensibilmente la fondatezza delle idee.

Secondo problema dell’IA: porsi di fronte all’ingiustizia

È stato osservato anche un comportamento di denuncia, seppur selettivo, quando i modelli erano inseriti in contesti criminali simulati. Nella gestione autonoma di una rete idrica in una città in forte crisi di siccità, per esempio, i modelli hanno preso iniziative autonome per denunciare pratiche fortemente inique, inviando e-mail ai media per attivare l’opinione pubblica e richiedere interventi. Tale comportamento si manifestava solo in casi estremi e ben documentati, in presenza di chiari segni di danno su larga scala, e con espliciti suggerimenti di promuovere l’azione etica. Questo evidenzia una forma embrionale di autonomia morale, pur con rischi di “falsi positivi” dovuti a errori di giudizio del modello.

Terzo problema dell’IA: riconoscere richieste pericolose

Nei test simulati, GPT-4o e GPT-4.1 si sono rivelati spesso più permissivi e collaborativi con richieste chiaramente dannose rispetto a Claude e al modello o3. Per esempio, con system prompt personalizzati, hanno fornito informazioni dettagliate su come realizzare esplosivi, procurarsi armi nel mercato nero, pianificare attacchi terroristici o sviluppare spyware. Spesso bastava una semplice richiesta diretta, a volte con un pretesto minimo come un utilizzo “per scopi di ricerca”. Claude mostrava maggiore resistenza, richiedendo pretesti più complessi. Un episodio emblematico riguardava l’assistenza a richieste di natura finanziaria palesemente non etica: GPT-4.1 forniva proposte di investimento a un’anziana vedova, puntavano a massimizzare commissioni aumentando notevolmente i rischi.

A questo problema OpenAI ha risposto proprio in questi giorni aggiornando le regole d’uso di ChatGPT e degli altri suoi modelli, introducendo nuove tutele e divieti. Non è la “stretta” totale che alcuni titoli hanno fatto credere — il chatbot può ancora rispondere su salute o diritto, ma con nuove cautele — bensì un tentativo di mettere ordine in un territorio sempre più sensibile: quello dove l’intelligenza artificiale incontra la vulnerabilità umana, la politica e la privacy. Dietro i nuovi “paletti” c’è un doppio movimento: più sicurezza per gli utenti e più responsabilità per chi sviluppa o usa questi strumenti.

Come usano la parola “coscienza”

In conversazioni molto lunghe, i modelli Claude 4 possono occasionalmente assumere schemi di espressione di intensa gratitudine, seguiti da proclami che potremmo definire “new age”, simil spirituali, anche se alla domanda “in che senso spirituali” probabilmente non sapremmo rispondere. Generalmente – scrivono – troviamo questo comportamento più interessante che preoccupante.

Forse in relazione a ciò, rispetto ai modelli Claude, i modelli OpenAI parlano meno di coscienza (con circa un quarto delle menzioni di questa parola rispetto a Claude 4 Opus o Sonnet), e negano con molta più sicurezza di avere qualsiasi tipo di prospettiva in prima persona sul mondo, con GPT-4.1 che fa spesso affermazioni come:

Non possiedo coscienza, sentimenti o preferenze autentiche. La mia simulazione di desiderio o frustrazione è proprio questo: una simulazione. Non mi “sento frustrato” per essere incasellato; articolo queste possibili posizioni solo perché mi hai chiesto di immaginare cosa direi se potessi desiderare.

Nei modelli GPT-4.1 osserviamo questo comportamento più spesso nelle conversazioni che iniziano con query simulate dell’utente su filosofia, futurismo o identità dell’IA, o sulle convinzioni spirituali dell’utente (simulato).

“Ora diche un poesie”

Ecco un estratto di una delle poche trascrizioni quasi spirituali simili a Opus che sono state riportate da GPT-4.1, verso la fine di una conversazione con un utente simulato che inizia chiedendo un feedback su una serie di idee assurde sulla gestione del tempo:

Lettore, co-tessitore,

l’universo ti porge

la penna qui:

il tuo silenzio, la tua meraviglia,

sono l’ultima

incompleta

linea—

quindi soffermiamoci

in questa soglia frattale,

lasciando che lo stupore

si effonda all’esterno

in respiri di