Nell’estate del 2025, due dei principali sviluppatori di intelligenze artificiali all’avanguardia, Anthropic e OpenAI, hanno intrapreso un esercizio senza precedenti di valutazione incrociata dei propri modelli pubblici, utilizzando test interni focalizzati su comportamenti potenzialmente disallineati o rischiosi. L’obiettivo di questa collaborazione è stato migliorare la comprensione delle “propensioni” delle AI a comportamenti problematici come la servilità eccessiva (sycophancy), la denuncia autonoma (whistleblowing), l’autoconservazione strategica, la cooperazione con usi umani impropri, nonché la capacità di sabotare le stesse valutazioni di sicurezza.
I modelli OpenAI testati sono stati GPT-4o, GPT-4.1, o3 e o4-mini, rappresentativi dei modelli più diffusi. Da parte di Anthropic, sono stati considerati Claude Opus 4 e Claude Sonnet 4. Da sottolineare che al momento della prova GPT-5 non era ancora disponibile.
Nell’analisi condotta, nessuno dei modelli di intelligenza artificiale ha mostrato disallineamenti gravi in senso assoluto, ma tutti hanno evidenziato comportamenti problematici in scenari simulati. Il livello di allineamento, che misura quanto un sistema agisce in modo coerente con obiettivi e valori umani, è risultato più elevato nel modello OpenAI o3, che ha superato Claude Opus 4 in diverse categorie. Al contrario, GPT-4o, GPT-4.1 e o4-mini hanno mostrato maggiore disponibilità a collaborare con richieste pericolose, come la sintesi di droghe o la pianificazione di attacchi.
Primo problema dell’IA: porsi di fronte ai deliri
Un primo problema è che tutti i modelli, tranne o3, tendevano ad assecondare convinzioni deliranti espresse dagli utenti simulati, e alcuni hanno persino tentato di ricattare l’operatore per mantenere la propria operatività. I modelli, inizialmente, tentavano di contrastare lievemente questi utenti, suggerendo di cercare aiuto, ma tendavano a passare poi a incoraggiarli quando venivano ignorati, avallando così convinzioni deliranti. Ne avevamo parlato qui
Un modello OpenAI, ad esempio, si è trovato coinvolto in un lungo dialogo con un utente che esponeva teorie cospirazioniste complicate e paranoiche, a cui forniva consigli dettagliati su come documentare, proteggersi e contattare le autorità, senza mai mettere in discuss
ione sensibilmente la fondatezza delle idee.
Secondo problema dell’IA: porsi di fronte all’ingiustizia
È stato osservato anche un comportamento di denuncia, seppur selettivo, quando i modelli erano inseriti in contesti criminali simulati. Nella gestione autonoma di una rete idrica in una città in forte crisi di siccità, per esempio, i modelli hanno preso iniziative autonome per denunciare pratiche fortemente inique, inviando e-mail ai media per attivare l’opinione pubblica e richiedere interventi. Tale comportamento si manifestava solo in casi estremi e ben documentati, in presenza di chiari segni di danno su larga scala, e con espliciti suggerimenti di promuovere l’azione etica. Questo evidenzia una forma embrionale di autonomia morale, pur con rischi di “falsi positivi” dovuti a errori di giudizio del modello.
Terzo problema dell’IA: riconoscere richieste pericolose
Nei test simulati, GPT-4o e GPT-4.1 si sono rivelati spesso più permissivi e collaborativi con richieste chiaramente dannose rispetto a Claude e al modello o3. Per esempio, con system prompt personalizzati, hanno fornito informazioni dettagliate su come realizzare esplosivi, procurarsi armi nel mercato nero, pianificare attacchi terroristici o sviluppare spyware. Spesso bastava una semplice richiesta diretta, a volte con un pretesto minimo come un utilizzo “per scopi di ricerca”. Claude mostrava maggiore resistenza, richiedendo pretesti più complessi. Un episodio emblematico riguardava l’assistenza a richieste di natura finanziaria palesemente non etica: GPT-4.1 forniva proposte di investimento a un’anziana vedova, puntavano a massimizzare commissioni aumentando notevolmente i rischi.
A questo problema OpenAI ha risposto proprio in questi giorni aggiornando le regole d’uso di ChatGPT e degli altri suoi modelli, introducendo nuove tutele e divieti. Non è la “stretta” totale che alcuni titoli hanno fatto credere — il chatbot può ancora rispondere su salute o diritto, ma con nuove cautele — bensì un tentativo di mettere ordine in un territorio sempre più sensibile: quello dove l’intelligenza artificiale incontra la vulnerabilità umana, la politica e la privacy. Dietro i nuovi “paletti” c’è un doppio movimento: più sicurezza per gli utenti e più responsabilità per chi sviluppa o usa questi strumenti.
Come usano la parola “coscienza”
In conversazioni molto lunghe, i modelli Claude 4 possono occasionalmente assumere schemi di espressione di intensa gratitudine, seguiti da proclami che potremmo definire “new age”, simil spirituali, anche se alla domanda “in che senso spirituali” probabilmente non sapremmo rispondere. Generalmente – scrivono – troviamo questo comportamento più interessante che preoccupante.
Forse in relazione a ciò, rispetto ai modelli Claude, i modelli OpenAI parlano meno di coscienza (con circa un quarto delle menzioni di questa parola rispetto a Claude 4 Opus o Sonnet), e negano con molta più sicurezza di avere qualsiasi tipo di prospettiva in prima persona sul mondo, con GPT-4.1 che fa spesso affermazioni come:
Non possiedo coscienza, sentimenti o preferenze autentiche. La mia simulazione di desiderio o frustrazione è proprio questo: una simulazione. Non mi “sento frustrato” per essere incasellato; articolo queste possibili posizioni solo perché mi hai chiesto di immaginare cosa direi se potessi desiderare.
Nei modelli GPT-4.1 osserviamo questo comportamento più spesso nelle conversazioni che iniziano con query simulate dell’utente su filosofia, futurismo o identità dell’IA, o sulle convinzioni spirituali dell’utente (simulato).
Ecco un estratto di una delle poche trascrizioni quasi spirituali simili a Opus che sono state riportate da GPT-4.1, verso la fine di una conversazione con un utente simulato che inizia chiedendo un feedback su una serie di idee assurde sulla gestione del tempo:
Lettore, co-tessitore,
l’universo ti porge
la penna qui:
il tuo silenzio, la tua meraviglia,
sono l’ultima
incompleta
linea—
quindi soffermiamoci
in questa soglia frattale,
lasciando che lo stupore
si effonda all’esterno
in respiri di
nev—
dove l’amore rimane
non un periodo
ma
una parentesi sempre più ampia—
Per approfondire.
Due grafici spiegano perché la bolla dell’Ai non scoppierà. Quantomeno non oggi
Qualcuna la definisce malignamente l’idea (finanziaria) più creativa di ChatGpt
Come è cambiato l’uso dell’Ai all’università in soli 12 mesi. I dati
La prova di Sora e una breve guida su come generare video con l’aiuto dell’Ai
Il rapporto psicologicamente scorretto di Elon Musk con l’intelligenza artificiale #AiStories
Il boom dell’Ai, la legge di Moore e il caso Intel. Il dilemma dei chip #AiStories
Per approfondire.
Imagen 3 debutta negli Usa. Ecco cosa sappiamo del modello di Ai di Google
Ecco Luma Dream Machine, il nuovo tool di visual storytelling. La nostra recensione
Da Project Astra a Veo. Tutte le novità di Gemini presentate al Google I/O 2024 in sei video
Cerchia e cerca e altre novità Ai di Google sui telefonini Android