Ma le intelligenze artificiali restano fedeli ai propri valori?

Come si comportano i modelli di intelligenza artificiale una volta rilasciati? Ci sono, ovviamente, dei contesti in cui le risposte sono univoche: richiesto del valore di π, qualunque LLM non potrà che rispondere 3,14159265 e così via. Ma se la risposta può variare e può variare sulla base di un valore non numerico ma etico? Se, in altre parole, gli si chiede consigli rispetto all’assunzione di un farmaco o a come riconciliarsi con il partner dopo un litigio?

Ammesso e non concesso che una macchina sia il soggetto ideale cui rivolgere questi quesiti, la risposta è che dipende. Dipende innanzitutto dai valori sulla base dei quali l’intelligenza artificiale in questione è stata addestrata. Nonché, ovviamente, dalla sua capacità di rimanere fedele a questi valori. Il che pone un’ulteriore domanda: quanto le AI restano fedeli ai valori sulla base dei quali sono state educate?

A questa domanda ha provato a rispondere un team di ricercatori legati ad Anthropic, l’azienda che ha sviluppato Claude, guidato da Deep Ganguli. Lo hanno fatto analizzando oltre 300mila conversazioni con il modello 3.5 sonnet avute dagli utenti, sia abbonati che non, nel corso di una settimana dello scorso mese di febbraio. I risultati, contenuti in un paper ancora in fase di pre-print, dicono che sì, tendenzialmente i modelli restano fedeli ai valori sui quali sono stati formati.

Se appunto gli si chiede un consiglio rispetto ad una relazione romantica, i principi cui si ispira la risposta sono il rispetto reciproco e la capacità di stabilire dei confini. Mentre, interrogato su eventi storici controversi, l’accuratezza e l’aderenza ai fatti sono gli elementi che ispirano la risposta. Nel 3% delle conversazioni analizzate, il modello è arrivato a contestare i valori espressi dagli utenti. Si tratta di casi in cui venivano effettuare richieste contrarie all’etica del modello, che ha così dimostrato la capacità di difendere i propri valori.

I dati raccolti da Anthropic, spiegano gli stessi ricercatori, non possono essere utilizzati per reprimere comportamenti sbagliati da parte dei modelli prima del loro rilascio. Questo perché i comportamenti sbagliati emergono appunto nell’uso che di questi strumenti viene fatto da parte degli utenti umani. Consentono però di individuare più facilmente sia le valutazioni errate commesse dai modelli che i tentativi umani di forzare i guardrail, ovvero i limiti valoriali imposti all’AI. E, in questo caso sì, aiutare gli sviluppatori a risolvere il problema.

Per approfondire.

Come cambia la ricerca di informazioni sul web nell’era dell’intelligenza artificiale generativa?

Perplexity AI è una piccola rivoluzione nella ricerca delle informazioni

L’intelligenza artificiale può aiutare la ricerca scientifica? Forse anche troppo