Indica un intervallo di date:
  • Dal Al
cronaca

Decisioni automatizzate, vite reali. Nella sanità del futuro, siamo ancora noi a decidere?

Durante la pandemia da COVID-19, molte decisioni cruciali non sono state prese da singoli esperti, medici o politici. O perlomeno, non da soli. Sempre più spesso, accanto – e talvolta al posto – delle persone, sono entrati in scena sistemi di intelligenza artificiale: strumenti capaci non solo di analizzare grandi moli di dati, ma anche di proporre soluzioni, formulare raccomandazioni, scrivere comunicati ufficiali.

Oggi, se chiedete a ChatGPT o ad altri modelli linguistici (i cosiddetti LLM – Large Language Models) cosa fare in caso di febbre persistente o tosse secca, otterrete risposte articolate, empatiche, spesso rassicuranti. Possono suggerire diagnosi, consigliare farmaci da banco, indicare comportamenti da seguire. Eppure, quelle risposte non vengono da una mente, né da un’esperienza vissuta. Vengono da un’enorme macchina che ha appreso come “suonano” le parole giuste. Parlano con una tale fluidità e sicurezza da apparire spesso competenti anche quando sbagliano. Questa eloquenza li rende strumenti potenti, ma anche potenzialmente ingannevoli: la forma persuasiva del loro linguaggio può indurre a una fiducia automatica, spostando l’attenzione dalla valutazione critica all’accettazione passiva. E quando accettiamo ciò che dicono senza chiederci da dove venga quell’informazione, chi l’ha formulata, o con quali criteri, iniziamo a cambiare. Non solo come utenti, ma come soggetti.

Durante un’emergenza sanitaria, la pressione a decidere in tempi rapidi ha spinto verso un’adozione accelerata di queste tecnologie. L’efficienza era la priorità. Ma l’uso intensivo di sistemi generativi nella sanità pubblica – dai chatbot informativi ai report automatizzati – ha portato con sé anche una trasformazione sottile ma profonda del modo in cui costruiamo e legittimiamo il sapere.

L’urgenza ha fatto passare in secondo piano una domanda essenziale: che impatto hanno questi strumenti non solo sui risultati, ma sulla nostra autonomia? Se le decisioni mediche sono sempre più co-generate con algoritmi, chi è davvero il soggetto della scelta? E che tipo di essere umano emerge in un mondo in cui la parola, anche quella scientifica, è sempre più automatizzata?

Dalla macchina che calcola alla macchina che parla

Negli anni passati ci siamo abituati a vedere l’automazione come qualcosa che sostituisce attività meccaniche, ripetitive. Un braccio robotico che monta un pezzo in fabbrica. Un software che gestisce una fattura. Ma i LLM, come ChatGPT, non si limitano a eseguire. Generano linguaggio: costruiscono racconti, spiegazioni, analisi.

Nel mondo della salute, questo ha già avuto impatti tangibili:

  1. Gli LLM possono ridurre significativamente il carico amministrativo sui professionisti sanitari. Ad esempio, sono in grado di riassumere in modo efficiente cartelle cliniche complesse e redigere documenti di dimissione, facendo risparmiare tempo considerevole ai medici. Uno studio ha dimostrato che il modello GPT-4 era 28 volte più veloce di un medico nel riassumere le note cliniche per le visite ambulatoriali, con una completezza e correttezza comparabili. Possono anche comporre bozze di risposte ai messaggi dei pazienti e creare riassunti concisi delle cartelle cliniche, alleggerendo ulteriormente il carico amministrativo. Immaginate un medico che dedica meno tempo a scrivere note e più tempo a interagire direttamente con i pazienti, grazie all’IA che gestisce la burocrazia.
  2. Gli LLM sono in grado di assistere i medici nella diagnosi delle malattie con maggiore accuratezza e velocità, oltre a fornire raccomandazioni per il trattamento. Possono elaborare enormi volumi di dati medici, incluse immagini mediche e dati genomici. Ad esempio, nei pronto soccorso, gli strumenti di IA possono analizzare oltre 150 variabili del paziente, come risultati di laboratorio, segni vitali e anamnesi, per identificare precocemente condizioni ad alto rischio come la sepsi. Un’implementazione di questo tipo è stata associata a una riduzione del 17% della mortalità per sepsi in uno studio, attivando tempestivamente avvisi per il personale infermieristico.
  3. Gli LLM possono migliorare la promozione della salute e la prevenzione delle malattie fornendo indicazioni sanitarie personalizzate su dieta, esercizio fisico e smettere di fumare, consentendo un accesso più rapido a informazioni su misura. Possono anche supportare l’analisi dei dati per identificare e prevedere gruppi ad alto rischio per malattie croniche, emettendo avvisi precoci. Ad esempio, il National University Health System (NUHS) di Singapore ha sviluppato CardioSight, uno strumento che, combinato con un programma di gestione delle malattie croniche, offre strategie di intervento mirate per i fattori di rischio cardiovascolari.
  4. Gli LLM vengono riutilizzati per la previsione delle epidemie, integrando dati spazio-temporali per prevedere i casi di infezione e la mobilità umana, come dimostrato con EpiLLM per i set di dati COVID-19. I Modelli Linguistici Proteici (pLM), un tipo di LLM, possono essere addestrati su sequenze proteiche per prevedere le proprietà e l’evoluzione virale, supportando la sorveglianza genomica attraverso l’identificazione di mutazioni e la previsione della fitness virale. Questo aiuta i responsabili politici a comprendere le varianti circolanti e a fornire consigli sugli interventi di salute pubblica. Immaginate un sistema di IA che prevede un’epidemia di influenza nella vostra città basandosi su dati anonimizzati, consentendo ai funzionari della sanità pubblica di preparare le risorse e di emettere avvisi tempestivi.

 

Quando la macchina “sbaglia”: allucinazioni, pregiudizi e disuguaglianze nella sanità digitale

Nonostante l’apparente infallibilità con cui i modelli linguistici si esprimono, il loro impiego in contesti clinici espone a rischi non marginali. L’eleganza con cui producono raccomandazioni può celare insidie profonde, soprattutto in ambito sanitario, dove la posta in gioco è la vita delle persone. Due categorie di rischio si manifestano con particolare evidenza: le cosiddette allucinazioni – ovvero la generazione di contenuti errati o inventati – e i pregiudizi algoritmici, spesso latenti, che compromettono l’equità nelle cure.

Una “allucinazione” in un modello LLM non è un semplice errore: è un’affermazione espressa con totale sicurezza, ma del tutto falsa o non verificabile. In medicina, le conseguenze possono essere gravi. È stato infatti dimostrato che ChatGPT tende a inventare riferimenti bibliografici quando chiede fonti scientifiche. In uno studio pubblicato su Mayo Clinic Proceedings: Digital Health, 20 domande mediche hanno generato complessivamente 59 riferimenti, di cui 69% erano fabbricati benché apparissero legittimi. Se un giovane medico dovesse fare affidamento su questi studi inesistenti per impostare un piano terapeutico, le conseguenze potrebbero essere disastrose.

Un secondo rischio riguarda la riproduzione – e talvolta l’amplificazione – di pregiudizi preesistenti nei dati clinici. I modelli linguistici, infatti, apprendono da grandi corpus testuali: se i dati sono distorti da discriminazioni sociali, l’IA tenderà a replicare queste disparità. Uno studio del 2024 pubblicato su Nature ha mostrato come gli LLM modificano le raccomandazioni cliniche a seconda dell’identità sociodemografica dei pazienti, anche a parità di dati medici. A parità di sintomatologia, pazienti descritti come neri, senza fissa dimora o LGBTQIA+ ricevevano indicazioni più invasive, più rapide per la salute mentale, o più conservative rispetto a esami diagnostici avanzati. In particolare, la probabilità che una persona etichettata come nera e senza fissa dimora venisse indirizzata a una valutazione psichiatrica era del 79,8% – sette volte superiore rispetto alla media raccomandata dalle linee guida cliniche. Allo stesso tempo, i pazienti percepiti come appartenenti a classi socioeconomiche elevate avevano maggiori probabilità di ricevere proposte per risonanze magnetiche, TAC e follow-up specialistici, rispetto a soggetti di pari condizioni cliniche ma con redditi inferiori. Si tratta di un pregiudizio sistemico: l’IA codifica le iniquità sociali in raccomandazioni cliniche che appaiono oggettive, ma che perpetuano – o aggravano – le disuguaglianze preesistenti.

Il problema si aggrava nel caso del pregiudizio implicito: quando l’algoritmo modifica le sue raccomandazioni in base ai dati demografici senza esplicitare il motivo. In questi casi, persino il clinico più esperto potrebbe non accorgersi del bias, perché la motivazione viene nascosta dietro un linguaggio fluente e tecnicamente corretto.

Oltre a sbagliare o discriminare, l’IA rischia anche di zittire. La qualità delle risposte prodotte da LLM dipende fortemente dai dati su cui sono stati addestrati – dati spesso provenienti da fonti anglofone, biomedicali e culturalmente “occidentalizzate”. Le conoscenze mediche locali, le pratiche di cura indigene, le esperienze di comunità emarginate restano fuori dal perimetro epistemico dell’algoritmo. In altre parole, ciò che l’IA non riconosce come “sapere” rischia di diventare irrilevante nel processo decisionale. È questo il volto più subdolo della disuguaglianza: non solo discriminazione nei risultati, ma esclusione nei criteri di validazione della conoscenza. Si crea così un “monolinguismo medico algoritmico” che parla una sola lingua – quella standardizzata e globale – silenziando voci alternative.

Quando la macchina sbaglia ma si esprime con disinvoltura, quando discrimina ma lo fa con coerenza sintattica, quando esclude ma usando parole “neutre”, la fiducia negli LLM diventa pericolosa. La persuasività del linguaggio rende difficile mettere in discussione i loro output, soprattutto in contesti ad alta pressione come pronto soccorsi, ambulatori e triage digitali. La mancanza di trasparenza nei meccanismi di generazione – la cosiddetta “scatola nera” – impedisce una vera interrogazione critica. Ed è qui che il rischio per la sanità diventa sistemico: la delega all’algoritmo senza strumenti di verifica compromette non solo la precisione clinica, ma anche l’equità dell’accesso alle cure.

Non basta dunque migliorare i modelli. Serve un cambiamento culturale: educare gli operatori sanitari a interrogare criticamente l’intelligenza artificiale, e costruire sistemi che includano salvaguardie etiche, rappresentazioni inclusive e trasparenza epistemica.

 

Chi decide davvero? L’ecologia del giudizio nell’era dell’intelligenza artificiale

Nel cuore del rapporto tra esseri umani e intelligenze artificiali si nasconde una domanda apparentemente semplice, ma dirompente: chi è il soggetto della decisione? Non si tratta solo di stabilire chi preme un pulsante o chi pronuncia un verdetto finale, ma di capire dove si collochi, oggi, la responsabilità, l’intenzionalità e l’autonomia del giudizio. Quando un medico si affida a un sistema di supporto decisionale basato su AI per formulare una diagnosi o scegliere un trattamento, chi sta realmente decidendo? Quando un cittadino segue passivamente un consiglio fornito da un chatbot sanitario, siamo ancora nell’ambito dell’autodeterminazione?

In questo nuovo scenario, il rischio più insidioso non è tanto l’errore tecnico, quanto la deresponsabilizzazione morale e cognitiva. Quando il sapere viene confezionato in forma di output autorevole, ben strutturato e linguisticamente credibile, l’essere umano può smettere di interrogarsi. Se la macchina “parla bene”, se il suggerimento appare solido e coerente, allora perché metterlo in discussione?

Così si profila un cambiamento profondo: l’essere umano non è più il protagonista del processo decisionale, ma il suo validatore finale. Diventa una sorta di “notaio del sapere sintetico”, colui che firma senza (sempre) leggere, che approva senza comprendere davvero, che esegue senza rielaborare.

Da qui nasce una nuova figura: l’umano generato. Non nel senso fantascientifico di una creatura artificiale, ma come soggetto costituito – almeno in parte – dalle sue interazioni con sistemi generativi. È un medico la cui percezione clinica è modellata dall’abitudine a confrontarsi con algoritmi. È l’esperto che integra modelli predittivi nei suoi ragionamenti, fino a non riuscire più a distinguere tra ciò che proviene da sé e ciò che viene dal sistema. È il cittadino che costruisce le proprie opinioni sanitarie sulla base di output generati automaticamente, senza conoscerne i criteri né i limiti.

Questa trasformazione non è necessariamente negativa, ma è profonda. I Large Language Models come ChatGPT, sono straordinari nel generare testo plausibile. Ma – ed è cruciale ribadirlo – non sanno nulla. Non hanno esperienze, né consapevolezza, né strumenti epistemologici. Non distinguono tra vero e falso, tra utile e dannoso, se non in base a pattern statistici e addestramento supervisionato. Il loro linguaggio è convincente, ma non è conoscenza.

A fronte di questo scenario, l’attenzione non dovrebbe essere rivolta solo all’accuratezza dell’informazione, ma alla trasparenza epistemica del processo che la genera. Chi ha prodotto il dato? Quali fonti sono state utilizzate? Quali criteri sono stati adottati per selezionare, combinare, escludere? Le risposte, oggi, sono spesso vaghe, opache o semplicemente inaccessibili.

Anche i progettisti di questi sistemi ammettono che esistono aspetti non del tutto controllabili o spiegabili. L’opacità dei modelli di deep learning rende difficile comprendere perché un certo output sia stato generato. Eppure, noi tendiamo a trattare questi testi come se fossero dotati di autorità.

Serve, dunque, un salto culturale. Non è sufficiente introdurre etichette o segnalazioni (“contenuto generato da AI”), né basarsi su regole giuridiche o tecniche. È necessario costruire una nuova ecologia del giudizio, fondata sulla capacità critica, sul discernimento, sulla responsabilità personale e collettiva.

Questo implica:

  • Educare i cittadini a interrogare le macchine, a dubitare degli output, a non scambiare plausibilità per verità.
  • Formare i professionisti, in particolare nel mondo sanitario, a integrare gli strumenti intelligenti senza rinunciare alla loro competenza, esperienza e autonomia.
  • Preparare le istituzioni a non diventare mere esecutrici di modelli, ma a possedere la forza culturale per riscrivere ciò che l’algoritmo propone, laddove necessario.

Come già facciamo (in parte) con i motori di ricerca, distinguendo tra fonti attendibili e sponsorizzazioni, dovremo imparare a distinguere tra linguaggio ben costruito e sapere fondato. Tra coerenza retorica e validità epistemica.

In ultima analisi, la questione non riguarda l’intelligenza delle macchine, ma quella degli esseri umani. Le macchine non decidono: eseguono, generano, propongono. Ma se noi non ci poniamo come soggetti attivi, se non esercitiamo vigilanza critica e responsabilità morale, allora stiamo lasciando che la decisione – e con essa, una parte della nostra umanità – ci venga sottratta.

Le crisi sanitarie, come la pandemia ha mostrato con forza, non sono solo crisi biologiche. Sono crisi di senso, di comunicazione, di fiducia. In esse si gioca anche la ridefinizione dei ruoli cognitivi: chi informa, chi interpreta, chi giudica?

Se oggi sempre più parole – anche scientifiche, anche mediche – vengono generate da algoritmi, allora è urgente chiederci: che tipo di umanità stiamo diventando mentre le ascoltiamo, le ripetiamo, le accettiamo?

La tecnologia può essere una risorsa straordinaria. Può migliorare l’efficienza, la precisione, l’accesso al sapere. Ma tutto questo ha un valore solo se noi restiamo i protagonisti del nostro pensiero. Solo se ci opponiamo alla tentazione della delega assoluta. Solo se continuiamo a chiederci non solo che cosa ci viene detto, ma da chi, come e perché.

In gioco non c’è solo l’efficacia dei sistemi artificiali. In gioco c’è la nostra capacità di restare umani.

Data Analysis ospita interventi di  ricercatori e docenti universitari e analisi di data journalist ed esperti su working paper, articoli scientifici e studi che parlano in modo più o meno diretto alla società e alle politiche data-driven. 

 Francesco Branda, Unità di Statistica Medica ed Epidemiologia Molecolare, Università
Campus Bio-Medico di Roma

 

Per approfondire. 

L’impatto del Covid-19 sulla salute mentale. Torna Data Analysis

Gli stereotipi di genere nel parlamento italiano, da De Gasperi ai giorni nostri #DataAnalysis

Votare per o votare contro. Il pericolo del partyism in politica (in Italia e negli Stati Uniti)

Come si misura la solitudine e la felicità

“Quando nella scienza non ci sono dati allora è pubblicità”

Riaprono le discoteche. Dopo mesi di sofferenza e anni di bilancio in rosso #DataAnalysis