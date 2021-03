A fine gennaio per una settimana la Lombardia era in zona arancione ma sarebbe dovuta essere gialla. Questa volta sembrerebbe che siamo stati gialli una settimana in più del dovuto. Insomma, condizionali a parte, prima i contagi sono stati sovrastimati poi sottostimati. In mezzo i fatti li conosciamo. C’è stato un braccio di ferro tra la Regione Lombardia e l’Istituto Superiore della Sanità che si è trascinato al Tar. Tensione tra il presidente della Lombardia Fontana e il ministro della sanità Speranza ma anche l’apertura (finalmente) di una piattaforma open su Github dove pubblicare i dati del contagio. Anzi, è stata pubblicata la matrice degli stati clinici del Covid-19, cioè l’accesso ai dati inviati a partire dal 2021, settimanalmente, ogni mercoledì, dalla Regione Lombardia a ISS, aggregando per tutte le date di inizio sintomi il conteggio dei casi positivi a SARS-CoV-2 per ognuno degli stati clinici o combinazione di essi possibile.

Come è stato possibile ? Una ipotesi l’ha formulata Vittorio Nicoletta, dottorando di sistemi decisionali dell’Université Laval di Quebec City, in Canada che in queste settimane ha scaricato, elaborato e pubblicato mappe e grafici sui dati lombardi. Secondo il ricercatore i dati utilizzati per il calcolo dell’indice Rt sarebbero stati ancora una volta inesatti.

Confrontando i dati caricati il 3 marzo con quelli consegnati all’Istituto Superiore della Sanità una settimana prima si riscontra una discrepanza che viene illustrata nel grafico pubblicato su Twitter qui sotto.

Ho trovato il tempo di fare un grafichetto con gli Rt ottenuti dai due diversi dataset pic.twitter.com/xgLQZlilU8 — Vittorio Nicoletta (@vi__enne) March 4, 2021

I dati caricati sulla piattaforma sono insomma diversi da quelli comunicati. E quindi l’indice Rt non è più 0,82 ma 1,09 e quindi sopra la soglia dell’uno. Tradotto vuole dire che non saremmo dovuti essere zona gialla bensì arancione.

Non è chiaro come sia potuto succedere. Come si legge a pagina 5 del bollettino settimanale dell’Iss nella sezione relativa agli indicatori di processo, il “numero di casi sintomatici notificati per mese in cui è indicata la data inizio sintomi / totale di casi sintomatici notificati al sistema di sorveglianza nello stesso periodo” è pari al 71,3%. Vuole dire che rispetto alle altre regioni tutti intorno al 100% , i dati lombardi sono meno completi e quindi l’indice Rt risulta meno affidabile.

La buona notizia è che Regione Lombardia pubblicando questi dati ha reso possibile il calcolo che Vittorio Nicoletta ha fatto. Molte altre regioni non rilasciano queste informazioni in formato aperto. La cattiva è che non se ne esce. Il processo continua ad avere larghi margini di errore. Come del resto ammette la stesse Regione Lombardia nelle note: “i dati inviati all’Istituto Superiore di Sanità – si legge – contengono informazioni di varia natura che vengono prodotti da flussi ricevuti dalle aziende sanitarie lombarde e nello specifico, per il calcolo della stima di R(t), viene utilizzato il sistema che gestisce le segnalazioni di casi sospetti per le malattie infettive. Si segnala che i dataset pubblicati possono contenere errori di consistenza interna dovuti a imprecisioni nel data entry di alcune date da parte di operatori sanitari, che risentono di un processo di raccolta dati vasto e articolato. Si precisa comunque che ai fini della stima della trasmissibilità dei casi sintomatici con l’indice R(t), tali dati non concorrono al relativo calcolo in quanto la sommatoria dell’equazione di rinnovamento è limitata a 300 giorni indietro da oggi (fonte ISS)”. Che non è una ammissione di colpa, ma come potrebbe suggerire un data scientist, un meta-dato che spiega una inefficienza.

Qui gli altri episodi della cronaca critica della diffusione dei dati:

S01E01 So1Eo2 S01E03 S01E04 S01E05 S02E01 S02E02 S02E03 S02E04 S02E05