La data science è automatizzata. Non servono più i data scientist

Il Mit ha sviluppato un tool che permette a chiunque di fare data science. L’obiettivo con cui è stato annunciato è quello di rendere più democratica la scienza dei dati. In realtà, il software sviluppato dai ricercatori del Mit non fa altro che svolgere compiti che normalmente sono affidati ad uno statistico o ad un data scientist junior. L’idea di fondo è quella di permettere di estrarre senso dai dataset anche ad aziende troppo piccole per assumere scienziati dei dati.

Sì, perché il codice scritto a Cambridge altro non fa che generare in automatico dei modelli che consentono di analizzare dati grezzi. Così che chiunque, anche senza esprienza nel settore, sia in grado di dedicarsi alla data science. Presentandolo al simposio sui principi dei linguaggi di programmazione organizzato da Acm Sigplan a Lisbona dall’8 al 13 gennaio, i ricercatori del Mit lo hanno definito come uno strumento in grado di generare modelli statistici sofisticati. Capace non solo di analizzare i dati, ma anche di formulare previsioni a partire da queste ultime.

Qui sotto una dasboard di sintesi su come è cambiato il mercato del lavoro. Realizzata da Ben Jones, direttore di Tableau Public, la piattaforma free di datavisualization sviluppata da Tableau Software. Il quale ha pubblicato su data.world sia il database che una visualizzazione tratta da questi dati. Una dataviz che permette di comprendere con un colpo d’occhio come è cambiato il mercato del lavoro negli ultimi anni.

L’idea infatti è che questo software permetta a chi lo utilizza di predire l’andamento di una contesa elettorale, il diffondersi di un’epidemia, la puntualità dei voli durante una stagione. Il tutto scrivendo solo quelle poche rigue di codice necessarie per inserire i dati nel software. «La mancanza di figure professionali capaci di analizzare i dati è una problematica largamente riconosciuta», spiega in una nota Vikash Mansinghka, uno degli autori del progetto, «e questo è un problema negli enti governativi, nel non profit e in tutte quelle realtà dove non ci si può permettere un data scientist».

La soluzione è appunto questo tool che attualmente è disponibile su Jupyter Notebook, un’ambiente web open source che permette di far girare un software all’interno di un browser. Il tool utilizza dei modelli bayesiani, che consentono ad esempio di elaborare previsioni sugli sviluppi futuri di un fenomeno basandosi su serie storiche. O dei valori sulla base di diversi variabili, ad esempio lo stipendio di una persona a partire dalla sua età, dall’occupazione e dall’area geografica in cui la svolge.

Si tratta di modelli molto utilizzati, ma che richiedono un notevole sforzo in termini di tempo. Oltre, ovviamente, al lavoro di uno o più statistici. Il tool sviluppato dal Mit richiede invece semplicemente l’inserimento del dataset: al resto penserà il software. L’idea è quella di fornire uno strumento che permetta di fare esattamente quello che fa ad esempio Nate Silver per le sue previsioni elettorali su FiveThirtyEight. Con il vantaggio che per capire dai dati chi vincerà la prossima corsa alla Casa Bianca non servirà assoldare eserciti di statistici, ma semplicemente utilizzare il software scritto a Cambridge. O almeno, questo promette chi lo ha scritto.