Il 21 gennaio 2021, il blog di Apache Foundation annunciava “Apache Superset progetto di primo livello” utilizzando nel sottotitolo parole chiave come “big data”, ‘visualizzazione”, “open source”, “business intelligence” ed un lungo elenco aziende che ne fanno uso come “Airbnb, American Express, Dropbox, Lyft, Netflix, Nielsen, Rakuten Viki, Twitter, Udemy” ed altri ancora.

Con un biglietto da visita così accompagnato da meravigliosi grafici, la notizia è rimbalzata velocemente fra chi si interessa di dati e loro rappresentazione.

Se si aggiunge poi che è un prodotto nato nei laboratori Engineering & Data Science di Airbnb, il tutto si fa ancora più interessante.

La storia di Superset?

Il progetto nasce nel 2015 con il nome di Panoramix prendendo spunto del druido dei fumetti della serie Asterix. Questo perché, Superset, nasceva prima di tutto per diventare lo strumento di visualizzazione dei dati che Airbnb analizza e raccoglie con Druid – un data store open source che permette analisi in tempo reale ad alte prestazioni .

Nel creare l’architettura – scritta in python – si è passati in brevissimo tempo a cambiare il nome in Caravel in quanto, attraverso SQLAlchemy , Superset è in grado di collegarsi a tantissimi data store di diversa complessità: SQLite, Google Sheets , MySQL, PostgreSQL, Oracle, Spark, Google BigQuery …

Tutta questa possibilità di leggere dati da servizi diversi ha poi convinto a cambiare nuovamente nome scegliendo Superset “.. in quanto lascia intendere che è possibile accedere a diversi dataset consentendo così ai suoi utenti di farne uso in diverse modalità …” .

Viste tutte queste premesse non c’è poi da stupirsi come mai il progetto sia entrato nel 2017 nell’incubatore di Apache Foundation – la fondazione no profit nata nel 1999 sul progetto Apache (il web server open source più diffuso al mondo) che raccoglie al suo interno diversi progetti e sponsorizzata da le più importanti aziende ICT del mondo (Alibaba, Amazon, Baidu, Bloomberg, Facebook, Google, Huawei, IBM, Microsoft, Tencent …)

Al suo sviluppo hanno partecipato oltre 500 persone e, quotidianamente, arrivano contributi, migliori, correzioni di bug, documentazione ecc…

Come funziona Superset

Superset si presenta come un’applicazione web con quattro macro funzionalità efficaci: gestione dei data store (database), creazione di dataset, creazione di grafici ed, infine di dashboard.

Il workflow di lavoro quindi è molto semplice:

● si sceglie uno o più datastore a cui collegarsi (nel caso in cui non sia disponibile comunque è possibile gestire tutto su file attraverso SQLite)

● da qui si sceglie la tabella (dataset) su cui lavorare (è possibile importare anche file .csv) su cui, per ogni colonna, è possibile definire delle proprietà (es. se la colonna contiene una informazione temporale o se può essere usata per filtrare i dati ecc…)

● dalla tabella selezionata, attraverso una interfaccia di interrogazione ai dati, si passa poi alla configurazione di un singolo ‘chart’. Per ciascuna delle oltre 50 rappresentazioni fra grafici, mappe, tabelle, filtri, etichette generate dai dati, sparkline appare una interfaccia di selezione e aggregazione dei dati molto vicina a quella utilizzata per creare tabelle pivot nei fogli di calcolo. Ogni ‘chart’, essendo costruito in javascript (nel dietro le quinte di Superset si usano librerie come Echarts – potentissimo per la creazione di grafici interattivi e DeckGL – con cui si creano mappe anche in 3D) diventa interattivo e può essere esportato come immagine o anche come iframe per le pagine web.

● Infine, la creazione delle dashboard non è altro che la selezione dei singoli chart creati da inserire in uno spazio che può essere su più pagine e arricchito da ulteriori componenti come testi, immagini e sezioni.

Ulteriori caratteristiche interessanti sono la possibilità di scaricare i dati presentati in ogni singolo grafico come file .csv o .json, la creazione di indirizzi univoci per ogni oggetto creato (grafico o dashboard), l’esposizione come API ed altro ancora. Per chi vuole poi sviluppare analisi più profonde è disponibile un “SQL Lab” dove creare query SQL indipendenti dal datastore a cui ci si collega.

A cosa serve?

L’installazione di Superset è orientata alla messa in produzione di una applicazione web, in quanto, l’idea di fondo è quella di offrire tutto come servizio online multiutente con diversi livelli di accesso. Questo però non esclude che lo si possa usare sul proprio computer, certo, questo comporta la rinuncia alla pubblicazione online, ma rimane comunque un ottimo strumento per analizzare dati da server remoti.

La documentazione è ben fatta e presenta tutte le possibili configurazioni sulle piattaforme principali (Linux, MacOSX e Windows) e le possibili integrazioni con webserver e integrazioni con sistemi di autenticazione.

Superset aiuta a semplificare il processo di analisi fornendo un’interfaccia intuitiva per esplorare e visualizzare rapidamente set di dati, creare dashboard interattivi e modellare informazioni di business intelligence in tempo reale su larga scala, pertanto uno strumento molto potente e flessibile che trova la sua giusta collocazione in ambito aziendale al pari di strumenti proprietari come QLik. In Airbnb fornisce ogni giorno oltre 100000 grafici a più di 600 utenti sempre attivi.

Non c’è quindi da stupirsi se, dopo aver raggiunto la versione 1.0, Apache Foundation lo dichiara come uno dei prodotti top che presenzia.

Autore:

Maurizio Napolitano, capo dell’unita Digital Commons Lab del centro Digital Society della Fondazione Bruno Kessler. Civic hacker per natura, si occupa prevalentemente di open data, visualizzazione dei dati e analisi geospaziali. Grande sostenitore di OpenStreetMap

Note.

https://preset.io/blog/ ottimo sito con informazioni su Superset

https://medium.com/@napo/creare-dashboard-con-superset-4e576fa42807 un tutorial in italiano (anche se un po’ datato) per superset

Datavizandtools. Nasce oggi una nuova sezione del blog dedicata alla comprensione e alla comunicazione dei dati. Troverete articoli, brevi lezioni e video per raccontare le novità, spiegare come funzionano i nuovi tools e aiutare cittadini e professionisti a comprendere meglio le mappe, i grafici e i numeri nelle notizie (e viceversa). Collaborano professori, data scientist e giornalisti di dati.