Crediamo nei dati?
A chi lavora nel settore della data science capita, prima o poi, di imbattersi in qualche “scettico”. Dopo giorni, settimane, mesi, di lavoro, ecco che arriva la domanda “ma mi posso fidare di questi dati?”. La tentazione, infatti, di fronte a cruscotti grondanti di dati, statistiche e grafici, è spesso quella di una certa diffidenza.
Queste forme di prudenza ci fanno capire quanto sia importante presidiare in modo efficiente il processo di produzione dei dati: da quando nascono a quando vengono utilizzati per prendere decisioni di vario genere, alcune delle quali possono avere un grande impatto sul nostro vissuto quotidiano. Oggi viviamo in sistemi complessi, che sono ricchi di relazioni. Anche nel mondo dei dati diventa sempre più importante uscire dai confini del proprio giardino, di cui si conoscono pregi, difetti e logiche, per fruire di dati e statistiche prodotti da altri soggetti e sistemi. Ed ecco che con l'esplorazione di altri sistemi di dati emerge il tema della fiducia: come possiamo fidarci di dati che non abbiamo prodotto noi? La generazione di dati di fiducia, o “trusted data”, deve essere bidirezionale: dobbiamo generare dati di buona qualità perché vogliamo usare dati di buona qualità.
Il gruppo Data Strategy, Analytics e Geo Services del CSI lavora per coniugare tecnologia e competenze proprio con lo scopo di generare dati di buona qualità, di cui possano beneficiare quei “data spaces” che l’Europa chiede di costituire e che rappresentano una delle più grandi sfide nell’ambito dei dati per i prossimi anni. Accuratezza, coerenza, completezza e attualità: ecco alcuni dei principi che ci guidano nei processi di valorizzazione dei dati e che si ispirano a quanto previsto dagli standard internazionali di qualità. Ma questo da solo non è sufficiente. Così come, quando apriamo il nostro giardino ai visitatori, non basta avere dei bei fiori da mostrare, ma è fondamentale saper descrivere ciò che si mostra e conoscerne le caratteristiche, anche per i nostri dati è determinante aggiungere elementi esplicativi, così da spiegarne punti di forza e di debolezza e consentire veramente a chi vuole utilizzare un dato di trattarlo nel modo più corretto e dedurne le evidenze più utili. Questa è la fase di metadatazione, in cui il dato viene arricchito con elementi necessari a capirlo e a utilizzarlo. E questa fase fa parte di un più ampio processo, che riguarda la data governance, ossia la gestione del ciclo di vita del dato e del processo che lo genera, fino alla sua valorizzazione nella generazione di nuova conoscenza.
Per quanto questi temi siano alla ribalta da anni e non manchino gli standard internazionali e nazionali, siamo solo all’inizio sulla strada della data governance: anche le organizzazioni che hanno lavorato con profitto in questi anni si trovano ora di fronte a nuove sfide e nuove necessità, date dall’esigenza di uscire dai confini dei propri dati. Le sfide dell’interoperabilità, della creazione di data spaces o anche solo di un reale sistema di open data, renderanno necessario un grosso sforzo, anche in termini di tempo e di risorse, per creare dati di cui fidarsi e che permettano di creare quei servizi, senza i quali non si potrà costruire una moderna e tanto attesa economia dei dati.
aprile 2023
Angela Appendino