LA SFIDA DEI BIG DATA

Se si crede che nell’essenza stessa dei concetti di progresso ed evoluzione sia compresa l’idea di sfida, ovvero che qualsiasi forma di sviluppo orientato alla crescita sia il prodotto di una sfida dell’essere umano con il proprio presente e con ciò che appare immutabile; allora, data l’era tecnologica in cui viviamo, la più grande sfida è attualmente rappresentata dai Big Data.

Occorre innanzitutto fare chiarezza su cosa si intenda con questo termine e su quale sia il punto di rottura rispetto al passato, cercando poi di delineare quali possano essere gli sviluppi futuri.

Il termine Big Data viene utilizzato per la prima volta nel 1997 da due ricercatori della NASA, Michael Cox e David Ellsworth; questi definirono la loro difficoltà nel gestire la crescente mole di dati, generati nello studio dell’aerodinamica di velivoli, come “the problem of big data“. In seguito tale termine ha subito una duplice evoluzione nel suo significato; da un lato si è fornita una definizione più caratterizzante di tale ampia mole di dati, dall’altro si è esteso il suo significato anche all’insieme degli algoritmi utili a processarli.

Il termine “Big Data” si riferisce dunque a grandi quantità di dati prodotti ad alta velocità da un numero elevato di fonti conosciute come le famose 3 V:

Volume (data size)
Velocity (speed of change)
Variety (different forms of data sources)

Esse sono poi diventate 5 con l’aggiunta di Veracity (uncertainty of data) e di Value (obtainable information). Tuttavia a questa interpretazione se ne è man mano sostituita una a più ampio respiro, ovvero quella che tende ad indicare con Big Data la struttura delle tecnologie e delle metodologie di analisi di questi dati massivi.

Si può quindi riassumere quanto finora detto associando al termine Big Data l’intero processo di trasformazione delle nuove tipologie di dati in informazione.

Per meglio comprendere le caratteristiche di questi “nuovi” dati risulta utile un confronto (riassumibile nella tabella seguente) con i dati che venivano collezionati nei decenni precedenti, definiti Small Data:

*Caratteristiche*	Small Data	Big Data
Attendibilità	Elevata	Da verificare
Comparabilità	Elevata	Scarsa
Tempestività	Scarsa	Elevata
Varietà	Scarsa	Elevata

Più che ad un cambiamento del dato in sé, si sta assistendo ad un cambiamento delle metodologie di approccio ad esso; si è infatti passati dalla ricerca dei dati per rispondere a determinate domande, alla formulazione di domande a partire dai dati raccolti.

Utilizzando le parole di Werner Vogels, CTO di Amazon: “In the old world of data analysis you knew exactly which questions you wanted to asked, which drove a very predictable collection and storage model. In the new world of data analysis your questions are going to evolve and change over time and as such you need to be able to collect, store and analyze data without being constrained by resources”.

Si vuole infine sintetizzare quelli che possono essere gli sviluppi futuri dei Big Data, ovvero quale cambiamento si renda necessario nel processo di reperimento delle informazioni:

Dalla costruzione di strumenti fondati sull’esattezza, all’utilizzo di strumenti che ricerchino una tendenza;
Da un approccio statistico-descrittivo (Business Intelligence) ad uno statistico-inferenziale (Data Analysis).

In conclusione risulta quindi chiaro il bisogno di professionisti specializzati nell’ambito statistico-informatico, in grado di gestire tali processi; tuttavia per ottenere un risultato positivo reale dai Big Data sono necessarie delle competenze trasversali e una visione macro degli eventi, in modo tale da focalizzare l’attenzione su ciò che è realmente di valore e non sprecare tempo con il superfluo.

Dati i differenti backgrounds accademici degli studenti di ogni Junior Enterprise, che non siano queste un’ottima palestra per la costruzione di questo professionista del futuro?

#JEMIBreview

Davide Sciamanna

big data