BIG DATA = BIG INFORMATION ? Le competenze per usare i big data

Il tema Big Data fra quelli relativi a Fabbrica 4.0 è sicuramente oggi il più discusso e dibattuto, in quanto è nata la consapevolezza e la possibilità che gli impianti e le macchine siano in grado di fornire tantissimi dati. Così tanti dati da permettere di tracciare ogni singolo prodotto, corredandolo di un fascicolo che contenga le sue caratteristiche qualitative, le condizioni di funzionamento della macchina ed ogni eventuale allarme possa essere intervenuto prima, dopo e durante la produzione.
Sembrerebbe un mondo fantastico in cui si possa sapere tutto di ogni singolo pezzo prodotto… ma bisogna fare attenzione: “SAPERE” SIGNIFICA AVERE INFORMAZIONI UTILI PER PRENDERE DECISIONI.
Questa affermazione sembra apparentemente semplice, ma molto insidiosa, perché:

  • i dati sono una cosa diversa dalle informazioni
  • una informazione è utile solo se PRIMA abbiamo definito COSA stiamo cercando (definizione del problema)ù
  • prendere decisioni significa ricercare la CORRELAZIONE tra INFORMAZIONI legate da un rapporto Causa _ Effetto

Andiamo per passi:

DATI e INFORMAZIONI

I dati sono sequenze di lettere e numeri a cui attribuiamo un significato.
Questo significa che, prima di approcciate i big data disponibili, dobbiamo ripulire il database di tutti i dati senza significato, perché non identificativi di un processo.
La qualità dei dati si ottiene considerando:

  • integrità
  • accuratezza
  • validità
  • consistenza
  • uniformità

Questo significa che il primo passo da fare, prima di iniziare una qualunque analisi è il DATA CLEANING, senza il quale saremo destinati a scoprire SOLO ALLA FINE che ogni nostra valutazione può essersi basata anche su dati inaffidabili.

INFORMAZIONI UTILI

Quando saremo certi di avere dei dati solidi potremo cominciare a domandarci:
come trasformare dei dati in informazioni utili
Dobbiamo perciò porci queste domande:

  • COSA vogliamo sapere ?
  • PERCHE’ lo vogliamo sapere
  • COSA deve essere misurato?
  • COME viene misurato?

big data2

Farsi chiarezza su queste domande, significa individuare gli strumenti che permettono di estrarre le informazioni dai dati. Questi strumenti appartengono tutti ad una cassetta degli attrezzi che si chiama STATISTICA.

Le domande che di solito ci poniamo possono essere classificate in due categorie:

  • Cosa è realmente successo in passato?
  • Cosa potrebbe succedere in futuro?

Se ci sono due tipi di domande, devono esserci due tipi di strumenti statistici che ci aiutano ad estrarre le informazioni che ci servono (William Edward Deming):

william deming

  • Statistica Descrittiva (Enumerativa) descrive i dati usando grafici e metodi matematici , è focalizzata sulla situazione attuale di un fenomeno e si basa spesso sulla misura di un campione per estrarre informazioni relative ad una popolazione
  • Statistica analitica (Inferenziale) usa i dati estratti da un campione per stimare o predire il comportamento di una popolazione nel futuro (stimando anche il livello di attendibilità della previsione)

Gli strumenti delle statistiche descrittive ed analitiche sono gli unici che permettono di estrarre le informazioni dai big data al punto tale da aver ribaltato completamente il paradigma:

Prima dei BIG DATA Non si possono usare gli strumenti statistici perché non ci sono dati sufficienti
Dopo i BIG DATA Non posso usare i BIG DATA senza gli strumenti statistici

big data3

Esiste però un’altra domanda che dovremo sempre farci: quale confidenza abbiamo sulle informazioni estratte? Solo gli strumenti statistici ci potranno dire che “domani cadranno almeno 22 mm di pioggia con confidenza del 95%”.. il restante 5% è la probabilità che questa previsione non si avveri.

INFORMAZIONI e DECISIONI

L’ultimo passaggio della nostra avventura nei BIG DATA è la manifestazione, ancora completamente umana, di prendere decisioni sulla base delle informazioni raccolte. In altre parole si tratta di distinguere le variabili dipendenti (cause) dalle variabili indipendenti (effetti), e quindi agendo sulle cause otterremo gli effetti desiderati.
In questo caso ci sono tanti strumenti statistici che ci possono aiutare, come, per esempio, le regressioni che ci permetto di definire un modello di correlazione tra variabili.
Di nuovo siamo di fronte ad un argomento scivoloso perché correlazione e causalità sono diversi. Infatti una cosa è affermare che due variabili sono correlate, ben diverso è affermare che una variabile causa un mutamento in un’altra variabile. Sembra uno scioglingua vero ?

CORRELAZIONE ≠CAUSALITÀ

Facciamo un paio di esempi:
Esempio 1: è abbastanza evidente che i lavoratori più anziani tendano ad una retribuzione più alta di quelli giovani. In altre parole l’età anagrafica e la retribuzione sono correlate.
È sufficiente starsene in panciolle invecchiando per aspettarsi di veder aumentare il proprio reddito?
Esempio 2: da una indagine statistica sui bombardieri della RAF, durante la seconda guerra mondiale, emerse che “la probabilità di centrare gli obbiettivi diminuiva quando non erano presenti i caccia della Luftwaffe”… molto strano, si sarebbe detto il contrario, e questa correlazione sembrava inspiegabile, fino a quando si capì che i caccia non si alzavano in volo in caso di elevata nuvolosità, che, allo stesso tempo, diminuiva anche la precisione del bombardamento.
Questi due esempi mettono in evidenza che l’interpretazione delle informazioni rimarrà sempre ambito dell’essere umano, il solo capace di trovare i nessi di causalità.

LE COMPETENZE NEL MONDO DEI BIG DATA

Tutto quanto abbiamo sintetizzato è sufficiente per capire che sono necessarie nuove competenze per affrontare l’epoca della Fabbrica 4.0 , con particolare attenzione ai BIG DATA.

  • DATI ED INFORMAZIONI: Conoscenze Informatiche sulla tecnologia dei dati:
    Struttura dei database
    Sistemi di raccolta dati MES , WMS,Vision e subpixeling, ecc…
    Manipolazione dei dati per il data cleaning ed il drill down dei dati
  • INFORMAZIONI UTILI
    Conoscenza approfondita dei processi da analizzare
    Conoscenza degli strumenti di statistica descrittiva (i grafici veramente utili BOXPLOT, le distribuzioni statistiche, …)
    Conoscenza degli strumenti di statistica analitica (test delle ipotesi, analisi della varianza,…)
  • INFORMAZIONI e DECISIONI
    Project Management per pianificare processi basati sui dati
    Capacità di prendere decisioni conoscendo il livello di confidenza delle informazioni
    Saper individuare le variabili nascoste che trasformano le correlazioni in nessi di causalità
CONCLUSIONI

In un contesto di Fabbrica 4.0 non sono necessari solo computer più potenti e dischi fissi più grandi, non sono necessari solo software capaci di elaborare grandi volumi di dati e sviluppare complessi algoritmi,ma saranno necessari cervelli umani capaci
Definire i problemi in modo chiaro
Estrarre le SOLE informazioni necessarie
Prendere le decisioni sulla base delle informazioni (assumendo il rischio del livello di confidenza)