Big Data: tutto quello che c’è da sapere

L’accumularsi costante di file e informazioni all’interno del cyberspazio ha creato una quantità quasi inimmaginabile di materiale; un blocco immenso definito Big Data o Megadati. Per analizzarli è necessario fare ricorso a strumenti specifici, senza i quali sarebbe impossibile dargli un’ordine logico, suddividendoli in diverse categorie.

Col tempo si è cercato di dare una misura ai Megadati, ma il progressivo aumento della loro produzione ha reso complicata questa azione. Basti pensare che nel 2014 il loro volume era pari a 650 Exabite (circa 650 trilioni di byte).

Big Data: come analizzarli

Un interrogativo fondamentale che i ricercatori si sono posti è rivolto a quali strumenti utilizzare per “sortare” una quantità simile di informazioni. Douglas Laney, esperto di Data Analytics, nel 2001 rilasciò un sistema di analisi basato su tre vettori, o semplicemente tre “V” fondamentali: Velocità, Volume e Varietà. Questo ha reso molto più semplice creare una visione di insieme del blocco, garantendo la capacità di mettere in ordine i dati e organizzare il loro immagazzinamento.

A diversi anni dal rilascio di questo metro analitico, sono state aggiunte due “V” volte a effettuare una ricerca più omogenea e mirata: Valore e Veridicità.

Esistono tre tipi di analisi dei dati:

  • Descrittiva: molto utile in ambiente aziendale per tracciare un grafico dell’andamento generale in un determinato periodo di tempo;
  • Predittiva: che pone domande concrete su quale potrebbe essere il futuro di una compagnia, basandosi su dati reali;
  • Prescrittiva: che utilizza le informazioni per generare risposte o soluzioni ai problemi emersi.

Si aggiunge anche il recente fenomeno delle Analisi Automatizzate, che effettuano calcoli senza bisogno di una mano umana a supportarli.

L’utilizzo dei Big Data e la loro produzione

In quanto materiale grezzo, i Big Data non possono essere presi e utilizzati nella loro forma iniziale. Mediante strumenti potenti e specializzati, le informazioni vengono catalogate per tipo, suddivise (o scartate se fuori dall’area di interesse) e analizzate sotto diversi aspetti. Numerose compagnie analizzano i trend in rete per puntare a una clientela specifica e rilasciare così nuovi prodotti senza andare in perdita.

Facciamo un esempio pratico: una casa produttrice di pentole, che vende anche online, prende i Megadati del triennio 2017-2020 e, dopo una lunga analisi, scopre che le persone sono più propense a fare acquisti sulle piattaforme di e-commerce come Amazon. L’azienda potrà quindi scegliere se continuare a investire nei negozi fisici o se spostare la maggior parte del commercio sulla rete.

L’e-commerce non è, tuttavia, l’unica fonte di dati. In realtà, ogni tipologia di piattaforma produce una categoria definita di informazioni, dalla musica più ascoltata fino alle immagini più condivise, dalle notizie ai memes e così via. In questi casi si parla di Human Generated Data.
I dati generati dalle macchine, invece, sono costituiti prevalentemente da coordinate GPS, coordinate bancarie e finanziarie e simili.
Si parla infine di Business Generated Data per tutte quelle informazioni umane o meccaniche che coprono pagamenti, acquisti, vendite e generalmente tutto quello che è legato all’economia nella sua interezza. Sono in assoluto i dati più richiesti da aziende e compagnie.

Etica e legislazione

Una mole tale di informazioni non può, naturalmente, venire utilizzata in maniera discriminata. L’Unione Europea, con il noto GDPR, ha messo un fermo immediato allo sfruttamento delle informazioni sensibili, venendo incontro ai rischi che le singole persone potevano correre.
I primi dubbi sull’etica di questa attività vennero sciolti definitivamente nel 2008, quando Emanuel Derman e Paul Wilmot rilasciarono “il manifesto etico degli scienziati digitali”, che instaurava un codice morale per tutti coloro che maneggiano informazioni.

L’episodio più grave in campo Big Data è stato senza dubbio il caso Cambridge Analytica, per il quale il CEO di Facebook Mark Zuckerberg è finito a processo, accusato di aver usato i dati di 87 milioni di persone per influenzare la campagna politica di Donald Trump, portandolo quindi alla vittoria.

Dopo lo scandalo, Facebook fu costretta a regolare l’uso di queste informazioni, la cui destinazione è, purtroppo, ancora oggi poco chiara.

 

A cura di

Francesco Antoniozzi


FONTI:

CREDITS: