Evoluzione della statistica


Articoli di approfondimento

Le tre ere della statistica

Fonte: Efron (2012), Large-Scale Inference

  1. L’era di enormi insiemi di dati a livello di censimento ci sono state domande semplici ma importanti:
  1. Il periodo classico dove alcuni giganti intellettuli come Pearson, Fisher, Neyman, Hotelling, e il loro successori hanno sviluppato la teoria dell’inferenza capace di ricavare ogni goccia di informazioni da un esperimento scientifico. Le domande trattate tendevano ancora ad essere semplici:
    • Il trattamento A è migliore del trattamento B?
  2. L’era della produzione scientifica di massa, in cui le nuove tecnologie tipizzate dal microarray consentono ad un singolo team di scienziati di produrre dati ad alta dimensione. Ma ora il flusso di dati è accompagnato da una varietà ed una quantità di domande molto elevata, che lo statistico è incaricato di rispondere con stime o test di ipotesi.

Microarrays

Le quattro ere dei dati

Fonte: Jeff Leek’s, post

  1. L’era con non molti dati: prima del 1995 circa, in genere potevamo raccogliere alcune misurazioni alla volta (quindi c’era una capacità di raccogliere dti molto minore risperro a quella attuale). L’intero punto delle statistiche era di cercare di ottimizzare le informazioni da un numero limitato di campioni e cercare di ricavare informazioni significative con metodi come massima verosimiglianza e stimatori minimi della varianza non distorta .
  1. L’era di molte misurazioni su pochi campioni in questa fase ci sono stati importanti sviluppi nell’ambito della biologia con lo sviluppo dei microarray che permettevano di misurare migliaia di geni contemporaneamente. in questa fase il problema principale risulta essere quello dell’era precedente ma la quantità maggiore di dati causa più noise. Qui si vede lo sviluppo di metodi per test multipli e regressione regolarizzata per separare il segnale (ossia l’informazione utile) dal noise (fluttuazioni dovute al caso).

  1. L’era di poche misurazioni su molti campioni Questa era si sovrappone in parte con quella precedente. Le raccolte di dati su vasta scala da parte di EMRs and Medicare sono esempi in cui si dispone di un numero enorme di persone (campioni) ma un numero relativamente modesto di variabili misurate. Qui c’è un grande focus sui metodi statistici per sapere come modellare diverse parti dei dati con modelli gerarchici e separare il segnale dal noise con la calibrazione del modello .

  2. L’era di tutti i dati su tutto Questa è un’era che è quella in cui ci troviamo dove Facebook, Google, Amazon, NSA e altre organizzazioni hanno migliaia o milioni di misurazioni su centinaia di milioni di persone. Il problema pricipale in questa era, al di là del semplice calcolo con una mole cosi ampia di dati, e dei problemi delle ere precedenti, c’è il rischio di legare troppo le previsioni ai dati oggetto di studio (crazy overfitting).