Fonte: Efron (2012), Large-Scale Inference
Microarrays
Fonte: Jeff Leek’s, post
L’era di molte misurazioni su pochi campioni in questa fase ci sono stati importanti sviluppi nell’ambito della biologia con lo sviluppo dei microarray che permettevano di misurare migliaia di geni contemporaneamente. in questa fase il problema principale risulta essere quello dell’era precedente ma la quantità maggiore di dati causa più noise. Qui si vede lo sviluppo di metodi per test multipli e regressione regolarizzata per separare il segnale (ossia l’informazione utile) dal noise (fluttuazioni dovute al caso).
L’era di poche misurazioni su molti campioni Questa era si sovrappone in parte con quella precedente. Le raccolte di dati su vasta scala da parte di EMRs and Medicare sono esempi in cui si dispone di un numero enorme di persone (campioni) ma un numero relativamente modesto di variabili misurate. Qui c’è un grande focus sui metodi statistici per sapere come modellare diverse parti dei dati con modelli gerarchici e separare il segnale dal noise con la calibrazione del modello .
L’era di tutti i dati su tutto Questa è un’era che è quella in cui ci troviamo dove Facebook, Google, Amazon, NSA e altre organizzazioni hanno migliaia o milioni di misurazioni su centinaia di milioni di persone. Il problema pricipale in questa era, al di là del semplice calcolo con una mole cosi ampia di dati, e dei problemi delle ere precedenti, c’è il rischio di legare troppo le previsioni ai dati oggetto di studio (crazy overfitting).