Il processo di Knowledge Discovery in Database si dettaglia delle fasi seguenti:
- Pulizia dei dati (rimozione di errori formali e logici e di outlier)
- Integrazione dei dati (combinazione di fonti diverse)
- Selezione dei dati (estrazione dei dati in analisi dalla base dati)
- Trasformazione dei dati (manipolazione dei dati in forme adeguate al data mining)
- Data mining (applicazione di metodi analitici per sintetizzare relazioni significative)
- Valutazione delle relazioni (classificazione delle relazioni in termini di utilità)
- Presentazione della conoscenza (visualizzazione e sintesi delle relazioni utili)
In tal senso può essere utile definire un'operazione chiave che risulta essere antecedente al Knowledge Discovery che spesso gli statistici si trovano a dover affrontare: il RECORD LINKAGE.
Il Record Linkage è una operazione che permette di unire più dataset così da poter avere maggiori informazioni. L'obbiettivo è di identificare record riferiti allo stesso individuo, ma collocati in file diversi, attraverso chiavi comuni non perfettamente corrispondenti.
Input: due data set che osservano gruppi di unità sovrapposti.
Problema: mancanza di un codice identificativo univoco e privo di errori
Soluzione: uso di un set di variabili in grado (congiuntamente) di individuare i record
Attenzione: le variabili possono avere “problemi” (non c'è ne una univoca)
Obiettivo: maggior numero di agganci giusti, minor numero di agganci sbagliati
Esistono principalmente 3 tipologie di Record Linkage:
- L’abbinamento Merge by
- Si basa sull’ordinamento dei file da abbinare secondo una chiave identificativa comune
- E’ molto efficiente
- E’ sensibile agli errori sulla chiave identificativa (se non è univoca meglio non utilizzarlo)
- E’ consigliabile quando i file da abbinare appartengono allo stesso sistema informativo
- L’abbinamento deterministico
- Si basa sulla concordanza di un numero sufficiente di variabili comuni:Può tenere conto di valori mancanti e errori nelle variabili di abbinamento
- Permette di graduare il potere informativo delle variabili mediante punteggi:
- Stesso nome = 2 punti
- Stesso cognome = 7 punti
- Stesso anno di nascita = 3 punti
- I punteggi possono essere stabiliti mediante analisi statistica su dati esterni
- Tutte le scelte sul criterio di confronto sono esterne ai dati trattati
- L’abbinamento probabilistico
- Come nell’abbinamento deterministico:
- Si lavora sul confronto di tutte le coppie possibili;
- Si usano punteggi basati su criteri flessibili per stabilire gli abbinamenti
- Ma:
- I punteggi e le soglie usati per scegliere gli abbinamenti dipendono dal problema in esame
- Si tiene conto anche dei livelli di disaccordo nei dati