Record Linkage

Record Linkage e Knowledge Discovery

Articoli di approfondimento

Il processo di Knowledge Discovery in Database si dettaglia delle fasi seguenti:

Pulizia dei dati (rimozione di errori formali e logici e di outlier)
Integrazione dei dati (combinazione di fonti diverse)
Selezione dei dati (estrazione dei dati in analisi dalla base dati)
Trasformazione dei dati (manipolazione dei dati in forme adeguate al data mining)
Data mining (applicazione di metodi analitici per sintetizzare relazioni significative)
Valutazione delle relazioni (classificazione delle relazioni in termini di utilità)
Presentazione della conoscenza (visualizzazione e sintesi delle relazioni utili)

In tal senso può essere utile definire un'operazione chiave che risulta essere antecedente al Knowledge Discovery che spesso gli statistici si trovano a dover affrontare: il RECORD LINKAGE.
Il Record Linkage è una operazione che permette di unire più dataset così da poter avere maggiori informazioni. L'obbiettivo è di identificare record riferiti allo stesso individuo, ma collocati in file diversi, attraverso chiavi comuni non perfettamente corrispondenti.

Input: due data set che osservano gruppi di unità sovrapposti.
Problema: mancanza di un codice identificativo univoco e privo di errori
Soluzione: uso di un set di variabili in grado (congiuntamente) di individuare i record
Attenzione: le variabili possono avere “problemi” (non c'è ne una univoca)
Obiettivo: maggior numero di agganci giusti, minor numero di agganci sbagliati

Esistono principalmente 3 tipologie di Record Linkage:

L’abbinamento Merge by

Si basa sull’ordinamento dei file da abbinare secondo una chiave identificativa comune

E’ molto efficiente
E’ sensibile agli errori sulla chiave identificativa (se non è univoca meglio non utilizzarlo)
E’ consigliabile quando i file da abbinare appartengono allo stesso sistema informativo

L’abbinamento deterministico

Si basa sulla concordanza di un numero sufficiente di variabili comuni:Può tenere conto di valori mancanti e errori nelle variabili di abbinamento
Permette di graduare il potere informativo delle variabili mediante punteggi:

Stesso nome = 2 punti
Stesso cognome = 7 punti
Stesso anno di nascita = 3 punti

I punteggi possono essere stabiliti mediante analisi statistica su dati esterni
Tutte le scelte sul criterio di confronto sono esterne ai dati trattati

L’abbinamento probabilistico

Come nell’abbinamento deterministico:

Si lavora sul confronto di tutte le coppie possibili;
Si usano punteggi basati su criteri flessibili per stabilire gli abbinamenti

I punteggi e le soglie usati per scegliere gli abbinamenti dipendono dal problema in esame
Si tiene conto anche dei livelli di disaccordo nei dati