Record Linkage e Knowledge Discovery


Articoli di approfondimento

Il processo di Knowledge Discovery in Database si dettaglia delle fasi seguenti:

  1. Pulizia dei dati (rimozione di errori formali e logici e di outlier)
  2. Integrazione dei dati (combinazione di fonti diverse)
  3. Selezione dei dati (estrazione dei dati in analisi dalla base dati)
  4. Trasformazione dei dati (manipolazione dei dati in forme adeguate al data mining)
  5. Data mining (applicazione di metodi analitici per sintetizzare relazioni significative)
  6. Valutazione delle relazioni (classificazione delle relazioni in termini di utilità)
  7. Presentazione della conoscenza (visualizzazione e sintesi delle relazioni utili)

In tal senso può essere utile definire un'operazione chiave che risulta essere antecedente al Knowledge Discovery che spesso gli statistici si trovano a dover affrontare: il RECORD LINKAGE.
Il Record Linkage è una operazione che permette di unire più dataset così da poter avere maggiori informazioni. L'obbiettivo è di identificare record riferiti allo stesso individuo, ma collocati in file diversi, attraverso chiavi comuni non perfettamente corrispondenti.

Input: due data set che osservano gruppi di unità sovrapposti.
Problema: mancanza di un codice identificativo univoco e privo di errori
Soluzione: uso di un set di variabili in grado (congiuntamente) di individuare i record
Attenzione: le variabili possono avere “problemi” (non c'è ne una univoca)
Obiettivo: maggior numero di agganci giusti, minor numero di agganci sbagliati


Esistono principalmente 3 tipologie di Record Linkage: