Anonimizzazione dei Dati

Cos’è l’Anonimizzazione dei Dati?

L’anonimizzazione dei dati è il processo mediante il quale i dati vengono modificati in modo che non possano essere collegati a una persona specifica. Ciò si ottiene eliminando o modificando le informazioni personalmente identificabili (PII) come nome, indirizzo, numero di previdenza sociale e altri identificatori specifici. Le organizzazioni possono ancora ottenere intuizioni e analizzare senza rivelare le identità degli individui attraverso l’anonimizzazione dei dati.

Concetto e Scopo

L’anonimizzazione dei dati è definita come l’atto di cambiare o trasformare i dati in modo che sia impossibile collegarli a una persona specifica. L’obiettivo dell’anonimizzazione è proteggere la privacy dei soggetti dei dati impedendo la loro identificazione dai dati. Questo è particolarmente critico nei casi in cui le informazioni sono confidenziali, come file medici, operazioni finanziarie o informazioni sui clienti. Attraverso l’anonimizzazione dei dati, le organizzazioni possono ancora estrarre informazioni utili e analizzarle assicurando che la privacy non sia compromessa.

Il processo di anonimizzazione dei dati comporta l’eliminazione o la sostituzione di qualsiasi informazione personalmente identificabile che potrebbe potenzialmente identificare un individuo specifico. Questo include tutto, da nomi, indirizzi, numeri di previdenza sociale, numeri di telefono, indirizzi email e qualsiasi altro identificatore unico. I dati vengono resi indistinguibili rimuovendo gli identificatori, e il collegamento con le persone reali viene interrotto. Tuttavia, l’anonimizzazione dei dati non garantisce completamente l’anonimato, data la possibilità di re-identificazione applicando varie tecniche.

Diagramma di flusso che descrive le fasi dell'anonimizzazione dei dati.  Descrive le fasi dalla raccolta alla trasmissione
Diagramma di flusso che visualizza passo dopo passo il processo di anonimizzazione dei dati

Panoramica del Processo di Anonimizzazione

I quadri normativi come il Regolamento Generale sulla Protezione dei Dati (GDPR) nell’Unione Europea e l’Health Insurance Portability and Accountability Act (HIPAA) negli Stati Uniti sono progettati per fornire linee guida specifiche sull’anonimizzazione dei dati.

L’anonimizzazione dei dati è fondamentale per i trasferimenti transfrontalieri di dati e per l’analisi. Consente alle organizzazioni di raccogliere, analizzare e scambiare informazioni senza violare le norme sulla privacy.

L’anonimizzazione è particolarmente importante per le cartelle cliniche, in quanto contengono informazioni personali che, se divulgate, possono causare danni enormi alle persone. È quindi necessario rimuovere tutte le informazioni identificabili, compresi i nomi dei pazienti, gli indirizzi, i numeri di previdenza sociale e i numeri delle cartelle cliniche. Inoltre, gli indicatori indiretti, come l’età, il sesso e alcune malattie mediche, possono essere generalizzati o soppressi per garantire la privacy.

Rischi Potenziali dell’Anonimizzazione

Uno dei principali pericoli dell’anonimizzazione è il rischio di re-identificazione, quando un insieme di dati anonimi può essere de-anonimizzato e ricollegato all’individuo a cui appartiene.

La de-anonimizzazione dei dati può comprendere diverse funzionalità, quali,

  • il collegamento dei dati richiede l’abbinamento e il collegamento di più insiemi di dati per identificare identificatori comuni al fine di reidentificare i dati anonimizzati;
  • gli attacchi di inferenza si basano sull’inferenza di informazioni sensibili sugli individui grazie a modelli e correlazioni nel set di dati;
  • le informazioni esterne sono definite conoscenze di base, che portano all’identificazione di un individuo attraverso i dati.

Le organizzazioni spesso utilizzano la pseudonimizzazione come uno scudo aggiuntivo contro questi rischi. La pseudonimizzazione implica la sostituzione delle informazioni autentiche con pseudonimi o segnaposti in modo che diventi più difficile riconoscere gli individui per nome. Metodi di pseudonimizzazione, inclusi la tokenizzazione e la crittografia, sono spesso utilizzati per proteggere la privacy dei dati personali durante l’analisi.

Tecniche di Anonimizzazione dei Dati

L’anonimizzazione dei dati può essere realizzata in diversi modi, tutti progettati per raggiungere lo scopo specifico di garantire la privacy. I metodi di anonimizzazione più comuni sono la generalizzazione, la soppressione, l’anatomizzazione, la permutazione e la perturbazione.

Tipo di anonimizzazioneDescrizione della tecnicaEsempio
Mascheramento dei datiNasconde i valori originali con valori modificatiSostituzione di caratteri sensibili in un testo con simboli come “*” o “x”, ad esempio, mascheramento di parte del numero di previdenza sociale nei record dei clienti
PseudonimizzazioneSostituisce gli identificatori privati con pseudonimiSostituzione di “John Smith” con “Mark Spencer” in un set di dati per mantenere la privacy e preservare l’utilità dei dati per l’analisi
GeneralizzazioneSostituisce le informazioni dettagliate con categorie più ampieModifica di età specifiche in intervalli di età, ad esempio trasformando “25” in “20-30”, per anonimizzare i dati sull’età pur mantenendo l’utilità per l’analisi demografica
Scambio di dati (permutazione)Riordina i valori dei dati all’interno di un set di datiIl rimescolamento o la permutazione dei valori degli attributi, come la data di nascita, tra le righe interrompe il legame diretto con gli individui
Perturbazione dei datiAggiunge rumore casuale o lievi alterazioni ai datiL’arrotondamento dei numeri, come l’aggiustamento delle cifre del reddito, impedisce l’identificazione esatta
Dati sinteticiGenera dati artificiali basati su modelli di dati realiUtilizzato al posto di set di dati sensibili per la ricerca o l’addestramento di modelli di apprendimento automatico senza compromettere la privacy individuale

Integrando diverse tecniche e implementando meccanismi di privacy, le organizzazioni possono ottenere i dati necessari anonimizzati per mantenere l’utilità dei dati a fini di ricerca.

Riferimenti

  1.  ISO 25237:2017 Health informatics – Pseudonymization. ISO. 2017. p. 7.
  2. Data anonymization”. The Free Medical Dictionary.
  3. De-anonymization”. Whatis.com.
  4. Opinion 05/2014 on Anonymisation Techniques” (PDF). EU Commission. 10 aprile 2014.
  5. Data anonymization – Wikipedia
  6. What is Data Anonymization | Pros, Cons & Common Techniques | Imperva
  7. What is Data Anonymization | Techniques, Pros, Cons, and Use Cases

Additional Resources