MEDIDA DE LA PRIVACIDAD

«Un dato es anónimo cuando no es posible su vinculación con la persona a la que está asociado».

El 14 de junio de 2019, la Agencia Española de Protección de Datos (AEPD) ha publicado un documento, orientado a organizaciones que aborden procesos de anonimización sobre conjuntos de datos.

Un documento que analiza:

  • cuáles son los límites en la efectividad de los procesos de anonimización
  • hasta qué punto la información está realmente anonimizada
  • y cómo se puede cuantificar el riesgo de reidentificación.

Nota técnica llamada La K-Anonimidad como medida de la privacidad.

LA K-ANONIMIDAD

¿Qué es la K-anonimidad?

Se analiza la K-anonimidad como una técnica que, entre otros aspectos, permite estudiar el grado de identificación que podría existir en un conjunto de datos, supuestamente anónimo.

Los procesos de anonimización y de disociación reversible de datos personales, aplicables por las empresas, se diferencian en el carácter reversible,  o no, de la información que permite identificar a una persona.

El tratamiento masivo de datos mediante el uso de técnicas basadas en:

  • big data,
  • inteligencia artificial
  • o machine learning

obliga a la implementación de garantías, o mecanismos, para preservar la privacidad y el derecho a la protección de datos personales, entre ellas las basadas en la anonimización, y la k-anonimidad.

Riesgos para las personas

Es una realidad que las fuentes de las que proceden los datos, pese a ser independientes, se interconectan.

Por tanto, existe la posibilidad de crear un rastro electrónico de las personas, incluso habiendo eliminado los datos que explícitamente les identifican.

Es decir, existe un riesgo de que, una vez que se ha anonimizado un conjunto de datos, se pueda revertir esa anonimización, reidentificando a la persona.

Para evitarlo, es necesario utilizar ténicas de K-anonimidad que impidan o dificulten la reidentificación.

responsabilidad proactiva RGPD

PRINCIPIO DE RESPONSABILIDAD PROACTIVA

En aplicación del principio de responsabilidad proactiva establecido en el Reglamento General de Protección de Datos (RGPD), la Agencia recuerda que el responsable debe analizar los riesgos en los tratamientos de datos.

En este caso, los de reidentificación derivado de sus procesos de anonimización, y los generados en el proceso posterior, y en el enriquecimiento de conjuntos de datos.

Las medidas de Privacidad por Defecto y desde el Diseño seleccionadas por la organización, deben implementarse mediante procesos formales que permitan la gestión de dichos riesgos.

OBJETIVO DE LA ?-ANONIMIDAD

El  objetivo del análisis es alcanzar un balance correcto entre la necesidad  de obtener unos resultados con una determinada fidelidad, y el coste que el tratamiento puede tener para los derechos y libertades de los ciudadanos.

Es difícil  conseguir una  anonimización  perfecta, o que garantice, en  términos absolutos, el enmascaramiento de la identidad de las personas.

Bases de datos

Las fuentes de datos empleadas para dichos tratamientos contienen datos personales que se catalogan como “identificadores”.

Los datos identificadores, por sí solos, están asociados de forma unívoca a un sujeto, como son:

  • el DNI,
  • el nombre completo,
  • el pasaporte
  • o el número de la  seguridad social. 

El proceso básico de anonimización consiste en disociar de los identificadores, el resto de los datos más genéricos asociados a un sujeto. como

  • la fecha de nacimiento, 
  • el municipio de residencia, 
  • el género,
  • etc.  

Preservar los datos

El conjunto de datos preservados serán aquellos necesarios para cumplir con el objetivo del tratamiento y, mediante su conservación y  enriquecimiento,  explotarlo, para extraer información adicional.

Sin  embargo, aunque la realización de dicho proceso de anonimización «aparentemente» permite mantener el anonimato, dichos datos, convenientemente agrupados y cruzados con otras fuentes de información, pueden llegar a identificar a un individuo, e incluso relacionarlo con categorías especiales de datos.

Clases de datos

Al conjunto de datos que no son “identificadores”, pero podrían llegar a señalar de forma univoca a un individuo, se les denomina “pseudo-identificadores”, “cuasi-identificadores”, o identificadores indirectos.

Existe el riesgo de que, una  vez que se ha anonimizado un conjunto de datos, se pueda producir una desanonimización de éstos. 

Por lo tanto, es  necesario tener una estimación objetiva de cuál es la probabilidad de reidentificación, a partir del conjunto de cuasi-identificadores y, de esa forma, tener una medida de dicho riesgo.

Evitar la desanonimización

Para gestionar este problema, y evitar la desanonimización de un conjunto de datos, se ha  desarrollado una  disciplina  conocida  como Control  de  Revelación  Estadística  o técnicas  SDC  (Statistical  Disclosure  Control),  cuyo objeto es:

  • estudiar la forma de realizar un tratamiento adicional sobre  la información de los sujetos de datos,
  • de manera óptima,
  • maximizando la  privacidad,
  • al mismo tiempo que se mantienen los objetivos establecidos en la aplicación o servicio que explota dichos datos.

Las técnicas utilizadas en SDC pueden ser clasificadas genéricamente como perturbativas o no perturbativas, en función de si se introduce ruido en la fuente de datos original, o no.

Una de estas técnicas es la K-anonimidad,  técnica que ya  señalaba  el  grupo  de trabajo del artículo 29 de la Directiva 45/96

k-anonimidad

¿HAS QUE PUNTO SE PRESERVA LA ANONIMIDAD?

La ?-anonimidad es una propiedad de los datos anonimizados, que permite cuantificar hasta qué punto se preserva la anonimidad de los sujetos presentes, en un conjunto de datos en el que se han eliminado los identificadores.

Dicho de otro modo, es una medida del riesgo para controlar hasta que punto, agentes externos puedan obtener información de carácter personal, a partir de datos anonimizados.

Si clasificamos los atributos de los registros, según su naturaleza o tipo de información que contienen, distinguimos los siguientes tipos de datos:

•Atributos clave o identificadores:

Son campos que identifican unívocamente a los sujetos de los datos (nombre, DNI, nº de pasaporte, teléfono, …).

Este tipo de datos deben eliminarse de los registros anonimizados.

•Cuasi-identificadores: 

Son campos que, si  bien por si mismos y de forma aislada, no identifican  a un  individuo,  agrupados con otros atributos cuasi-identificadores, pueden señalar de forma unívoca a un sujeto.

Las técnicas de anonimización trabajan sobre estos datos, eliminando  campos que no son necesarios para el tratamiento (en aplicación del principio de minimización), agregándolos o generalizándolos.

•Atributos  sensibles:

Son los campos que contienen datos que podrían  tener un  mayor impacto  en la privacidad de un individuo concreto (entre ellos las categorías especiales de datos), y que no deben ser vinculados con el sujeto de datos al que pertenecen (enfermedades, tratamientos médicos, nivel de renta, …).

Esta información puede ser de gran interés en el objeto del tratamiento de datos, pero a menos que exista una legitimación para ello, debe mantenerse disociada de un sujeto concreto.

Se  dice  que  un individuo  es  k-anónimo,   dentro  del  conjunto  de  datos  en  el  que  se encuentra  incluido,   si para cualquier  combinación de los atributos cuasi-identificadores asociados, existen al menos otros ?−1 individuos que comparten con él, los mismos valores para esos mismos atributos.

Hay que tener en cuenta que la ?-anonimidad no se centra en los atributos sensibles de los registros, sino en los atributos cuasi-identificadores que pueden permitir la vinculación.

MÉTODOS DE ?-ANONIMIDAD

Existen dos métodos ampliamente utilizados para implementar la ?-anonimidad, y que no introducen perturbación en los datos: la generalización y la eliminación.

Se dice que  estos  métodos  son «no perturbativos» porque logran la protección mediante la sustitución de los valores originales de los atributos, por otros valores más generales, sin introducir información errónea en la fuente de datos original.

Generalización:

La generalización consiste en hacer que el valor de los atributos cuasi-identificadores sea menos  preciso,  transformándolos  o  generalizándolos dentro de un conjunto o intervalo que  comparte los mismos valores,  bien  mediante la creación de rangos, en  el caso  de  atributos  numéricos,  o el  establecimiento de  jerarquías para los  atributos nominales.

Como ejemplo de lo que estamos hablando, podemos compararlo con la época en la que yo era estudiante:

Las notas de los alumnos se publicaban en tablones, y se mostraban los nombres y los apellidos de esos alumnos, junto con la nota obtenida en el examen.

Cualquier alumno, e incluso cualquiera que pasara por el pasillo dónde estaba el tablón, podía ver las notas obtenidas por sus compañeros.

Un tiempo después, algunos alumnos protestaron, porque esta forma de publicar su calificaciones, vulneraba su privacidad.

Surgió entonces la necesidad de la Anonimización de las notas publicadas.

¿Cómo se hizo?

Pues sencillamente dejaron de publicar listados dónde aparecían los nombres, y se sustituyeron por sus DNI.

De este modo, el número de registros que poseen los mismos valores para

Eliminación:

El otro método para implementarla ?-anonimidad es la eliminación. 

Al  intentar anonimizar utilizando de forma aislada el método de  eliminación,   o combinado con el método de generalización,  se  obtienen  conjuntos de datos que contienen menos registros que en la fuente de datos original.

Como ejemplo, existe una práctica que lleva años usándose en Agencias de Valores.

Se trata de ocultar los datos de los clientes cuando se imprimen sus documentos.

En aquellos documentos que son imprimidos y que circulan por las oficinas de la empresa, en lugar de figurar los datos personales de los clientes, se coloca un código de barras que identifica al cliente.

Algunos empleados, que tienen acceso a la información, disponen de un lector de códigos de barras conectado a su ordenador.

De esta forma pueden identificar a que cliente corresponde el documento, sin que el resto de empleados, conozca ese dato.

k-anonimidad y disociación

LIMITACIONES DE LA ?-ANONIMIDAD

Generalización y eliminación introducen distintos tipos y grados de  distorsión en el proceso de K-anonimidad. 

Anonimizar  basándose en técnicas de eliminación puede suponer tener que eliminar un número considerable de registros del conjunto de datos tratados, introduciendo un sesgo en la  distribución original de los valores, que puede llegar a distorsionar el resultado de los análisis.

Por su parte, la generalización hace que se desaproveche el  potencial  informativo de los datos atómicos  haciendo que, en el conjunto, se pierda la capacidad de extraer conclusiones del valor de dichos atributos, en su  relación con otros campos de información. 

El problema matemático que hay detrás de transformar un conjunto de datos en otro conjunto de datos de ?-anonimidad, es un problema de complejidad. 

Existen diferentes algoritmos para alcanzar una solución y sobre los que  se construyen diferentes soluciones software, tanto abiertas como comerciales,  que permiten ?-anonimizar el conjunto de datos que se les introduce como entrada.

Algunos ejemplos de este tipo de herramientas que permiten implementar las técnicas de ?-anonimidad son:

•ARX Data Anonymization Tool:

ARX es una herramienta de código abierto que permite transformar conjuntos de datos personales estructurados,  utilizando diferentes métodos de anonimización y técnicas SDC. 

Permite eliminar los atributos identificadores directos (por  ejemplo,  nombres) de los conjuntos de datos, y aplicar reglas a los cuasi-identificadores, para minimizar los ataques de vinculación.

La herramienta soporta varias técnicas de privacidad, entre ellas la k-anonimidad,  así  como modelos de transformación de los datos, como el muestreo aleatorio o la microagregación. 

ARX  es capaz de  manejar  grandes conjuntos  de  datos, y cuenta con una interfaz gráfica multiplataforma intuitiva, además de una API de integración con  Java, para  implementar capacidades de anonimización de  datos, desde software desarrollado bajo este lenguaje de programación.

Enlace de descarga: https://arx.deidentifier.org/downloads/

•Herramienta de anonimización UTD:

Es una herramienta de código abierto desarrollada en el «UT Dallas Data Security y Privacy Lab», que implementa varios métodos de anonimización para uso público por parte de investigadores. 

Los algoritmos se pueden usar tanto directamente contra un dataset o conjunto de datos,como a  través de librerías de funciones implementadas dentro de otras aplicaciones. 

Utiliza métodos de anonimización diferentes, entre ellos la k-anonimidad.

Enlace de descarga: http://cs.utdallas.edu/dspl/cgi-bin/toolbox/index.php?go=download

•Amnesia:

Amnesia es una herramienta de anonimización de datos que permite eliminar la información, no sólo asociada a los  identificadores directos (como nombres o DNIs), sino que también transforma los atributos cuasi-identificadores (como la fecha de nacimiento y el código postal), para mitigar los riesgos de reidentificación de los sujetos que figuran en las fuentes de datos, utilizando para ello métodos de k-anonimidad.

TÉCNICAS DE PRIVACIDAD ADICIONALES

Sin  embargo,  aunque la ?-anonimidad impide desvelar la identidad de un  sujeto de datos concreto (dentro de un conjunto de individuos que compartan los mismos valores para los atributos cuasi-identificadores),  aún  puede fracasar en  la  protección de la revelación de información sensible asociada a este sujeto.

En el caso de que los ?-elementos, de una clase de equivalencia, compartan  un mismo valor para un  atributo considerado confidencial,  la simple determinación de la pertenencia de un individuo al grupo ?-anonimizado hará que, sin saber su identidad exacta, se le asocie con total certeza al valor sensible protegido, con un porcentaje muy alto de acierto.

Este tipo de vulnerabilidades han motivado la aparición de técnicas de privacidad adicionales:

  • ?-anonimidad p-sensible
  • l-diversidad

Miden el grado de diversidad o variedad de los valores para los datos sensibles, dentro de una clase de equivalencia.

  • t-proximidad
  • δ-revelación

Miden la similitud entre la distribución de los valores de los atributos sensibles, en cada clase de equivalencia, y la distribución global de todos los registros.

La herramienta  ARX , antes  descrita,  implementa,  además de la técnica de ?-anonimidad, algunas de estas otras técnicas, y que están dirigidas a mitigar los ataques de vinculación entre conjuntos de datos.

CONCLUSIONES

  • El deber del responsable del tratamiento es velar por la privacidad de los sujetos de los que trata datos.
  • La anonimización no puede  limitarse a la simple aplicación rutinaria  y pasiva de determinadas reglas de uso común.
  • En aplicación del principio de accountability, el responsable del tratamiento, debe analizar los riesgos de reidentificación en sus procesos de anonimización.
  • Durante las fases de concepción y diseño de un  tratamiento  de  datos de carácter personal,  se ha de realizar un análisis del grado de fidelidad necesario en el resultado del tratamiento.
  • Determinar, de forma  precisa, los  márgenes adecuados de generalización y eliminación, dentro de límites razonables que impidan la distorsión de la realidad.
  • Realizar un análisis de los riesgos para los derechos y libertades del ciudadano y los beneficios legítimos para la sociedad que conlleva la realización de dicho tratamiento, con un determinado grado de precisión.
  • Derivado de ambos análisis, es preciso alcanzar un equilibrio entre el beneficio que obtendrá la sociedad en la realización de un tratamiento, y el coste que dicho tratamiento implica para los derechos y libertades de los sujetos de los datos.
  • Aplicar las técnicas de K-anonimidad.