MEDIDA DE LA PRIVACIDAD
«Un dato es anónimo cuando no es posible su vinculación con la persona a la que está asociado».
El 14 de junio de 2019, la Agencia Española de Protección de Datos (AEPD) ha publicado un documento, orientado a organizaciones que aborden procesos de anonimización sobre conjuntos de datos.
Un documento que analiza:
- cuáles son los límites en la efectividad de los procesos de anonimización
- hasta qué punto la información está realmente anonimizada
- y cómo se puede cuantificar el riesgo de reidentificación.
Nota técnica llamada La K-Anonimidad como medida de la privacidad.
LA K-ANONIMIDAD
¿Qué es la K-anonimidad?
Se analiza la K-anonimidad como una técnica que, entre otros aspectos, permite estudiar el grado de identificación que podría existir en un conjunto de datos, supuestamente anónimo.
Los procesos de anonimización y de disociación reversible de datos personales, aplicables por las empresas, se diferencian en el carácter reversible, o no, de la información que permite identificar a una persona.
El tratamiento masivo de datos mediante el uso de técnicas basadas en:
- big data,
- inteligencia artificial
- o machine learning
obliga a la implementación de garantías, o mecanismos, para preservar la privacidad y el derecho a la protección de datos personales, entre ellas las basadas en la anonimización, y la k-anonimidad.
Riesgos para las personas
Es una realidad que las fuentes de las que proceden los datos, pese a ser independientes, se interconectan.
Por tanto, existe la posibilidad de crear un rastro electrónico de las personas, incluso habiendo eliminado los datos que explícitamente les identifican.
Es decir, existe un riesgo de que, una vez que se ha anonimizado un conjunto de datos, se pueda revertir esa anonimización, reidentificando a la persona.
Para evitarlo, es necesario utilizar ténicas de K-anonimidad que impidan o dificulten la reidentificación.

PRINCIPIO DE RESPONSABILIDAD PROACTIVA
En aplicación del principio de responsabilidad proactiva establecido en el Reglamento General de Protección de Datos (RGPD), la Agencia recuerda que el responsable debe analizar los riesgos en los tratamientos de datos.
En este caso, los de reidentificación derivado de sus procesos de anonimización, y los generados en el proceso posterior, y en el enriquecimiento de conjuntos de datos.
Las medidas de Privacidad por Defecto y desde el Diseño seleccionadas por la organización, deben implementarse mediante procesos formales que permitan la gestión de dichos riesgos.
OBJETIVO DE LA ?-ANONIMIDAD
El objetivo del análisis es alcanzar un balance correcto entre la necesidad de obtener unos resultados con una determinada fidelidad, y el coste que el tratamiento puede tener para los derechos y libertades de los ciudadanos.
Es difícil conseguir una anonimización perfecta, o que garantice, en términos absolutos, el enmascaramiento de la identidad de las personas.
Bases de datos
Las fuentes de datos empleadas para dichos tratamientos contienen datos personales que se catalogan como “identificadores”.
Los datos identificadores, por sí solos, están asociados de forma unívoca a un sujeto, como son:
- el DNI,
- el nombre completo,
- el pasaporte
- o el número de la seguridad social.
El proceso básico de anonimización consiste en disociar de los identificadores, el resto de los datos más genéricos asociados a un sujeto. como
- la fecha de nacimiento,
- el municipio de residencia,
- el género,
- etc.
Preservar los datos
El conjunto de datos preservados serán aquellos necesarios para cumplir con el objetivo del tratamiento y, mediante su conservación y enriquecimiento, explotarlo, para extraer información adicional.
Sin embargo, aunque la realización de dicho proceso de anonimización «aparentemente» permite mantener el anonimato, dichos datos, convenientemente agrupados y cruzados con otras fuentes de información, pueden llegar a identificar a un individuo, e incluso relacionarlo con categorías especiales de datos.
Clases de datos
Al conjunto de datos que no son “identificadores”, pero podrían llegar a señalar de forma univoca a un individuo, se les denomina “pseudo-identificadores”, “cuasi-identificadores”, o identificadores indirectos.
Existe el riesgo de que, una vez que se ha anonimizado un conjunto de datos, se pueda producir una desanonimización de éstos.
Por lo tanto, es necesario tener una estimación objetiva de cuál es la probabilidad de reidentificación, a partir del conjunto de cuasi-identificadores y, de esa forma, tener una medida de dicho riesgo.
Evitar la desanonimización
Para gestionar este problema, y evitar la desanonimización de un conjunto de datos, se ha desarrollado una disciplina conocida como Control de Revelación Estadística o técnicas SDC (Statistical Disclosure Control), cuyo objeto es:
- estudiar la forma de realizar un tratamiento adicional sobre la información de los sujetos de datos,
- de manera óptima,
- maximizando la privacidad,
- al mismo tiempo que se mantienen los objetivos establecidos en la aplicación o servicio que explota dichos datos.
Las técnicas utilizadas en SDC pueden ser clasificadas genéricamente como perturbativas o no perturbativas, en función de si se introduce ruido en la fuente de datos original, o no.
Una de estas técnicas es la K-anonimidad, técnica que ya señalaba el grupo de trabajo del artículo 29 de la Directiva 45/96

¿HAS QUE PUNTO SE PRESERVA LA ANONIMIDAD?
La ?-anonimidad es una propiedad de los datos anonimizados, que permite cuantificar hasta qué punto se preserva la anonimidad de los sujetos presentes, en un conjunto de datos en el que se han eliminado los identificadores.
Dicho de otro modo, es una medida del riesgo para controlar hasta que punto, agentes externos puedan obtener información de carácter personal, a partir de datos anonimizados.
Si clasificamos los atributos de los registros, según su naturaleza o tipo de información que contienen, distinguimos los siguientes tipos de datos:
•Atributos clave o identificadores:
Son campos que identifican unívocamente a los sujetos de los datos (nombre, DNI, nº de pasaporte, teléfono, …).
Este tipo de datos deben eliminarse de los registros anonimizados.
•Cuasi-identificadores:
Son campos que, si bien por si mismos y de forma aislada, no identifican a un individuo, agrupados con otros atributos cuasi-identificadores, pueden señalar de forma unívoca a un sujeto.
Las técnicas de anonimización trabajan sobre estos datos, eliminando campos que no son necesarios para el tratamiento (en aplicación del principio de minimización), agregándolos o generalizándolos.
•Atributos sensibles:
Son los campos que contienen datos que podrían tener un mayor impacto en la privacidad de un individuo concreto (entre ellos las categorías especiales de datos), y que no deben ser vinculados con el sujeto de datos al que pertenecen (enfermedades, tratamientos médicos, nivel de renta, …).
Esta información puede ser de gran interés en el objeto del tratamiento de datos, pero a menos que exista una legitimación para ello, debe mantenerse disociada de un sujeto concreto.
Se dice que un individuo es k-anónimo, dentro del conjunto de datos en el que se encuentra incluido, si para cualquier combinación de los atributos cuasi-identificadores asociados, existen al menos otros ?−1 individuos que comparten con él, los mismos valores para esos mismos atributos.
Hay que tener en cuenta que la ?-anonimidad no se centra en los atributos sensibles de los registros, sino en los atributos cuasi-identificadores que pueden permitir la vinculación.
MÉTODOS DE ?-ANONIMIDAD
Existen dos métodos ampliamente utilizados para implementar la ?-anonimidad, y que no introducen perturbación en los datos: la generalización y la eliminación.
Se dice que estos métodos son «no perturbativos» porque logran la protección mediante la sustitución de los valores originales de los atributos, por otros valores más generales, sin introducir información errónea en la fuente de datos original.
Generalización:
La generalización consiste en hacer que el valor de los atributos cuasi-identificadores sea menos preciso, transformándolos o generalizándolos dentro de un conjunto o intervalo que comparte los mismos valores, bien mediante la creación de rangos, en el caso de atributos numéricos, o el establecimiento de jerarquías para los atributos nominales.
Como ejemplo de lo que estamos hablando, podemos compararlo con la época en la que yo era estudiante:
Las notas de los alumnos se publicaban en tablones, y se mostraban los nombres y los apellidos de esos alumnos, junto con la nota obtenida en el examen.
Cualquier alumno, e incluso cualquiera que pasara por el pasillo dónde estaba el tablón, podía ver las notas obtenidas por sus compañeros.
Un tiempo después, algunos alumnos protestaron, porque esta forma de publicar su calificaciones, vulneraba su privacidad.
Surgió entonces la necesidad de la Anonimización de las notas publicadas.
¿Cómo se hizo?
Pues sencillamente dejaron de publicar listados dónde aparecían los nombres, y se sustituyeron por sus DNI.
De este modo, el número de registros que poseen los mismos valores para
Eliminación:
El otro método para implementarla ?-anonimidad es la eliminación.
Al intentar anonimizar utilizando de forma aislada el método de eliminación, o combinado con el método de generalización, se obtienen conjuntos de datos que contienen menos registros que en la fuente de datos original.
Como ejemplo, existe una práctica que lleva años usándose en Agencias de Valores.
Se trata de ocultar los datos de los clientes cuando se imprimen sus documentos.
En aquellos documentos que son imprimidos y que circulan por las oficinas de la empresa, en lugar de figurar los datos personales de los clientes, se coloca un código de barras que identifica al cliente.
Algunos empleados, que tienen acceso a la información, disponen de un lector de códigos de barras conectado a su ordenador.
De esta forma pueden identificar a que cliente corresponde el documento, sin que el resto de empleados, conozca ese dato.

LIMITACIONES DE LA ?-ANONIMIDAD
Generalización y eliminación introducen distintos tipos y grados de distorsión en el proceso de K-anonimidad.
Anonimizar basándose en técnicas de eliminación puede suponer tener que eliminar un número considerable de registros del conjunto de datos tratados, introduciendo un sesgo en la distribución original de los valores, que puede llegar a distorsionar el resultado de los análisis.
Por su parte, la generalización hace que se desaproveche el potencial informativo de los datos atómicos haciendo que, en el conjunto, se pierda la capacidad de extraer conclusiones del valor de dichos atributos, en su relación con otros campos de información.
El problema matemático que hay detrás de transformar un conjunto de datos en otro conjunto de datos de ?-anonimidad, es un problema de complejidad.
Existen diferentes algoritmos para alcanzar una solución y sobre los que se construyen diferentes soluciones software, tanto abiertas como comerciales, que permiten ?-anonimizar el conjunto de datos que se les introduce como entrada.
Algunos ejemplos de este tipo de herramientas que permiten implementar las técnicas de ?-anonimidad son:
•ARX Data Anonymization Tool:
ARX es una herramienta de código abierto que permite transformar conjuntos de datos personales estructurados, utilizando diferentes métodos de anonimización y técnicas SDC.
Permite eliminar los atributos identificadores directos (por ejemplo, nombres) de los conjuntos de datos, y aplicar reglas a los cuasi-identificadores, para minimizar los ataques de vinculación.
La herramienta soporta varias técnicas de privacidad, entre ellas la k-anonimidad, así como modelos de transformación de los datos, como el muestreo aleatorio o la microagregación.
ARX es capaz de manejar grandes conjuntos de datos, y cuenta con una interfaz gráfica multiplataforma intuitiva, además de una API de integración con Java, para implementar capacidades de anonimización de datos, desde software desarrollado bajo este lenguaje de programación.
Enlace de descarga: https://arx.deidentifier.org/downloads/
•Herramienta de anonimización UTD:
Es una herramienta de código abierto desarrollada en el «UT Dallas Data Security y Privacy Lab», que implementa varios métodos de anonimización para uso público por parte de investigadores.
Los algoritmos se pueden usar tanto directamente contra un dataset o conjunto de datos,como a través de librerías de funciones implementadas dentro de otras aplicaciones.
Utiliza métodos de anonimización diferentes, entre ellos la k-anonimidad.
Enlace de descarga: http://cs.utdallas.edu/dspl/cgi-bin/toolbox/index.php?go=download
•Amnesia:
Amnesia es una herramienta de anonimización de datos que permite eliminar la información, no sólo asociada a los identificadores directos (como nombres o DNIs), sino que también transforma los atributos cuasi-identificadores (como la fecha de nacimiento y el código postal), para mitigar los riesgos de reidentificación de los sujetos que figuran en las fuentes de datos, utilizando para ello métodos de k-anonimidad.
TÉCNICAS DE PRIVACIDAD ADICIONALES
Sin embargo, aunque la ?-anonimidad impide desvelar la identidad de un sujeto de datos concreto (dentro de un conjunto de individuos que compartan los mismos valores para los atributos cuasi-identificadores), aún puede fracasar en la protección de la revelación de información sensible asociada a este sujeto.
En el caso de que los ?-elementos, de una clase de equivalencia, compartan un mismo valor para un atributo considerado confidencial, la simple determinación de la pertenencia de un individuo al grupo ?-anonimizado hará que, sin saber su identidad exacta, se le asocie con total certeza al valor sensible protegido, con un porcentaje muy alto de acierto.
Este tipo de vulnerabilidades han motivado la aparición de técnicas de privacidad adicionales:
- ?-anonimidad p-sensible
- l-diversidad
Miden el grado de diversidad o variedad de los valores para los datos sensibles, dentro de una clase de equivalencia.
- t-proximidad
- δ-revelación
Miden la similitud entre la distribución de los valores de los atributos sensibles, en cada clase de equivalencia, y la distribución global de todos los registros.
La herramienta ARX , antes descrita, implementa, además de la técnica de ?-anonimidad, algunas de estas otras técnicas, y que están dirigidas a mitigar los ataques de vinculación entre conjuntos de datos.
CONCLUSIONES
- El deber del responsable del tratamiento es velar por la privacidad de los sujetos de los que trata datos.
- La anonimización no puede limitarse a la simple aplicación rutinaria y pasiva de determinadas reglas de uso común.
- En aplicación del principio de accountability, el responsable del tratamiento, debe analizar los riesgos de reidentificación en sus procesos de anonimización.
- Durante las fases de concepción y diseño de un tratamiento de datos de carácter personal, se ha de realizar un análisis del grado de fidelidad necesario en el resultado del tratamiento.
- Determinar, de forma precisa, los márgenes adecuados de generalización y eliminación, dentro de límites razonables que impidan la distorsión de la realidad.
- Realizar un análisis de los riesgos para los derechos y libertades del ciudadano y los beneficios legítimos para la sociedad que conlleva la realización de dicho tratamiento, con un determinado grado de precisión.
- Derivado de ambos análisis, es preciso alcanzar un equilibrio entre el beneficio que obtendrá la sociedad en la realización de un tratamiento, y el coste que dicho tratamiento implica para los derechos y libertades de los sujetos de los datos.
- Aplicar las técnicas de K-anonimidad.