Guía Criterios de Disociación de Datos Personales.

4.1. Aleatorización

La aleatorización es un conjunto de técnicas que modifican la veracidad de los datos con el fin de eliminar el vínculo existente entre ellos y su titular. Si los datos se vuelven lo suficientemente ambiguos, no se podrá identificar a una persona concreta.  
 
Este conjunto de técnicas por sí sola no reduce la particularidad de cada uno de los registros, puesto que estos pueden obtenerse a partir de un único interesado. Puede proteger contra ataques o riesgos de inferencia que se basan en información deducida lógicamente a partir de piezas aparentemente inconexas.  
 
Dentro de la aleatorización encontramos la adición de ruido, permutación, privacidad diferencial. 
 
4.1.1. Adición de ruido 
 
La técnica de adición de ruido es la modificación de los atributos del conjunto de datos para que sean menos exactos, conservando no obstante su distribución general.  
 
Si trata un conjunto de datos, cualquier observador supone que los valores son exactos, pero esto solo es cierto hasta determinado punto.  
 
Un ejemplo de ello es cuando se observa la altura de una persona, esta se mide hasta el centímetro más próximo, es decir 1 metro 80, pero el conjunto de datos anonimizados puede englobar valores con una exactitud de + 10 cms., es decir + 1,70 cm. a 1,90 cm. 
 
Si se utiliza esta técnica de manera competente, un tercero no podrá identificar a una persona ni tampoco debería ser capaz de restaurar los datos o de averiguar cómo se han modificado. 
 
Habitualmente, la adición de ruido debe combinarse con otras técnicas de anonimización, como la eliminación de atributos obvios y de cuasi identificadores.  El nivel de ruido depende de la cantidad y el tipo de información que se requiera, así como del impacto que tenga la revelación de los atributos protegidos en la privacidad de las personas. 
 
En esta técnica pueden surgir errores, entre los que se encuentran los siguientes: 
 
a) Añadir ruido inconsistente: Si el ruido está fuera de escala y no respeta la lógica entre los atributos de un conjunto de datos, un atacante que acceda a la base de datos podrá filtrar el ruido y, en algunos casos, recuperar las entradas que faltan. Es más, si existen pocos elementos en el conjunto de datos, persistirá la posibilidad de vincular las entradas de datos con ruido con una fuente externa. 
 
b) Pensar que la adición de ruido es una medida suficiente: La adición de ruido es una medida complementaria que hace más difícil que un atacante obtenga los datos personales. A no ser que el ruido sea mayor que la información contenida en el conjunto de datos, no se debe pensar que la adición de ruido es una solución completa para la anonimización. 
 
En determinados casos se producen defectos en vez de errores, tal es el caso, por ejemplo, de la realización de una reidentificación que se lleva a cabo en una base de datos de clientes del proveedor de contenidos de videos. 
 
Los técnicos analizaron las propiedades que tiene la base de datos y la anonimizaron. La empresa la hizo pública, teniendo en cuenta la normativa de protección de datos.  
 
Para ello lo que procedió a hacer fue eliminar todo tipo de información que pudiera identificar al cliente, excepto las valoraciones y las fechas. Se añadió ruido a las valoraciones mejorándolas o empeorándolas ligeramente.  
 
A pesar de ello, se descubrió que se podía identificar de manera unívoca el 99 % de los registros de usuarios en el conjunto de datos usando 8 valoraciones y fechas con errores de 14 días a modo de criterio de selección. Aun rebajando los criterios de selección a 2 valoraciones y un error de 3 días, se podía identificar al 68 % de los usuarios. 
 
No solo son errores y defectos los que se encuentran en la aleatorización adición de ruido, también existen garantías como las que siguen a continuación: 

  1. Se pueden singularizar los registros de una persona (quizás de manera no identificable), aunque sean menos fiables.
  2. Se pueden vincular los registros de una misma persona, pero estos son menos fiables, por lo cual se puede vincular un registro real con uno añadido artificialmente (es decir, vincularlo con el ruido). En algunos casos, una atribución incorrecta puede exponer al interesado a un nivel de riesgo significativo, incluso mayor que en el caso de una atribución correcta. 
  3. Se pueden llevar a cabo ataques por inferencia, pero la tasa de éxito será menor, además, no se descartan falsos positivos (o falsos negativos).  

 
4.1.2. Permutación 
 
La técnica de permutación consiste en mezclar los valores de los atributos en una tabla para que algunos de ellos puedan vincularse artificialmente a distintos interesados. 
 
Esta es una estrategia útil en el caso de que sea importante conservar la distribución exacta de cada atributo en el conjunto de datos. La permutación podrá considerarse como una forma de adición de ruido. 
 
En la forma clásica de adición de ruido, los atributos se sustituyen por valores aleatorizados. Generar un ruido consistente puede ser una tarea difícil, aparte de que, si la modificación de los valores de los atributos es mínima, puede que no se obtenga el grado de privacidad deseado.  
 
Con las técnicas de permutación, se intercambian los valores contenidos en el conjunto de datos, trasladándolos de un registro a otro. Esta permuta de datos garantiza que el rango y la distribución de valores sean idénticos, no así las correlaciones entre los valores y las personas.  
 
Si dos o más atributos tienen una relación lógica o una correlación estadística y se permutan independientemente del resto, dicha relación quedará destruida. Por consiguiente, sería importante permutar un conjunto de atributos que estén relacionados entre sí a fin de no romper la relación lógica.  
 
En caso contrario, un atacante podría identificar los atributos permutados y revertir la permutación. Por ejemplo, imaginemos el siguiente subconjunto de atributos en un conjunto de datos médicos: razones para la hospitalización, síntomas y servicio hospitalario responsable. En la mayoría de los casos, existirá una estrecha relación lógica entre los valores, de modo que si se llevara a cabo la permutación en uno solo de estos valores, esta técnica sería detectada e incluso podría revertirse. Al igual que ocurre con la adición de ruido, la permutación por sí sola no permite obtener la anonimización, por lo que siempre debe combinarse con el procedimiento de eliminación de atributos obvios o cuasi identificadores.

4.1.3. Privacidad diferencial 
 
La privacidad diferencial a pesar de pertenecer a las técnicas de anonimización por aleatorización adopta una orientación diferente, ya que esta puede realizarse cuando el responsable del tratamiento de datos genera vistas anonimizadas de un conjunto de datos, al mismo tiempo que almacena una copia de los originales.  
 
A su vez, esta indica al responsable del tratamiento cuánto ruido debe añadir, y en qué forma, para obtener las garantías de privacidad necesarias. En este contexto, es especialmente importante una supervisión continua (como mínimo en cada oportunidad de consulta) para evaluar cualquier posibilidad de identificación de una persona en el conjunto de resultados de las consultas. Sin embargo, conviene aclarar que las técnicas de privacidad diferencial no modifican los datos originales.  Mientras se conserven los datos originales, el responsable del tratamiento es capaz de identificar a los titulares de los datos a partir de los resultados de las consultas de privacidad diferencial mediante el conjunto de los medios que pueden ser razonablemente utilizados. Estos resultados también deben considerarse como datos personales y se les aplica la normativa vigente en la materia. 
 
Una de las ventajas de la privacidad diferencial consiste en el hecho de que los conjuntos de datos se entregan a terceros autorizados como respuesta a una consulta concreta y no simplemente como consecuencia de la publicación de un único conjunto de datos.  
 
Desde el punto de vista de la protección de datos, la mayor dificultad que existe es poseer la capacidad de generar la cantidad adecuada de ruido, es necesario hacer bastante ruido, ya que es un error frecuente no hacerlo, el que se añade a las respuestas verdaderas a fin de proteger la privacidad de las personas y, al mismo tiempo, preservar la utilidad de las respuestas difundidas. 
 
Además, conviene tener el cuidado de no caer en el error de pensar que los datos son anónimos para el tercero cuando el responsable del tratamiento todavía puede identificar al interesado en la base de datos original mediante el conjunto de medios que pueden ser razonablemente utilizados.