Guía Criterios de Disociación de Datos Personales.

4.2. Generalización

La generalización es la segunda familia de técnicas de anonimización. Este enfoque generaliza o diluye los atributos de los interesados modificando las respectivas escalas u órdenes de magnitud (por ejemplo, sustituyendo una ciudad por una región, o una semana por un mes). Aunque la generalización pueda ser efectiva para descartar la singularización, no permite obtener una anonimización eficaz en todos los casos; en concreto, es necesario aplicar enfoques cuantitativos específicos y complejos para impedir la vinculabilidad y la inferencia.  
 
4.2.1. Agregación y Anonimato k 
 
Las técnicas de agregación y anonimato k tienen el objetivo de impedir que un interesado sea singularizado cuando se le agrupa junto con, al menos, un número k de personas. Ejemplo de ello es, cuando se toma un atributo que equivale a la edad de los funcionarios, formando grupos de intervalos de valores, es decir entre 30 a 40 años, entre 40 y 50, haciendo franjas.  
 
Estos métodos son aplicables cuando la correlación de valores puntuales de atributos puede crear cuasi identificadores. 
 
La carencia principal del modelo de anonimato k es que no impide los ataques por inferencia.  
 
En el ejemplo de anonimato k que se expone a continuación, se trata de una base de datos, (tabla de Excel), con “n” filas y “m” columnas, en la que cada fila representa un registro relacionando con una persona concreta, de un departamento del país que es paciente de un hospital ficticio en Uruguay. Los valores en las columnas describen las características atributos que se asocian con todos los miembros de esa población.  
 
La tabla siguiente es una base de datos no anonimizada que incluye los registros de pacientes mencionados:

NombreEdadGéneroDepartamentoReligiónPatología
Juana Rivero19FArtigasCatólicaEsclerosis
María González23FRiveraHindúInfección
Ricardo Pérez43MCerro LargoMormónNinguna
Anibal Rojas54LavallejaCatólicaRenal
Manuel Quinte59MMontevideoCatólicaCáncer
Jesus Sosa29MMaldonadoMusulmánCáncer
Lorena Quiroz33FRochaBudismoRenal
Alejandra Rodo51FColoniaCatólicaEsclerosis
Natalia Pacheco45FSorianoHindúInfección
Javier Medina34MSorianoMormónRenal
Angela Torres18FArtigasMusulmánListeria
Lucas Iglesias58MTacuarembóBudismoListeria

                            Tabla 1. Datos no anonimizados con inclusión de los registros de pacientes.

La Tabla 1 consta de 6 atributos y 12 registros. Para obtener un anonimato k existen dos métodos comunes que se pueden utilizar, cada uno con sus riesgos y errores asociados: 
 
a) Supresión: En este método, todos o algunos valores de los atributos son reemplazados por un asterisco “*”, de igual forma los de las columnas. En la tabla anonimizada inferior, todos los valores en el atributo “Nombre” y en el atributo “religión” han sido reemplazados por un “*”. 

b) Generalización: En este método, los valores individuales de atributos son reemplazados por una categoría más amplia. Por ejemplo, el valor “19” del atributo “Edad” puede ser reemplazado por “≤ 20”, el valor “23” por “20 < Edad ≤ 30”, etc.  
 
La siguiente tabla muestra la base de datos anonimizada con la aplicación de los métodos descriptos: 

NombreEdadGéneroDepartamentoReligiónPatología
*Edad<20FArtigas*Esclerosis
*20<Edad<30FRivera*Infección
*40<Edad<50MCerro Largo*Ninguna
*50<Edad<60MLavalleja*Renal
*50<Edad<60MMontevideo*Cáncer
*20<Edad<30MMaldonado*Cáncer
*30<Edad<40FRocha*Renal
*50<Edad<60FColonia*Esclerosis
*40<Edad<50FSoriano*Infección
*30<Edad<40MSoriano*Renal
*Edad<20FArtigas*Listeria
*50<Edad<60MTacuarembó*Listeria

                      Tabla 2. Datos anonimizados con inclusión de los registros de pacientes.

Los datos relativos a los atributos “Edad”, “Género” y “Departamento”, son anónimos, ya que si se combinan cualquiera de ellos se encontrarán al menos 2 filas con idénticos atributos.  
 
Por ejemplo: la fila 1 con la fila 11, en la que se encuentran dos registros con edad < 20, ambas femeninas. 
 
La combinación de los atributos se denomina cuasi identificadores por la potencialidad de reidentificación que puede inferirse, es decir que en un caso concreto, si sabemos que Juana Rivero de 19 años, oriunda de Artigas está en la base de datos de la institución de salud, padece de esclerosis o listeria. 
 
Además, se puede combinar con técnicas de generalización para obtener mayores garantías de privacidad. Es posible que haya que aplicar otras técnicas para garantizar que un registro no sirva para identificar a una persona. 
 
4.2.2. Diversidad l y Proximidad t 
 
La diversidad l extiende el anonimato k para garantizar que ya no se puedan realizar ataques por inferencia deterministas. Para ello, se debe prevenir que en cada clase de equivalencia, todos los atributos tienen al menos l valores diferentes.  
 
Uno de los objetivos consiste en limitar la ocurrencia de clases de equivalencia que tengan una variabilidad de atributos escasa. Por lo que, si quien quiere reidentificar al titular del dato posee conocimientos previos sobre este, siempre estará sometido a un grado significativo de incertidumbre. 

La diversidad l es útil para proteger los datos ante ataques por inferencia, esto es cuando se efectúa el análisis de datos con el fin de obtener ilegítimamente conocimientos sobre un tema o una base de datos, para determinar lo que debe ser protegido en un mayor nivel de seguridad siempre que los valores de los atributos estén bien distribuidos. 
 
La proximidad t es un perfeccionamiento de la diversidad l. Consiste en crear clases equivalentes que se parezcan a la distribución inicial de los atributos en la tabla. Esta técnica es útil cuando haya que conservar los datos lo más próximo posible a los originales. Para ello, se añade una nueva restricción a la clase de equivalencia: no basta con que existan al menos l valores diferentes en cada clase de equivalencia, sino que, además, cada valor debe representarse tantas veces como sea necesario a fin de reflejar la distribución inicial de cada atributo. 
 
Igual que ocurre con el anonimato k, la diversidad l y la proximidad t garantizan que los registros relativos a unapersona no se puedan distinguir o destacar de las otras personas en la base de datos. 
 
Tanto la diversidad l y la proximidad t, en relación al anonimato k, no se pueden llevar a cabo ataques por inferencia contra una base de datos con diversidad l o proximidad t con un cien por ciento de confianza. 
 
Con respecto a la diversidad l se producen insuficiencias que se trata de ejemplificar en la Tabla 3 que sigue: 

Año de nacimientoSexoCódigo PostalDepartamentoDiagnóstico
1950F11*MontevideoCáncer
1963F11*MontevideoCardiopatía
1967F11*MontevideoNeuromialgia
1963F11*MontevideoIctus-Acv
1955F11*MontevideoIctus-Acv
1952F11*MontevideoCáncer
1963F11*MontevideoCardiopatía
1939F11*MontevideoNeuromialgia
1970F11*MontevideoCáncer
1970F11*MontevideoColesterol
1963F11*MontevideoCardiopatía
1963F11*MontevideoIctus-Acv

   Tabla 3: con diversidad l cuyos valores para el atributo “Diagnóstico” no se han distribuido de manera           uniforme. 

Sin embargo, si se está al tanto que una de las personas nació en 1963 y que aparece en esta tabla, se podría deducir que, muy probablemente, sufrió un ICTUS-ACV como refleja la Tabla 4:

ApellidoAño de nacimientoSexo
Jimenez1950F
Rosas1963F
Pérez1967F
Roque1963F
Lima1955F
Gonzalez1952F
Alonso1963F
Maneiro1939F
Castellano1970F
Reta1970F
Berreta1963F
Gross1963F

Tabla 4: Si un atacante supiera que estas personas están en la tabla 3, podría inferir que sufrieron un ICTUS-ACV.