Noticias Tecnología

Qué información se necesita para distinguir a una persona entre miles de millones

8 de cada 10 profesores cree que la tecnología facilita el aprendizaje del alumno

Los tres pilares de las tecnologías emergentes que impulsan la innovación

Por Indira Aniorte

lunes 06 de septiembre de 2021, 09:00h

Escucha la noticia

Las ideas sobre la identidad, la privacidad y el anonimato están cambiando rápidamente en esta era de big data y redes sociales. En el nivel más profundo, la identidad tiene que ver con el sentido de sí mismo, la respuesta a la pregunta "¿Quién soy?". Cada uno de nosotros tiene también una identidad biológica (manifestada en las huellas dactilares, los rasgos faciales, las secuencias de ADN) y una identidad legal (nombre, número de la Seguridad Social o firma).

Ahora también tenemos una identidad de datos, definida por diversas combinaciones de rasgos que nos distinguen del resto de la humanidad. En el mundo online tenemos aún más identidades, la mayoría de ellas desconocidas incluso para nosotros mismos.

Por ejemplo, yo soy el historial de mi navegador web. La lista de URLs que he visitado en la última semana o en el último mes es seguramente única para mí, al igual que mis huellas dactilares. Incluso se me podría identificar por la lista de fuentes disponibles en mi navegador, y algunas empresas utilizan estos datos para rastrear a las personas cuando van de un sitio a otro en la web.

La aritmética de la singularidad

Según la revista American Scientist, la demostración de Latanya Sweeney de que el sexo, el código postal y la fecha de nacimiento indica que estos datos son suficientes para identificar a muchos estadounidenses. Pero la aritmética es sencilla.

Para hacer un cálculo aproximado, supongamos que hay 300 millones de personas en Estados Unidos, la mitad hombres y la mitad mujeres, y que están distribuidas uniformemente en 30.000 códigos postales y 36.500 fechas de nacimiento posibles. Cada código postal tiene 5.000 residentes masculinos y 5.000 femeninos.

La cuestión es entonces: Si cada una de las 5.000 personas tiene una fecha de nacimiento elegida al azar entre 36.500 posibilidades, ¿cuántas acabarán teniendo una fecha que no comparte ningún otro miembro del grupo? El número matemáticamente esperado es de 4.360, es decir, el 87%.

El cálculo anterior es solo una aproximación. La población real de Estados Unidos no se distribuye uniformemente ni por edad ni por código postal. Los habitantes de las cohortes más grandes y de las zonas más pobladas pueden esconderse más fácilmente entre la multitud.

Philippe Golle, del Centro de Investigación de Palo Alto, ha publicado una estimación de la identificabilidad basada en los datos del censo. Ha llegado a la conclusión de que la proporción de personas con una combinación única de sexo, código postal y fecha de nacimiento es de algo más del 60%.

Sweeney empezó a trabajar en la "reidentificación" en los años 90, cuando era estudiante de posgrado en el MIT. Su preocupación particular era la privacidad de los datos médicos. En 1997 examinó un lote de documentos hospitalarios publicados con fines estadísticos y pudo identificar los registros de William Weld, antiguo gobernador de Massachusetts. Los datos anónimos incluían el sexo, el código postal de cinco dígitos y la fecha de nacimiento de cada paciente, y Sweeney los cruzó con las listas de votantes.

En parte como reacción a este incidente, la Ley de Portabilidad y Responsabilidad de la Información Sanitaria (HIPAA) de 2003 estableció directrices para proteger la confidencialidad de los pacientes. En general, los datos médicos agregados no deben revelar fechas exactas de nacimiento ni ubicaciones precisas.

ADN