Qué son los datos sintéticos, una solución y una oportunidad al futuro

La confianza en la inteligencia artificial se ha convertido una prioridad para las empresas en 2023

La Unión Europea establece medidas legislativas para la protección de datos

Por Pilar Bernat

pbernattelycom4com /7/7/16

miércoles 01 de febrero de 2023, 23:32h

Actualizado el: 02/01/2023 23:55h

Escucha la noticia

Las empresas cuya actividad, total o parcialmente, está relacionada con la toma de decisiones basada en el análisis de datos han manifestado reiteradamente su preocupación sobre la privacidad, la integridad de esos datos y escasez o insuficiencia de los mismos; pero la solución parece haber llegado y nada más leer el artículo que a continuación sintetizo, comprendí que, una vez más, la ciencia da un paso adelante para solucionar problemas que generamos los humanos.

Es cierto que crear datos sintéticos aporta una nueva plataforma de lanzamiento para el desarrollo de infinidad de herramientas basadas en Big Data y en IA; pero también que el mal uso de la privacidad de los datos que tantos problemas ha generado y tantas legislaciones ha impuesto quedaría resuelto. ¿De qué hablo?

Esta semana se ha publicado un estudio de Kalyan Veeramachaneni, investigador científico del Schwarzman College of Computing del MIT, sobre un concepto nuevo: la generación que datos sintéticos, ciencia que pretende resolver los problemas mencionados mediante el uso de un software que genera datos que parecen reales, pero que no lo son, pero que su fiabilidad permite que se utilicen para probar modelos de aprendizaje automático o crear y probar aplicaciones informáticas sin comprometer datos personales reales.

Características de los datos sintéticos y propuesta de valor

Un conjunto de datos sintéticos tiene las mismas propiedades matemáticas que el conjunto de datos reales que representa, pero no contiene la misma información y se genera tomando una base de datos relacionada (semejante), a partir de la cual se diseña un modelo de aprendizaje automático generativo que da como resultado un segundo conjunto de datos enmascarados, tan grande como se desee (los llamados sintéticos).

Los datos sintéticos ofrecen numerosas propuestas de valor para las empresas

Los datos sintéticos y, siempre según Veeramachaneni, ofrecen numerosas propuestas de valor para las empresas; entre ellas, su capacidad para salvar las lagunas existentes en conjuntos de datos del mundo real o para sustituir datos históricos obsoletos o que ya no son útiles.

"Puedes tomar un número de teléfono y descomponerlo. Cuando lo resintetizas, estás generando un número completamente aleatorio que no existe, pero sigue teniendo las propiedades que necesitas, como 10 dígitos exactos o incluso un código de área específico ", explica Veeramachaneni.

Cinco consejos antes de dar el ‘sí, quiero’ a la política de privacidad

La historia

Hace poco más de una década, el profesor Veeramachaneni y su equipo de investigación trabajaban con grandes cantidades de datos de estudiantes de una plataforma educativa en línea. Los datos se almacenaban en un único servidor y debían encriptarse por motivos de seguridad y normativos; pero el proceso ralentizaba las cosas.

Al principio, el equipo investigador intentó crear un conjunto de datos falsos. Pero como los datos falsos se generaban aleatoriamente, no tenían las mismas propiedades estadísticas que los datos reales. Fue entonces cuando se inició el desarrollo de Synthetic Data Vault, una herramienta de software de código abierto para crear y utilizar conjuntos de datos sintéticos; la cual se construyó utilizando datos reales para entrenar un modelo de aprendizaje automático generativo, que luego creó muestras que tenían las mismas propiedades que los datos reales, sin contener la información específica.

No hay "ninguna diferencia significativa" entre los modelos predictivos generados con datos sintéticos y los reales

En un artículo de 2016, Veeramachaneni y sus coautores Neha Patki y Roy Wedge, también del MIT, demostraron que no había "ninguna diferencia significativa" entre los modelos predictivos generados con datos sintéticos y los reales.

Los casos de uso para el estudio parecen haber incluido software extranjero, data de investigaciones médicas y diferentes pruebas de rendimiento que pueden requerir conjuntos de datos significativamente mayores de los que la mayoría de las organizaciones tienen a mano.

Synthetic Data Vault, que así se denomina el sistema creado, está disponible gratuitamente en GitHub, y la última de sus 40 versiones se publicó en diciembre de 2022. El software, que ahora forma parte de DataCebo, se ha descargado más de un millón de veces y lo utilizan instituciones financieras y compañías de seguros, entre otras.

El 81% de los españoles desconoce el uso que hacen las empresas de sus datos

Datos desidentificados

"Incluso los historiales médicos desidentificados con 40 variables distintas pueden volver a identificarse si, por ejemplo, alguien toma un medicamento específico para tratar una enfermedad rara”

Los desarrolladores de software y los científicos de datos trabajan a menudo con conjuntos de datos que han sido desidentificados, lo que significa que la información personal, como el número de tarjeta de crédito, la fecha de nacimiento, el número de cuenta bancaria o el número del plan de salud, se ha eliminado para proteger la privacidad de las personas; pero este método no es infalible. “Una lista de transacciones con tarjeta de crédito puede no mostrar el número de cuenta, -explica Veeramachaneni-, pero la fecha, el lugar y el importe pueden bastar para rastrear la transacción hasta la noche en que quedó con un amigo para cenar. A mayor escala, incluso los historiales médicos desidentificados con 40 variables distintas pueden volver a identificarse si, por ejemplo, alguien toma un medicamento específico para tratar una enfermedad rara”.

Un conjunto de datos sintéticos no adolece de estas deficiencias. Conserva las correlaciones entre las variables de los datos, la enfermedad rara y el medicamento, sin vincular los datos al individuo con ese diagnóstico o prescripción.

"Hay muchos problemas en torno a la gestión y el acceso a los datos, -continua el científico-, y la situación se complica aún más cuando los equipos de desarrollo, pruebas y depuración se han deslocalizado”, apunta Veeramachaneni. "Los datos sintéticos eliminan la necesidad de trasladar conjuntos de datos reales de un equipo de desarrollo a otro. También permite, almacenar los datos localmente en lugar de conectarse a un servidor central, por lo que los desarrolladores pueden trabajar al ritmo al que están acostumbrados", asegura. Otra ventaja es la posibilidad de corregir los sesgos en los conjuntos de datos y en los modelos que los analizan.

Datos sintéticos