Las redes de telecomunicaciones son como carreteras que llevan a muchas direcciones, ya que miles de millones de datos que vienen de diferentes conexiones o plataformas circulan por ellas. Mucho de este tráfico consume bastante ancho de banda, ya que se trata de datos pesados (heavy hitters). Para poner un ejemplo, Netflix, YouTube o Google Drive son fuente de estos datos.
Aunque la capacidad de mover datos por diferentes redes suena como algo bastante positivo, esto supone un riesgo, y es que los ciberdelincuentes pueden mandar ataques masivos con los que pueden colapsar internet y saturar partes de la red. La magnitud de estos ataques es muy alta, ya que pueden dejar sin conexión a miles o incluso millones de usuarios y paralizar servicios esenciales. Por este motivo, es importante luchar contra estos ataques y, para ello, lo primero que hay que tener en cuenta es la diferencia entre el tráfico de datos que realmente es legítimo y aquel que resulta una amenaza, algo que requiere una elevada capacidad de análisis.
Ante esta situación y para proponer una solución Telefónica Innovación Digital y un equipo del Grupo de Modelización Matemática y Biocomputación de la UPM han unido fuerzas para generar un gemelo digital capacitado para entrenar a la inteligencia artificial para que pueda identificar los datos y saber la diferencia entre datos maliciosos y los que no lo son.
“Un Gemelo Digital de Red es una réplica virtual y dinámica de la red física”
En base a este lanzamiento, Alberto Mozo, investigador de la UPM y uno de los autores de este trabajo ha explicado que “un Gemelo Digital de Red es una réplica virtual y dinámica de la red física. En configuraciones avanzadas los gemelos digitales de red se alimentan en tiempo real con mediciones de la red real y, a su vez, permiten probar ajustes de configuración en un bucle continuo, sin afectar al servicio activo”.
Dentro de ese entorno controlado, los investigadores generan tráfico sintético que imita tanto el uso cotidiano de los usuarios como los patrones de distintos ataques. Todo ese tráfico se etiqueta automáticamente para indicar si es benigno o malicioso y, con ese conjunto ya clasificado, se entrena un modelo de aprendizaje supervisado, una técnica que permite a la IA aprender comparando ejemplos hasta distinguir qué es normal y qué no debería estar ocurriendo en la red. “El objetivo final es enseñar al sistema a reconocer con precisión la intención detrás de cada flujo pesado, convirtiéndolo en un guardián eficaz de estas autopistas digitales”, explica Amit Karamchandani Batra, investigador de la UPM y primer autor del trabajo.
A partir de ahí, el proyecto se centra en educar a la IA para que pueda proteger la red sin acceder al contenido de los datos, algo clave para mantener la privacidad. La primera meta fue crear, gracias al Gemelo Digital de Red, escenarios realistas que permitieran generar un volumen enorme de datos sintéticos, variados y representativos del comportamiento real. Esto evita usar información de usuarios y garantiza un entorno totalmente seguro.
La segunda meta consistió en entrenar a la IA con estos datos. Se le muestran miles de ejemplos de tráfico ya etiquetado: esto es tráfico normal, esto es una descarga legítima, esto es un ataque. Con ese aprendizaje, la IA empieza a reconocer patrones sin inspeccionar paquetes, algo esencial para proteger la privacidad. “El objetivo es que, una vez entrenada, pueda decidir en milisegundos si un flujo es normal, si es un heavy hitter legítimo o si forma parte de un ataque”, añade Luis de la Cal, investigador de la UPM y coautor del trabajo.
La tercera meta busca cerrar el círculo entre lo virtual y lo real, permitiendo que el gemelo digital y la red física intercambien datos en tiempo real. Eso permite probar nuevas políticas, optimizar el tráfico o testear defensas sin poner en riesgo a los usuarios. Además, actualizando constantemente el gemelo con datos reales, el modelo de IA se mantiene al día ante nuevas amenazas.
La cuarta meta tiene un impacto directo en la comunidad científica: liberar el código fuente y el conjunto de datos para que cualquier investigador pueda consultarlos, analizarlos o construir nuevas soluciones a partir de ellos. Una forma de acelerar la innovación y reforzar la defensa de nuestras redes.