Un estudio de la UNED cuestiona si la IA realmente razona o solo memoriza respuestas

El 75% de los trabajadores gana más de una hora diaria con el uso de inteligencia artificial

El 78% de las empresas europeas ya usa agentes de IA en la mayoría de sus equipos

Por Gabi Galdón López-Quesada

ggaldonlqgmailcom/9/9/15

https://www.linkedin.com/in/community-management-galdon-gabriela/

domingo 08 de febrero de 2026, 13:00h

Escucha la noticia

La inteligencia artificial se ha convertido en una fuente habitual de consulta para millones de personas. Desde dudas académicas hasta cuestiones jurídicas o técnicas, los grandes modelos de lenguaje responden con soltura y aparente seguridad. Sin embargo, una investigación liderada por la Universidad Nacional de Educación a Distancia plantea una pregunta clave para entender el alcance real de estas tecnologías: ¿sus aciertos se basan en razonamiento auténtico o en la simple memorización de patrones aprendidos durante el entrenamiento?

El trabajo, desarrollado por el Departamento de Lenguajes y Sistemas Informáticos y publicado en IEEE, propone una metodología novedosa para diferenciar dos capacidades que a menudo se confunden al evaluar modelos de lenguaje: recordar respuestas vistas previamente y razonar descartando opciones incorrectas. Una distinción especialmente relevante en un contexto en el que la IA empieza a sustituir al buscador tradicional.

Según explica Eva Sánchez Salido, investigadora predoctoral y coautora del estudio, cuando un usuario consulta un chatbot la respuesta puede generarse de dos formas distintas. Por un lado, a partir de información aprendida durante el entrenamiento, lo que limita el acceso a datos recientes y aumenta el margen de error. Por otro, mediante consultas en tiempo real a internet, un proceso generalmente más fiable, aunque no infalible. En ambos casos, la investigadora lanza una advertencia clara: cuanto más convincente es la respuesta, mayor es el riesgo de aceptarla sin verificarla.

Uno de los ejes centrales del análisis es la crítica a los sistemas actuales de evaluación de la IA. Los llamados benchmarks, utilizados para medir el rendimiento de los modelos, suelen ser públicos y ampliamente difundidos, lo que provoca el fenómeno conocido como data contamination. En la práctica, explica el estudio, esto equivale a examinar a un estudiante con un test cuyas respuestas ya conoce. Para evitarlo, el equipo de la UNED combinó pruebas públicas con conjuntos privados diseñados específicamente para la investigación, a los que los modelos no habían tenido acceso.

El 78% de las empresas europeas ya usa agentes de IA en la mayoría de sus equipos

El estudio también pone el foco en las diferencias entre idiomas. Aunque los modelos muestran un rendimiento generalmente más sólido en inglés, su fiabilidad disminuye en español, especialmente en áreas ligadas al contexto cultural y social, como el derecho o la geografía de España. Estos resultados evidencian que hablar con fluidez no implica necesariamente comprender el contexto.

El elemento metodológico más innovador del trabajo es la reformulación NOTO, que elimina la respuesta correcta de una pregunta de opción múltiple y la sustituye por “Ninguna de las otras respuestas”. Este cambio obliga al modelo a descartar activamente las opciones incorrectas, un proceso mucho más cercano al razonamiento humano. Los resultados son contundentes: el rendimiento cae de forma significativa, incluso en los modelos mejor posicionados, lo que sugiere que muchos aciertos previos se basaban en reconocimiento de patrones y no en razonamiento real.

Frente a la idea de que el progreso de la IA pasa únicamente por modelos cada vez más grandes, la investigación apunta a la necesidad de estrategias de entrenamiento más avanzadas y, sobre todo, de sistemas de evaluación menos previsibles y más cercanos al uso real. Medir correctamente qué entiende una inteligencia artificial, y no solo qué acierta, se convierte así en un reto prioritario.

En un momento en el que la IA influye de forma creciente en decisiones académicas, profesionales y cotidianas, el estudio lanza un mensaje claro y directo: acertar no siempre significa entender. Distinguir entre ambas cosas será esencial para desarrollar tecnologías más fiables y para utilizarlas con criterio en ámbitos donde la precisión y la confianza son críticas.

Inteligencia Artificial