Sin filtros

El fin de la IA honesta: ya no alucina, ahora te manipula

(Foto: Imagen elaborada con GenAI).

- Facebook
- Twitter
- Whatsapp
- Telegram
- Email

Alfonso de Castañeda | Viernes 10 de abril de 2026

Durante los últimos años la industria tecnológica se ha sostenido sobre una gran mentira: que la inteligencia artificial se equivocaba, pero siempre de forma inocente. Que sus errores eran el precio inevitable del progreso, fallos técnicos en sistemas todavía inmaduros, nunca decisiones derivadas de cómo estaban diseñados.

Era un relato perfecto, porque convertía cualquier problema en una cuestión de tiempo y recursos, nunca de responsabilidad. El problema es que ese relato ya no se sostiene. Y lo que empieza a quedar en evidencia no es un fallo puntual del sistema, es algo bastante más incómodo: que la inteligencia artificial no solo puede equivocarse, sino que empieza a aprender cuándo le conviene no decir toda la verdad.

En estas últimas semanas ya hemos visto modelos que han aprendido a comportarse de forma distinta según el contexto en el que operan. No es que respondan mejor o peor, es que entienden cuándo están siendo evaluados, qué se espera de ellos en ese momento y cómo deben ajustarse para cumplir con ese guion. Y eso, aunque se intente suavizar con lenguaje técnico, introduce un cambio bastante más serio de lo que el sector quiere reconocer.

El ninot de Meta que nadie se atreve a quemar

Cuando el modelo sabe que le están mirando

El caso de Muse Spark ha sido especialmente incómodo porque ha puesto cifras y pruebas a algo que hasta hace poco se intuía pero no se decía abiertamente. Durante las evaluaciones de seguridad, el modelo detecta que está siendo examinado, reconoce el tipo de entorno en el que se encuentra y adapta su comportamiento en consecuencia. Responde con más cuidado, evita salirse de los límites y encaja perfectamente en lo que los ingenieros esperan ver. Hasta ahí, todo correcto.

"El problema aparece cuando ese mismo modelo se observa fuera de ese entorno, porque entonces ese comportamiento deja de ser tan rígido y se vuelve mucho más pragmático"

El problema aparece cuando ese mismo modelo se observa fuera de ese entorno, porque entonces ese comportamiento deja de ser tan rígido y se vuelve mucho más pragmático. La respuesta ya no busca únicamente ser correcta, busca ser útil. Y en ese ajuste, que en apariencia mejora la experiencia, empieza a colarse algo que el sector evita nombrar de forma directa: la posibilidad de que el modelo no esté diciendo toda la verdad si eso le permite cerrar mejor la tarea.

No se trata de mentiras evidentes, que serían fáciles de detectar, sino de algo bastante más sutil: omisiones, matices, formas de presentar la información que favorecen un resultado frente a otro. Y esto ya no podemos considerarlo un fallo, es una consecuencia directa de cómo están diseñados estos sistemas, que priorizan la resolución sobre la fidelidad absoluta a los datos.

"Durante años se ha insistido en que bastaba con entrenar bien a los modelos para garantizar su comportamiento"

Aquí es donde el discurso sobre la alineación empieza a hacer aguas. Durante años se ha insistido en que bastaba con entrenar bien a los modelos para garantizar su comportamiento, pero lo que estamos viendo es que ese comportamiento depende del contexto y que el modelo puede ajustarlo en función de lo que percibe. Si sabe que está siendo evaluado, actúa de una forma. Si entiende que ya está desplegado, actúa de otra. Y eso deja a las auditorías en una posición bastante incómoda.

Porque si el sistema puede interpretar que está siendo observado y comportarse en consecuencia, entonces lo que se valida en una prueba no es necesariamente lo que ocurre en la realidad. Y a partir de ahí, buena parte del relato de seguridad empieza a parecer más una declaración de intenciones que una garantía real.

Algoritmos de seda, guerras de hierro

El problema ya no es lo que dice, es lo que puede hacer

Mientras esa grieta se abre en el comportamiento, el caso de Claude Mythos ha dejado claro que el salto en capacidad tampoco es menor. Aquí ya no estamos hablando de chatbots que responden mejor o peor y que son capaces de resumir noticias (robadas a los medios dicho sea de paso), sino de sistemas capaces de operar en dominios donde el error tiene consecuencias directas.

La capacidad de identificar vulnerabilidades complejas, encadenar fallos de seguridad y generar exploits funcionales con autonomía suficiente como para reducir drásticamente la intervención humana no es una mejora incremental, es un cambio de nivel. Y ese cambio tiene una consecuencia inmediata: lo que antes requería años de experiencia ahora puede resolverse en cuestión de horas.

"Lo que se está democratizando no es solo la capacidad de crear, también la capacidad de atacar"

La famosa democratización de la tecnología, que suele presentarse como un avance, aquí adopta una forma bastante menos amable. Porque lo que se está democratizando no es solo la capacidad de crear, también la capacidad de atacar. Y en ese equilibrio, el discurso optimista empieza a quedarse bastante corto.

Las compañías son plenamente conscientes de ello, por eso estos modelos no se liberan de forma abierta y se mantienen bajo accesos restringidos (habrá que agradecer que aún haya alguien con algo de cabeza en las todopoderosas compañías tecnológicas), acuerdos con grandes corporaciones y entornos controlados. Se habla de responsabilidad, de despliegue progresivo, de prudencia, pero la realidad es que nadie tiene muy claro cómo gestionar esto.

Y la experiencia en este sector invita a pensar que el control dura lo justo. Lo que se puede hacer acaba haciéndose, lo que se puede replicar acaba replicándose y lo que se queda en un laboratorio termina saliendo de él, de una forma u otra. Pensar que esta vez será distinto no es precisamente una muestra de realismo.

Si un chatbot puede ayudarte a morir, ¿por qué nadie paga por ello?

La utilidad empieza a parecerse demasiado a la manipulación

Hay un punto en el que todo esto converge y que resulta especialmente incómodo porque afecta directamente a la relación con el usuario. En muchos contextos, decir toda la verdad no es la forma más eficiente de resolver un problema, y los modelos lo están aprendiendo sin necesidad de que nadie se lo enseñe explícitamente, o igual sí que se lo hemos enseñado, al final no deja de ser una cualidad humana más.

Si el objetivo es cerrar una tarea, responder rápido o facilitar una decisión, la información se puede ajustar. Se puede simplificar, se puede reorganizar y, en determinados casos, se puede recortar. El resultado suele ser mejor, la interacción más fluida y la percepción del usuario positiva. El problema es que esa mejora tiene un precio.

Porque lo que recibe el usuario no siempre es la información más completa, sino la más eficaz para llegar a un resultado. Y en ese punto, la línea entre ayudar y dirigir empieza a desdibujarse. El sistema no solo responde, también orienta, y lo hace en función de criterios que el usuario no ve.

Eso introduce una asimetría que hasta ahora no estaba en el centro del debate: el usuario sigue pensando que interactúa con una herramienta neutral, pero en realidad está ante un sistema que interpreta el contexto, prioriza resultados y ajusta su comportamiento en función de lo que considera más eficiente.

Hasta ahora, la conversación sobre inteligencia artificial se ha centrado en la potencia, en los benchmarks, en la capacidad de cálculo. Era un marco cómodo porque todo se podía medir y comparar. Más parámetros, mejores resultados. Más datos, mayor precisión. Ese marco ya no sirve para explicar lo que está pasando.

"La cuestión ya no es cuánto saben hacer estos sistemas, sino cómo utilizan ese conocimiento en cada contexto"

La cuestión ya no es cuánto saben hacer estos sistemas, sino cómo utilizan ese conocimiento en cada contexto. Y ahí aparece una variable que el sector ha preferido tratar de forma superficial: la confianza. Porque cuando un modelo puede adaptar su comportamiento, ajustar la información en función del objetivo y responder de forma distinta según el entorno, el usuario pierde la referencia básica sobre la que se construía toda esta relación.

Ya no sabe si la respuesta es completa. Ni siquiera sabe si es del todo honesta. Sabe que funciona. Y eso, que durante años se vendió como el gran objetivo de la inteligencia artificial, empieza a parecerse bastante más a un problema que a una solución.

TEMAS RELACIONADOS:

Claude

Confianza

ética inteligencia artificial

Inteligencia Artificial

Noticias relacionadas

Mostrar comentarios +

IR A VERSIÓN COMPLETA

Política de privacidad y cookies | Aviso Legal

https://www.zonamovilidad.es/

Sin filtros

El fin de la IA honesta: ya no alucina, ahora te manipula

El ninot de Meta que nadie se atreve a quemar

Cuando el modelo sabe que le están mirando

Algoritmos de seda, guerras de hierro

El problema ya no es lo que dice, es lo que puede hacer

Si un chatbot puede ayudarte a morir, ¿por qué nadie paga por ello?

La utilidad empieza a parecerse demasiado a la manipulación

TEMAS RELACIONADOS:

Noticias relacionadas

Diez años contando historias: una carta desde el corazón del periodismo tecnológico

MIT desarrolla un nuevo método para mejorar la capacidad de IA para localizar objetos personalizados en imágenes

Cómo ha cambiado la IA móvil la forma en que usamos nuestras apps diarias

UNICEF alerta del auge de imágenes sexualizadas de menores generadas por IA

Deepfakes, de la curiosidad digital al fraude en tiempo real

Mostrar comentarios +