A diferencia de versiones anteriores, ‘gpt-realtime’ no solo entiende mejor las instrucciones, también es capaz de enfrentarse a tareas muy concretas: leer textos legales palabra a palabra, repetir combinaciones de letras y números o pasar de un idioma a otro en medio de una misma frase sin perder naturalidad en la entonación.
Junto a este lanzamiento, la compañía ha sumado otras mejoras en la API: soporte para servidores MCP remotos, lo que facilita integraciones más sencillas; compatibilidad con entradas de imagen, que permiten contextualizar las conversaciones en función de lo que ve el usuario; y soporte para llamadas telefónicas vía SIP, abriendo la puerta a nuevas aplicaciones en comunicaciones.
Además, llegan dos voces nuevas, Cedar y Marin, disponibles de forma exclusiva en la API Realtime, así como precios un 20% más bajos respecto a la versión previa ‘gpt-4o-realtime-preview’. La compañía también ha introducido controles avanzados de gestión de tokens que reducen costes en sesiones largas al permitir limitar o truncar intervenciones de manera más eficiente.
La clave de este avance está en la integración. Mientras que en otros sistemas el proceso de voz a texto y texto a voz requiere modelos separados, con mayor latencia y pérdida de matices, ‘gpt-realtime’ procesa y genera audio en un único modelo. El resultado son respuestas más rápidas, expresivas y naturales, entrenadas en estrecha colaboración con clientes que ya lo utilizan en entornos reales.