www.zonamovilidad.es
Por Gabriela Galdón López-Quesada
x
ggaldonlqgmailcom/9/9/15
miércoles 03 de agosto de 2022, 12:21h

Escucha la noticia

Google está trabajando para que su Asistente, que, por el momento, funciona a través de comandos de voz, se pueda activar con la mirada. Para ello, la tecnológica está desarrollando una nueva funcionalidad denominada ‘Look and Talk’ (Mirar y hablar). Por ahora, esta función sólo estará integrada en el Nest Hub Max y en inglés.

El asistente de Google es bastante conocido por todas las personas, además, funciona en más de 95 países y está disponible en más de 25 idiomas. No obstante, para activarlo, el usuario tiene que decir ‘OK, Google’ o ‘Hey Google’. Posteriormente, cuando se activa el usuario puede preguntar o pedir lo que necesite. Por ejemplo, ‘Ok Google, ¿qué tiempo hace hoy?’.

Aunque este modus operandi sea bastante sencillo, Google quiere ir un paso más allá. A raíz de esto, está explorando nuevas vías en las que los humanos puedan interactuar con las máquinas. Aunque su nueva solución, ‘Look and Talk’, suene como una novedad, la compañía presentó esta función a finales de 2020. En ese momento, la compañía señaló que el propósito de esta aplicación es que las personas con discapacidad motora o de habla puedan comunicarse con los dispositivos electrónicos utilizando los ojos, con la mirada y escogiendo rases prediseñados para que estos puedan reproducirla.

‘Look and Talk’

Durante la conferencia para desarrolladores de Google I/O 2022, la compañía presentó ‘Look and Talk’. Esta tecnología tiene la capacidad de analizar audio, vídeo y texto para decidir si la persona se está comunicándose directamente con el Nest Hub Max. Actualmente, la compañía acaba de lanzar una actualización de esta tecnología en su blog sobre inteligencia artificial (IA) y ha detallado cómo funciona el nuevo sistema de reconocimiento.

Utiliza un algoritmo que emplea ocho modelos de aprendizaje automatizado

Lo primero en lo que se ha centrado Google es en explicar el mecanismo de ‘Look and Talk’. En esta ocasión, utiliza un algoritmo que emplea ocho modelos de aprendizaje automatizado (‘machine learning’). Gracias a esto, es posible distinguir cómo interaccionan las miradas a una distancia de 1,5 metros aproximadamente. El objetivo, es identificar si la persona quiere contactar con el dispositivo.

Google ha construido este algoritmo experimentando con distintas variables y características. Una de las que debe tener muy en cuenta son las de carácter demográfico, como la edad, el tono de piel, las diferentes condiciones acústicas y perspectivas de la cámara. Es importante mencionar que esta tecnología tiene como reto tener en cuenta las diferentes perspectivas de cámara. El motivo es muy sencillo, en líneas generales estas pantallas inteligentes se localizan en puntos concretos de la casa, en algunas ocasiones a una altura baja y en otras a una altura media.

Para utilizarlo eficazmente, el usuario tiene que mirar la cámara (localizada en la parte superior de la pantalla), y mirar fijamente mientras habla con Google. Una vez el Nest Hud identifica el rostro, aparecerán cuatro puntos en la parte superior izquierda de la pantalla. Estos puntos pueden moverse, cambiar de color y cambiar de forma para indicar lo que está haciendo, además, ofrecen pautas sobre: cuándo se puede hablar con Google y cuándo mirar hacia otro lado.

En cuanto a su mecanismo, ‘Look and Talk’ está basado en tres fases. En primer lugar, el asistente identifica la presencia de un usuario, utilizando una tecnología que detecta la cara y reconoce la distancia en la que se sitúa la persona. Para esta fase, la compañía ha apostado por la tecnología Face Match que averigua si la persona de ese momento está registrada en el sistema para interactuar con el dispositivo. Esta tecnología la emplean otros asistentes como es el caso de Alexa.

Los altavoces y asistentes virtuales ayudan a más de la mitad de las personas con discapacidada

Leer más

Además de esta solución, el sistema también se apoya en otras señales visuales, como el ángulo de la mirada del sujeto, con el objetivo de determinar si quiere interactuar visualmente con el dispositivo o no.

En la segunda fase, el asistente tiene que registrar señales adicionales y escuchar la consulta de la persona, para de este modo, saber si el mensaje es para él. Para facilitar este proceso, la solución se ayuda de la tecnología Voice Match que analiza el resultado de Face Match, para validarlo y complementarlo o no. En el caso de que sí, ‘Look and Talk’ lleva a cabo un modelo de reconocimiento de voz automático, que transcribe las palabras y las peticiones de la persona.

A continuación, el asistente realiza un análisis de la transcripción y detalles no léxicos del audio como el tono, la velocidad de la voz o los sonidos que realice la persona. También se apoya en señales visuales contextuales para identificar si la interacción es con él.

Por último, una vez el modelo de comprensión de la interacción confirme que la interacción de la persona está destinada a ‘Look and Talk’, procesa la consulta y le responde.

¿Te ha parecido interesante esta noticia?    Si (0)    No(0)

+
0 comentarios