www.zonamovilidad.es
Miguel Álava, director general de AWS para España y Portugal, Carme Artigas, Secretaria de Estado de Digitalización e Inteligencia Artificial, y Santiago Muñoz Machado, director de la RAE
Miguel Álava, director general de AWS para España y Portugal, Carme Artigas, Secretaria de Estado de Digitalización e Inteligencia Artificial, y Santiago Muñoz Machado, director de la RAE

La RAE y AWS, se unen para analizar el uso del español en la red usando la inteligencia artificial

Por Alfonso de Castañeda
x
alfondcctelycom4com/8/8/17
jueves 26 de mayo de 2022, 16:53h

Escucha la noticia

La Real Academia Española y Amazon Web Servicies han presentado la primera fase del proyecto LEIA para la creación de una herramienta con la que poder evaluar el estado de la lengua española en internet.

En este acuerdo, AWS aporta la tecnología necesaria para desarrollar la herramienta, mientras que la RAE se encarga de dirigir y exponer las necesidades y aportar los documentos e ideas lingüísticas que se quieren analizar. En total son 8,7 millones de documentos, entre los que se encuentran extractos de foros, redes sociales, comentarios de opinión en plataformas de e-commerce y una “representación de medios de comunicación digitales”.

“La academia ha trabajado siempre en la vigilancia de cómo evoluciona el español, junto con las academias de la lengua donde se habla español y lo ha hecho mediante trabajos de lectura y de revisión de la manera de hablar, de las expresiones y de los sonidos haciendo un seguimiento para que ayude a dar forma a las nuevas normas de la lengua”, explica Santiago Muñoz Machado, director de la RAE.

“Antes lo hacíamos manualmente y ahora lo podremos hacer de manera automática con la herramienta de AWS”

En este contexto, la RAE se ha puesto de acuerdo con las grandes empresas tecnológicas para que “nos ayuden a que las máquinas tengan en cuenta el español” y por ello “estamos trabajando en un doble sentido: primero convenciéndoles de que usen bien la lengua en su máquinas y desarrollos; y en segundo lugar, usando herramientas digitales que nos faciliten el trabajo” para saber “qué dificultades nos encontramos con el uso de la lengua en las redes. Antes lo hacíamos manualmente y ahora lo podremos hacer de manera automática con la herramienta de AWS”, apunta Muñoz.

LEIA consigue que la IA sea la nueva académica de la RAE

Leer más

Tres grandes bloques de análisis

Para ello, la Academia y AWS han estado trabajando juntos durante los últimos meses para crear una herramienta de análisis del español que permita examinar en poco tiempo y con sistemas de inteligencia artificial, decenas de miles de documentos de internet con el fin de valorar el estado del español en el mundo.

AWS ha utilizado más de 30 tecnologías nativas de su nube diferentes

Los ingenieros que han desarrollado el proyecto se han apoyado en 30 tecnologías nativas de la nube de AWS que ha permitido desarrollar una primera versión beta con documentos de España y todos los países hispanohablantes de América con fuentes centradas en el español digital espontáneo.

El proyecto se centra en tres grandes bloques que incluyen, por un lado, el estudio de la riqueza léxica, midiendo la diversidad de palabras a través del sistema MTLD (Measure of textual lexical diversity), fijándose tanto en la variabilidad como en el volumen; en segundo lugar, los errores lingüísticos (tipográficos, puntuación, gramática, estilo…) que los identifica y los clasifica en función del tipo de fallo; y en tercer lugar, los extranjerismos, detectando su proporción en los textos.

Miguel Álava, director general de AWS para España y Portugal

Este desarrollo busca analizar la claridad del lenguaje administrativo al mismo tiempo que se compara la calidad del español en función de las épocas y la detección de errores comunes en asistentes de voz y otros dispositivos de inteligencia artificial.

“La herramienta aúna muchos componentes, pero acaba de nacer y esperamos que haya muchos más pasas y evoluciones”

“Usamos la inteligencia artificial para cuidar nuestra lengua, para que se siga adaptando a los nuevos tiempos”, señala Miguel Álava, director general de AWS para España y Portugal. “La herramienta aúna muchos componentes, pero acaba de nacer y esperamos que haya muchos más pasas y evoluciones”, asegura el directivo, que ha defendido además la importancia de la Región Cloud que AWS va a montar en España con una inversión de 2.500 millones de euros y que confía que “juegue un papel fundamental en el desarrollo de esta herramienta”.

Cómo funciona la herramienta

La herramienta de análisis lingüístico en la nube desarrollada por la RAE y AWS sigue una arquitectura serverless (sin servidor) y orientada a eventos con un proceso de análisis de fuentes de datos con tres fases. “Se basa en varios módulos y uno de ellos es ser capaces de conectarnos a fuentes muy heterogéneas que se usan en internet para ser capaces de recogerlas y de analizarlas”, explica Carlos Carús, director de tecnología de AWS Iberia. “Hemos usado soluciones de analítica de datos y de big data: una vez tenemos los datos hay que dar el siguiente paso para analizarlo y tener un elemento que nos permita tomar decisiones o entender lo que se está analizando”, señala Carús.

La primera fase, los documentos de las fuentes de datos se indexan mediante AWS Lambda, un servicio en la nube que permite ejecutar código sin aprovisionar ni administrar servidores, en Amazon OpenSearch Service, un sistema escalable para proporcionar acceso rápido, análisis y búsqueda a volúmenes grandes de datos.

El proceso tiene tres fases: indexación de los documentos; obtención de métricas; y análisis de los resultados

Antes del proceso de indexación hay un paso en el que se valida cada documento para que contenga los campos necesarios, como la fecha de generación, el propio texto, el país al que pertenece y el código que se ha otorgado a cada país. Asimismo, las fuentes de datos y los resultados y métricas a partir de los documentos de entrada que van a ser procesados se almacenan en Amazon S3, un servicio de almacenamiento creado para reunir y recuperar volúmenes de datos desde cualquier ubicación.

Ya en la segunda fase, se obtienen las métricas que caracterizan los textos de las diferentes fuentes de datos en función de los diferentes criterios marcados para lo cual se apoyan en la solución Amazon SageMaker, un servicio administrado para crear, entrenar e implementar modelos de aprendizaje automático que permitan la creación y prueba de algoritmos y visualizaciones y AWS Batch, que aprovisiona de manera dinámica la cantidad y el tipo óptimo de recursos informáticos necesarios en función del volumen y los requisitos de cada momento.

Por último, se indexan los resultados del análisis mediante AWS Lambda para su visualización y se genera un dashboard empleando otra herramienta de la compañía para facilitar la visualización e interacción con los datos procesados, pudiendo aplicar filtros de manera dinámica que actualizan los resultados que se muestran a través de tablas, gráficos y mapas interactivos.

“En total estamos hablando de unos 180GB de datos de sólo texto, que por contextualizarlo, en la Wikipedia en español apenas hay 1,8 millones de documentos y unos 50GB de datos”, apunta Carús.

Álvarez-Pallete (Telefónica) urge a desarrollar inteligencia artificial basada en español

Leer más

Artigas destaca la importancia de “liderar la preocupación de cómo influye la IA en la lengua de nuestro país”

El acto de presentación de la herramienta ha contado con la participación de la Secretaria de Estado de Digitalización e Inteligencia Artificial, Carme Artigas, quien ha defendido el acuerdo como parte del proyecto Lengua Española e Inteligencia Artificial (LEIA), que están apoyando desde el Gobierno con una inversión de 5 millones de euros para impulsar el trabajo de la RAE y ha destacado que esta herramienta permitirá mantener una “vigilancia en continuo del uso de la lengua del español en internet”.

Artigas ha destacado la importancia de “liderar a nivel internacional la preocupación de cómo influye la inteligencia artificial en la lengua de nuestro país” y ha asegurado que “hoy empezamos este gran camino” que se apoya también en el PERTE de la nueva economía de la lengua que contará con 1.100 millones de euros de presupuesto para maximizar el valor del español y las lenguas cooficiales en la transformación digital para lo cual se han acordado colaboraciones con el Barcelona Supercomputing Center y la Biblioteca Nacional.

¿Te ha parecido interesante esta noticia?    Si (0)    No(0)

+
0 comentarios