The Learning Curve, parte 8: crear conversaciones desde Japón para el mundo
Samsung Research en Japón es un capítulo más de una serie sobre las personas y las innovaciones detrás de la democratización de la IA móvil
A medida que Samsung continúa siendo pionera en experiencias móviles de inteligencia artificial de primera calidad, visitamos los centros de investigación de Samsung en todo el mundo para aprender cómo Galaxy AI está permitiendo que más usuarios maximicen su potencial. Ahora, Galaxy AI es compatible con 16 idiomas, permitiendo que más personas puedan expandir sus capacidades lingüísticas, incluso sin conexión, gracias a las funciones de traducción en el dispositivo como Live Translate, Interpreter, Note Assist y Browsing Assist. Pero ¿qué implica el desarrollo del lenguaje de IA? La última vez visitamos Polonia para comprender cómo los países europeos colaboran para lograr sus objetivos. Esta vez, estamos en Japón para descubrir la forma en que los desarrolladores se adaptan constantemente a los nuevos escenarios y casos de uso.
El Instituto de Investigación y Desarrollo de Japón (SRJ) se creó para ser un centro de Investigación y Desarrollo (I+D) centrado en hardware, como electrodomésticos y pantallas. Con la demanda de innovación en IA aumentando en todo el mundo, SRJ de Yokohama también ha estado operando un laboratorio de desarrollo de software para crear la función de Live Translate de Galaxy AI que, desde finales del año pasado, traduce automáticamente las llamadas de voz en tiempo real.
“La función Live Translate es especialmente útil en los viajes, como en el caso de quienes acudan a los Juegos Olímpicos de este año en París“, afirma Takayuki Akasako, director de Inteligencia Artificial de SRJ. “Actualmente estamos desarrollando un programa de reconocimiento de voz para turistas y van a ver los Juegos Olímpicos de París y entrenando el programa de reconocimiento de voz para aprender sobre los Juegos y las ubicaciones de los estadios para París 2024“.
Comprensión del contexto en el reconocimiento de voz
Para aquellos que ya utilizan las funciones de traducción de Galaxy AI, estas opciones pueden parecer muy útiles. Pero los desarrolladores que las han creado saben que poder comunicarse en el extranjero no es algo que se pueda dar por sentado.
Una cosa que el equipo notó fue que hay más homónimos en japonés que en otros idiomas. Por ejemplo, ‘palillos’ (Hashi,箸) y ‘puente’ (Hashi,橋) son relativamente fáciles de distinguir debido a la diferencia de entonación, pero palabras como ‘turismo’ (Kankō,観光), ‘costumbres’ (Kankō,慣行), ‘público’ (Kōkyō,公共) y ‘prosperidad’ (Kōkyō,好況) deben interpretarse según el contexto.
“La interpretación se vuelve más difícil cuando el contexto es ambiguo, como en los casos de nombres de sitios y personas, nombres propios, dialectos y números“, dice Akasako. “Por lo tanto, para mejorar la precisión del reconocimiento de voz, se necesitan muchos datos“.
“Siempre buscamos formas de ajustar el modelo de IA para eventos y momentos clave, a tiempo“, añade Akasako. “Con muchas combinaciones nuevas de nombres de lugares y actividades, es importante que el contexto quede claro cuando las personas usan Galaxy AI“.
Desafíos en la recopilación de datos eficientes
Si bien también es importante reconocer los tipos de datos necesarios, recopilar la información es un desafío aparte.
Anteriormente, el equipo de SRJ utilizaba datos grabados por personas para entrenar el motor de reconocimiento de voz para la función Live Translate, lo que no resultaba en una recopilación de datos suficiente.
Samsung Gauss, el modelo de lenguaje grande (LLM, por sus siglas en inglés) de la compañía, utiliza guiones para estructurar oraciones con palabras o expresiones que son relevantes para cada escenario. Los datos recopilados con Samsung Gauss no solo los graban las personas, también los generan datos de síntesis de voz text-to-speech (TTS), por medio de los cuales las personas realizan la verificación de calidad final. Con este método, el equipo ha observado una mejora significativa en la eficiencia de la recopilación de datos.
“Cada vez que se identifica y resuelve un problema, la precisión del reconocimiento de voz mejora significativamente“, explica Akasako. “Independientemente de dónde se encuentren las personas, nuestro objetivo es conectarlas entre sí, y las herramientas impulsadas por Galaxy AI garantizarán una comunicación más divertida y eficiente“.