Estos auriculares con IA permiten escuchar a una sola persona entre una multitud mirándola solo una vez
Los auriculares con cancelación de ruido se han vuelto muy buenos a la hora de crear una barrera que tamiza los sonidos externos. Esto es posible, básicamente, gracias a micrófonos que captan el entorno y lo anulan con otras frecuencias. Pero esto anula todos los sonidos, no permite distinguir aquellos que nos interesan. Al menos así era hasta ahora.
Un equipo de la Universidad de Washington ha desarrollado un sistema de inteligencia artificial que permite a un usuario que lleva auriculares mirar a una persona que está hablando para «inscribirla». El sistema, llamado Target Speech Hearing, cancela todos los demás sonidos del entorno y reproduce solo la voz del hablante registrado en tiempo real, incluso cuando el oyente se mueve en lugares ruidosos y ya no mira al emisor del sonido. El equipo, liderado por Shyam Gollakota, presentó sus hallazgos en la Conferencia ACM CHI sobre factores humanos en sistemas informáticos. El código del dispositivo de prueba de concepto está disponible para que otros puedan desarrollarlo, pero por ahora no está disponible comercialmente.
“A la hora de pensar en la IA como chatbots basados en la web que responden preguntas – explica Gollakota en un comunicado-. Pero en este proyecto, desarrollamos una IA para modificar la percepción auditiva de cualquier persona que use auriculares, dadas sus preferencias. Con nuestros dispositivos ahora puedes escuchar claramente a un solo orador, incluso si estás en un ambiente ruidoso con muchas otras personas hablando».
Para usar el sistema, una persona que usa audífonos estándar equipados con micrófonos presiona un botón mientras dirige su cabeza hacia alguien que habla durante entre 3 y 5 segundos. Las ondas sonoras de la voz de ese orador deberían llegar a los micrófonos de ambos lados de los auriculares simultáneamente; hay un margen de error de 16 grados. Los auriculares envían esa señal a un ordenador integrado, donde el software de aprendizaje automático del equipo aprende los patrones vocales del hablante deseado.
El sistema capta la voz de esa persona y continúa reproduciéndola para el oyente, incluso si ambos se mueven. La capacidad del sistema para centrarse en la voz registrada mejora a medida que el orador sigue hablando, lo que proporciona al sistema más datos de entrenamiento. Teniendo en cuenta que nuestra voz podría ser utilizada como huella dactilar, básicamente lo que hace el sistema es vincular la voz a un patrón específico de ondas sonoras y buscarlo permanentemente.
El equipo probó su sistema en 21 sujetos, quienes calificaron la claridad de la voz del hablante registrado casi el doble que el audio sin filtrar en promedio. Actualmente, el sistema TSH puede inscribir solo un hablante a la vez, y solo puede inscribir a un hablante cuando no hay otra voz fuerte proveniente de la misma dirección que la voz del hablante objetivo. Si un usuario no está satisfecho con la calidad del sonido, puede realizar otro registro en el altavoz para mejorar la claridad. El equipo está trabajando para ampliar el sistema a auriculares y audífonos en el futuro.