ChatGPT ahora puede analizar tu entorno y el contenido de tu pantalla con su función de video en tiempo real
OpenAI ha anunciado que el Modo de Voz Avanzado de ChatGPT ahora incluye soporte para el análisis de video en tiempo real. Esta funcionalidad permite a los usuarios emplear la cámara de sus dispositivos para obtener información sobre el entorno. También analiza el contenido mostrado en la pantalla de un gadget.
La función se presentó en mayo durante el lanzamiento de GPT-4o, un modelo de inteligencia artificial (IA) diseñado para procesar simultáneamente audio, texto e imágenes. Este algoritmo se ha convertido en la tecnología subyacente de ChatGPT y facilita la interpretación de intenciones y entonaciones de las consultas, el reconocimiento de objetos y la resolución de problemas matemáticos. Permite al bot mantener conversaciones más fluidas y naturales.
¿Cómo funciona el nuevo Modo de Voz Avanzado con visión de ChatGPT?
Los interesados en activar el Modo de Voz Avanzado con visión deberán seleccionar el icono de bandas sonoras ubicado en la barra de consultas de ChatGPT y dar clic en el botón de la videocámara. El sistema comenzará a capturar video en automático. Los usuarios podrán apuntar la cámara de sus dispositivos hacia cualquier objeto y hacer toda clase de consultas por voz.
El equipo de OpenAI hizo una exhibición sobre las capacidades del avance. Mostró al asistente de voz un kit para preparar café y solicitó instrucciones de uso. La IA respondió con indicaciones precisas y con algunas recomendaciones adicionales en tiempo real.
La herramienta también está diseñada para examinar la información presentada en la pantalla de un smartphone. ChatGPT ahora puede identificar los elementos de una imagen, analizar mensajes, explicar manuales de configuración, sugerir soluciones a problemas matemáticos y ofrecer detalles sobre los programas preinstalados. Para emplear esta función, basta con seleccionar la opción “Compartir pantalla” desde el menú de tres puntos.
Las características anunciadas por OpenAI son similares a las que contempla el programa ‘Project Astra’ de Google. El proyecto incluye una serie de funciones conversacionales basadas en IA y configuradas para analizar videos en tiempo real. La iniciativa se encuentra en fase de prueba y está disponible solo para un grupo reducido de usuarios de Android.
La incorporación del análisis de video en tiempo real en ChatGPT se implementará gradualmente entre los suscriptores de los planes Plus, Pro y Team. El recurso estará disponible en las versiones para iOS y Android del chatbot, con restricciones en la Unión Europea, Suiza, Islandia, Noruega y Liechtenstein.
El Modo de Voz Avanzado con visión se integra en una serie de anuncios que la startup dirigida por Sam Altman ha programado para cerrar el año. Entre las novedades destaca OpenAI o1, un potente algoritmo de razonamiento avanzado que disponible mediante una suscripción mensual de 200 dólares. Además, la compañía ha lanzado Canvas, una plataforma diseñada para facilitar proyectos de escritura y programación, y Sora, una innovadora herramienta capaz de generar contenido multimedia hiperrealista a partir de indicaciones textuales.