OpenAI ha logrado un avance impresionante: ChatGPT ahora puede "ver" el mundo en tiempo real. Esta nueva funcionalidad, basada en el modelo multimodal GPT-4o, permite al chatbot procesar imágenes y videos, abriendo un abanico de posibilidades antes inimaginables.

Procesamiento de vídeo en tiempo real

La integración de esta capacidad en la aplicación es sencilla. Al activar el modo de voz avanzado, se habilitará la opción de acceder a la cámara del dispositivo, pudiendo elegir entre la cámara frontal o trasera. La latencia es mínima, permitiendo una interacción fluida y natural.

Aplicaciones prácticas

Las aplicaciones prácticas de esta nueva capacidad son vastas. Desde guiar a un usuario en la preparación de un café, reconociendo los objetos en la mesa en tiempo real, hasta resolver problemas de matemáticas con un niño o jugar a piedra, papel o tijeras. La capacidad de describir el entorno en lenguaje sencillo también abre posibilidades excepcionales de accesibilidad para personas ciegas.

Compartir la pantalla con ChatGPT también es posible. Esta característica permite al chatbot obtener información contextual de las aplicaciones en uso, ampliando aún más sus funcionalidades.

Si bien este modelo, como cualquier otro de IA, es susceptible a errores, representa un salto cualitativo en la interacción humano-máquina. OpenAI, una vez más, se sitúa a la vanguardia de la innovación en inteligencia artificial.

Disponibilidad y consideraciones

Esta función estará disponible en los próximos días para usuarios de ChatGPT Plus y ChatGPT Pro en la mayoría de los países. Sin embargo, OpenAI ha indicado que la disponibilidad en la Unión Europea se retrasará, posiblemente debido a regulaciones.

El CEO de OpenAI, Sam Altman, ha confirmado la intención de ofrecer sus productos en Europa, recalcando la importancia del cumplimiento normativo.

Fuente: Xataka