OpenAI presentó el jueves las capacidades de video prometidas desde hace mucho tiempo de ChatGPT, que permitirán a los usuarios apuntar con su teléfono a objetos para realizar análisis de IA en tiempo real, una característica que ha estado acumulando polvo desde su primera demostración en mayo.
Anteriormente, podía ingresar texto, gráficos, voz o fotografías e interactuar con GPT. Esta función, lanzada el jueves por la noche, permite a GPT monitorearlo en tiempo real y brindarle comentarios a través de una conversación. Por ejemplo, en mis pruebas, este modo pudo resolver problemas de matemáticas, proporcionar recetas de cocina, contar historias e incluso convertirse en el nuevo mejor amigo de mi hija, interactuando con ella mientras preparaba panqueques, dándole sugerencias y fomentando su proceso de aprendizaje. diferentes juegos.
El lanzamiento se produce apenas un día después de que Google presentara su propia versión de un asistente de inteligencia artificial con cámara impulsado por el nuevo Gemini 2.0. Meta también juega en este sandbox, con su propia IA que puede ver y chatear a través de las cámaras del teléfono.
Sin embargo, los nuevos consejos de ChatGPT no son para todos. Solo los suscriptores Plus, Team y Pro pueden acceder a lo que OpenAI llama «modo de voz avanzado con visión». La membresía Plus cuesta $20 por mes y el nivel Pro cuesta $200.
«Nos complace anunciar que llevaremos el video al modo de voz avanzado para que pueda integrar video en vivo y compartir pantalla en vivo en sus conversaciones con ChatGPT», dijo Kevin Weil, director de producto de ChatGPT, en ‘OpenAI. un vídeo el jueves.
La transmisión fue parte de su campaña “12 días de OpenAI”, que transmitirá 12 anuncios diferentes durante otros tantos días consecutivos. Hasta ahora, OpenAI lanzó su modelo o1 para todos los usuarios y reveló el plan ChatGPT Pro por $200 por mes, introdujo ajustes de refuerzo para modelos personalizados, lanzó su aplicación de video generativo Sora, actualizó su plantilla de funcionalidad y publicó ChatGPT en dispositivos Apple. a través de la función Apple Intelligence del gigante tecnológico.
La empresa dio una visión general de lo que puede hacer durante el jueves en vivo. La idea es que los usuarios puedan activar el modo vídeo, en la misma interfaz que la voz avanzada, y empezar a interactuar con el chatbot en tiempo real. El chatbot tiene una excelente comprensión de la visión y es capaz de proporcionar comentarios relevantes con baja latencia, lo que hace que la conversación sea natural.
Llegar hasta aquí no fue precisamente fácil. OpenAI prometió por primera vez estas funciones «dentro de unas pocas semanas» a finales de abril, pero la función se retrasó tras la controversia sobre la imitación de la voz de la actriz Scarlett Johansson, sin su permiso, en el modo de voz avanzado. Dado que el modo de vídeo se basa en el modo de voz avanzado, esto aparentemente ralentizó el lanzamiento.
Y su rival Google no se queda de brazos cruzados. El Proyecto Astra acaba de llegar a manos de “probadores confiables” en Android esta semana, prometiendo una característica similar: una IA que habla varios idiomas, aprovecha la búsqueda y los mapas de Google y recuerda conversaciones de hasta 10 minutos.
Sin embargo, esta función aún no está ampliamente disponible, ya que se espera una implementación más amplia a principios del próximo año. Google también tiene planes más ambiciosos para sus modelos de IA, dándoles la capacidad de ejecutar tareas en tiempo real, mostrando un comportamiento similar al de un agente más allá de las interacciones audiovisuales.
Meta también está luchando por un lugar en la próxima era de interacciones con IA. Su asistente, Meta AI, fue presentado en septiembre. Presenta capacidades similares a los nuevos asistentes de OpenAI y Google, brindando respuestas de baja latencia y comprensión de video en tiempo real.
Pero Meta apuesta por el uso de la realidad aumentada para desarrollar su oferta de IA, con gafas inteligentes “discretas” suficientemente capaces de potenciar estas interacciones, gracias a una pequeña cámara integrada en sus monturas. Meta lo llama Proyecto Orión.
Los usuarios actuales de ChatGPT Plus pueden probar las nuevas funciones de video tocando el ícono de voz al lado de la barra de chat y luego tocando el botón de video. Compartir pantalla requiere un toque adicional a través del menú de tres puntos (también conocido como «hamburguesa»).
Para los usuarios empresariales y educativos de ChatGPT deseosos de probar las nuevas funciones de vídeo, enero es el mes mágico. ¿En cuanto a los suscriptores de la UE? Por ahora, sólo tendrán que mirar desde la barrera.
Editado por Andrew Hayward.
Generalmente inteligente Hoja informativa
Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.