OpenAI presentó una nueva familia de modelos y los puso a disposición en su suscripción paga ChatGPT Plus el jueves, diciendo que ofrece importantes mejoras en el rendimiento y las capacidades de razonamiento.
«Presentamos OpenAI o1, un nuevo modelo de lenguaje grande entrenado con aprendizaje por refuerzo para realizar razonamientos complejos», dijo OpenAI en un comunicado oficial. publicación de blog“o1 piensa antes de responder. » Los observadores de la industria de la IA llevaban semanas esperando que el principal desarrollador de IA lanzara un nuevo modelo «fresa», aunque las distinciones entre los diferentes modelos en desarrollo no se revelaron públicamente.
OpenAI describe esta nueva familia de modelos como un gran paso adelante, hasta el punto de que han cambiado su esquema de nomenclatura habitual, rompiendo con las series ChatGPT-3, ChatGPT-3.5 y ChatGPT-4o.
«Para tareas de razonamiento complejas, este es un avance significativo y representa un nuevo nivel de capacidad de IA», dijo OpenAI. dicho“Teniendo en cuenta esto, reiniciamos el contador a uno y llamamos a esta serie OpenAI o1. »
La clave de cómo funcionan estos nuevos modelos es que “se toman su tiempo” para pensar antes de actuar, señaló la compañía, y utilizan el razonamiento de “cadena de pensamiento” para hacerlos extremadamente efectivos en tareas complejas.
En particular, incluso el modelo más pequeño de esta nueva línea supera al GPT-4o de gama alta en varias áreas clave, según las pruebas comparativas de IA compartidas por Open AI, en particular las comparaciones de OpenAI sobre desafíos que se consideran de complejidad a nivel de doctorado.
Los modelos recientemente lanzados enfatizan lo que OpenAI llama «razonamiento deliberativo», donde el sistema necesita más tiempo para trabajar internamente en sus respuestas. Este proceso tiene como objetivo producir respuestas más reflexivas y coherentes, especialmente en tareas que requieren mucho razonamiento.
OpenAI también publicó resultados de pruebas internas que muestran mejoras con respecto a GPT-4o en tareas como codificación, informática y análisis de datos. Sin embargo, la compañía reveló que OpenAI 01 mostró una mejora menos drástica en tareas creativas como la escritura creativa. (Nuestras propias pruebas subjetivas colocaron las ofertas de OpenAI detrás de Claude AI en estas áreas). No obstante, los resultados de su nuevo modelo fueron en general bien calificados por los revisores humanos.
Las capacidades del nuevo modelo, como se señaló anteriormente, implementan el proceso de IA en cadena de pensamiento durante la inferencia. En resumen, esto significa que el modelo utiliza un enfoque segmentado para razonar sobre un problema paso a paso antes de proporcionar un resultado final, que es lo que finalmente ven los usuarios.
«La serie de modelos o1 se entrena con aprendizaje por refuerzo a gran escala para razonar utilizando cadenas de pensamiento», explica OpenAI en la familia o1. placa base“Entrenar modelos para integrar una cadena de pensamiento antes de responder puede proporcionar potencialmente beneficios sustanciales, al tiempo que aumenta los riesgos potenciales que surgen de una mayor inteligencia. »
Esta afirmación general deja lugar al debate sobre la verdadera novedad de la arquitectura del modelo entre los observadores técnicos. OpenAI no especificó en qué se diferencia el proceso de la generación basada en tokens: ¿es una asignación real de recursos al razonamiento o una comando oculto de la cadena de pensamiento—¿O tal vez una mezcla de las dos técnicas?
Un modelo anterior de IA de código abierto, llamado Reflection, experimentó con un enfoque similar basado en el razonamiento, pero fue criticado por su falta de transparencia. Este modelo utilizó etiquetas para separar etapas de su razonamiento, lo que llevó a lo que sus desarrolladores llamaron una mejora con respecto a los resultados de los modelos convencionales.
Me complace anunciar Reflection 70B, el mejor modelo de código abierto del mundo.
Capacitado utilizando Reflection-Tuning, una técnica desarrollada para permitir a los LLM corregir sus propios errores.
El 405B llegará la próxima semana; creemos que será el mejor modelo del mundo.
Construido con/ @GlaiveAI.
Leer más ⬇️: pic.twitter.com/kZPW1plJuo
– Matt Shumer (@mattshumer_) 5 de septiembre de 2024
Incorporar más pautas en el proceso de cadena de pensamiento no sólo hace que el modelo sea más preciso, sino también menos propenso a técnicas de jailbreak porque tiene más tiempo (y pasos) para detectar cuándo se produce un resultado potencialmente peligroso.
La comunidad de jailbreak parece ser más eficaz que nunca a la hora de encontrar formas de eludir los controles de seguridad de la IA, y los primeros jailbreak exitosos de OpenAI 01 se informaron a los pocos minutos de su lanzamiento.
No está claro si este enfoque de razonamiento deliberativo puede adaptarse eficazmente a aplicaciones en tiempo real que requieren tiempos de respuesta rápidos. OpenAI dijo que mientras tanto tiene la intención de ampliar las capacidades de los modelos, incluida la funcionalidad de búsqueda web y la mejora de las interacciones multimodales.
el modelo también será modificado con el tiempo para cumplir con los estándares mínimos de OpenAI en materia de seguridad, prevención de jailbreak y duración de la batería.
Se esperaba que la plantilla se implementara hoy, pero es posible que se publique en etapas, ya que algunos usuarios informaron que aún no estaba disponible para probar.
La versión más pequeña finalmente estará disponible de forma gratuita y el acceso a la API será un 80% más barato que OpenAI o1-preview, según el anuncio de OpenAI. Pero no te emociones demasiado: actualmente sólo hay una tarifa semanal de 30 mensajes semanales para probar este nuevo modelo para 01-preview y 50 para o1-mini, así que elige sabiamente tus mensajes.
Generalmente inteligente Hoja informativa
Un viaje semanal de IA contado por Gen, un modelo de IA generativa.