Ciencia

La IA entrenada en IA produce galimatías

Juan Morell1 mes atrás09 minutos

Los modelos de lenguaje grandes como los que ofrecen OpenAI y Google requieren grandes cantidades de datos de entrenamiento para funcionar. Las últimas versiones de estos modelos ya se han utilizado en gran parte de Internet existente, lo que ha llevado a algunos a preocuparse de que no queden suficientes datos nuevos para entrenar futuras iteraciones. Algunas voces destacadas de la industria, como el director ejecutivo de Meta, Mark Zuckerberg, han propuso una solución a este dilema de datos: Simplemente entrene nuevos sistemas de IA con resultados de IA antiguos.

Pero una nueva investigación sugiere que canibalizar los resultados de modelos anteriores podría dar lugar rápidamente a una serie de galimatías sobre la IA y, eventualmente, podría conducir a lo que se conoce como «colapso del modelo». En un ejemplo, los investigadores le dieron a una IA un párrafo inofensivo sobre la arquitectura de una iglesia, pero rápidamente se deterioró a lo largo de generaciones. El último modelo, el más «avanzado», simplemente repetía continuamente la frase «liebres de cola negra».

Un estudio Publicado en Naturaleza Esta semana ponemos a prueba este escenario de IA entrenada sobre IA. Los investigadores crearon su propio modelo de lenguaje, que primero completaron con texto original generado por humanos. Luego crearon nueve generaciones más de modelos, cada uno de ellos entrenado en el texto generado por el modelo anterior. El resultado final de la última generación fue un galimatías surrealista y sin relación con el texto original. Con el tiempo y las sucesivas generaciones, los investigadores afirman que su modelo “se envenena con su propia proyección de la realidad”.

Los modelos de IA olvidan el significado mientras se entrenan sobre sí mismos

Los investigadores llaman a este extraño caso de IA aparentemente implosionando sobre sí misma «colapso del modelo», un proceso degenerativo que puede manifestarse en etapas tempranas o tardías. Inicialmente, el colapso comienza a ocurrir cuando los modelos de IA que se eliminaron varias generaciones de los datos de entrenamiento originales parecen olvidar los valores atípicos o las rarezas en el texto original. Esto tiene el efecto de hacer que los resultados más probables sean cada vez más comunes. Esto podría ser problemático en el mundo real, ya que podría conducir a una disminución de las opiniones o expresiones de las minorías. Un LLM que muestre signos de colapso temprano podría presentar una versión de la realidad que carece de diversidad y adolece de una uniformidad abrumadora.

Las cosas se vuelven aún más extrañas en las etapas finales del colapso. En las últimas generaciones, los modelos entrenados con plantillas están tan alejados de los datos de entrenamiento originales que comienzan a olvidar aspectos clave del entrenamiento inicial y pierden completamente la pista. Es en este punto que los modelos empiezan a generar galimatías completamente sin sentido. Cuando esto sucede, los investigadores afirman que la autocanibalización «indiscriminada» que hace el modelo de sus propios resultados anteriores «causa defectos irreversibles en el modelo resultante».

Los investigadores dicen que este efecto en cascada y el eventual colapso del modelo son inevitables para los modelos grandes entrenados con sus propios datos. Es importante señalar que esta investigación se centró específicamente en modelos lingüísticos y no está interesada en lo que podría suceder si los modelos multimodales, como los generadores de imágenes y videos, fueran entrenados sobre sí mismos. Esta investigación también se centra en lo que debería suceder en un modelo entrenado con sus propios datos. propio datos. No está claro qué pasaría si un modelo, por ejemplo de Meta, se entrenara con los resultados generados por OpenAI.

Preservar el texto original podría evitar el colapso

La perspectiva de un colapso del modelo del mundo real no es una hipótesis impensable. Actualmente, innumerables sitios web están operativos y ofrecen artículos y publicaciones de blog. íntegramente generado por LLMEn la carrera por crear nuevos modelos lo más rápido posible, no es impensable que una gran parte de estos errores generados por la IA eventualmente se filtren en los conjuntos de entrenamiento.

Una posible solución para evitar que el contenido generado por IA se incluya inadvertidamente en conjuntos de capacitación sería fomentar un estándar de marca de agua en todas las plataformas, que marcaría claramente la autenticidad del contenido e indicaría si fue producido por una máquina o no. Google, Adobe y los grandes actores tecnológicos están tratando de hacer precisamente eso con una insignia especial de «certificación de contenido» que están tratando de estandarizar bajo la Coalición para la Procedencia y Autenticidad del Contenido (C2PA).

Pero esto sólo se aplica a las imágenes. El texto generado por IA también es mucho más difícil de ponerle una marca de agua. o incluso identificar con precisión Utilizando el software de detección disponible. Un enfoque más realista podría requerir que los desarrolladores de IA examinen escrupulosamente el hardware en busca de signos de manipulación de la IA y potencialmente paguen a fuentes humanas acreditadas para acceder a datos de alta calidad. Sin estas garantías de datos entrenados por humanos, Internet corre el riesgo de ser aplastada por una ola de vómito de IA. Nadie quiere eso.