Un generador de ideas impulsado por inteligencia artificial (IA) generó más ideas de investigación originales que 50 científicos trabajando de forma independiente, según una preimpresión publicada en arXiv este mes.1.
Tanto las ideas generadas por humanos como las generadas por IA fueron evaluadas por revisores, a quienes no se les informó de la identidad del autor ni del propósito de la idea. Los revisores calificaron los conceptos generados por IA como más interesantes que los escritos por humanos, aunque las sugerencias de IA obtuvieron puntuaciones ligeramente más bajas en términos de viabilidad.
Los científicos destacan, sin embargo, que este estudio, que no ha sido revisado por pares, tiene limitaciones. Se centró en un área única de investigación y requirió que los participantes humanos produjeran ideas sobre la marcha, lo que probablemente obstaculizó su capacidad para producir sus mejores conceptos.
IA en la ciencia
Se están realizando esfuerzos cada vez mayores para explorar cómo se pueden utilizar los LLM para automatizar tareas de investigación, incluida la redacción de artículos, la generación de códigos y la búsqueda de literatura. Pero es difícil evaluar si estas herramientas de IA pueden generar nuevos ángulos de investigación a un nivel similar al de los humanos. De hecho, evaluar ideas es muy subjetivo y requiere reunir a investigadores que tengan la experiencia necesaria para evaluarlas cuidadosamente, explica Chenglei Si, coautor del estudio. «Para nosotros, la mejor manera de contextualizar estas capacidades es hacer una comparación directa», dice Si, científico informático de la Universidad de Stanford en California.
Este proyecto de un año de duración es uno de los mayores esfuerzos para evaluar si los grandes modelos de lenguaje (LLM, por sus siglas en inglés) –la tecnología detrás de herramientas como ChatGPT– pueden producir ideas de investigación innovadoras, dice Tom Hope, científico informático del Instituto Allen para la IA en Jerusalén. «Es necesario realizar más trabajos de este tipo», afirma.
El equipo reclutó a más de 100 investigadores en procesamiento del lenguaje natural, una rama de la informática que se centra en la comunicación entre la IA y los humanos. A cuarenta y nueve participantes se les encomendó la tarea de desarrollar y escribir ideas sobre uno de siete temas, en un plazo de diez días. Como incentivo, los investigadores pagaron a los participantes 300 dólares por cada idea, con un bono de 1.000 dólares por las cinco ideas con mejor rendimiento.
Al mismo tiempo, los investigadores construyeron un generador de ideas utilizando Claude 3.5, un LLM desarrollado por Anthropic en San Francisco, California. Los investigadores pidieron a su herramienta de inteligencia artificial que encontrara artículos relevantes para los siete temas de investigación utilizando Semantic Scholar, un motor de búsqueda de literatura impulsado por inteligencia artificial. Basándose en estos artículos, los investigadores pidieron a su agente de inteligencia artificial que generara 4.000 ideas sobre cada tema de investigación y le pidieron que clasificara las más originales.
Revisores humanos
Luego, los investigadores asignaron aleatoriamente las ideas generadas por humanos y por IA a 79 revisores, quienes calificaron cada idea en función de su novedad, entusiasmo, viabilidad y efectividad esperada. Para garantizar que los creadores de las ideas siguieran siendo desconocidos para los revisores, los investigadores utilizaron otro LLM para editar los dos tipos de textos para estandarizar el estilo y el tono de la escritura sin cambiar las ideas mismas.
En promedio, los revisores calificaron las ideas generadas por IA como más originales e interesantes que las escritas por participantes humanos. Sin embargo, cuando el equipo examinó más de cerca las 4.000 ideas producidas por el LLM, encontró que sólo 200 eran verdaderamente únicas, lo que sugiere que la IA se volvió menos original a medida que crecía.
Cuando Si entrevistó a los participantes, la mayoría admitió que las ideas que presentaron eran promedio en comparación con las que habían producido en el pasado.
Los resultados sugieren que las maestrías en derecho podrían producir ideas ligeramente más originales que las de la literatura existente, dice Cong Lu, investigador de aprendizaje automático de la Universidad de Columbia Británica en Vancouver, Canadá. Pero la cuestión de si podrán superar las ideas humanas más revolucionarias sigue abierta.
Otra limitación es que el estudio comparó ideas escritas que habían sido editadas por un LLM, lo que cambió el idioma y la extensión de las presentaciones, dice Jevin West, científico social computacional de la Universidad de Washington en Seattle. Estos cambios pueden haber influido sutilmente en cómo los críticos percibieron la novedad, afirma. West añade que comparar a los investigadores con un LLM que puede generar miles de ideas en cuestión de horas podría no ser una comparación completamente justa. «Hay que comparar manzanas con manzanas», dijo.
Si y sus colegas planean comparar ideas generadas por IA con artículos de conferencias líderes para comprender mejor cómo se comparan los LLM con la creatividad humana. «Estamos intentando que la comunidad piense más en cómo debería ser el futuro cuando la IA pueda desempeñar un papel más activo en el proceso de investigación», explica.