La startup de IA Hugging Face prevé que se utilizarán modelos de lenguaje pequeños, no grandes, para aplicaciones como la «robótica de próxima etapa», dijo su cofundador y director científico Thomas Wolf.
«Queremos implementar modelos en robots más inteligentes, para que podamos empezar a tener robots que no sólo estén en las líneas de montaje, sino también en la naturaleza», dijo Wolf durante un discurso en la Cumbre Web celebrada hoy en Lisboa. Pero ese objetivo, afirma, requiere una latencia baja. «No puedes esperar dos segundos para que tus robots comprendan lo que está sucediendo, y la única forma de hacerlo es utilizar un modelo de lenguaje pequeño», añadió Wolf.
Los modelos de lenguaje pequeños «pueden realizar muchas tareas que pensábamos que sólo podían realizar los modelos grandes», dijo Wolf, y agregó que también se pueden implementar en el dispositivo. «Si piensas que esto cambia las reglas del juego, puedes ejecutarlos en tu computadora portátil», dijo. «En el futuro, podrás utilizarlos incluso desde tu teléfono inteligente».
En última instancia, imagina pequeños modelos de lenguaje que funcionen «en casi todas las herramientas o dispositivos que tenemos, tal como hoy nuestro refrigerador está conectado a Internet».
La empresa publicó su SmolLM modelo de lenguaje a principios de este año. «No somos los únicos», dijo Wolf, y agregó que «casi todas las empresas de código abierto han lanzado modelos cada vez más pequeños este año».
Explicó que «para muchas tareas muy interesantes que necesitamos y que podríamos automatizar con IA, no necesitamos un modelo que pueda resolver la conjetura de Riemann o la relatividad general». En cambio, se pueden realizar tareas simples como gestión de datos, procesamiento de imágenes y voz utilizando modelos de lenguaje pequeños, con los correspondientes beneficios en velocidad.
El rendimiento del modelo LLaMA 1b de Hugging Face con mil millones de parámetros este año es «igual, si no mejor, que el rendimiento de un modelo de 10 mil millones de parámetros el año pasado», dijo. «Así que tenemos un modelo 10 veces más pequeño que puede lograr un rendimiento más o menos similar».
«Gran parte del conocimiento que descubrimos para nuestro modelo de lenguaje grande se puede traducir a modelos más pequeños», dijo Wolf. Explicó que la empresa los entrena en «conjuntos de datos muy específicos» que son «un poco más simples, con algún tipo de adaptación adaptada a ese modelo».
Estas adaptaciones incluyen «redes neuronales muy pequeñas que se insertan en el pequeño modelo», dijo. «Y tienes un modelo aún más pequeño que le agregas y que se especializa», un proceso que comparó con «ponerse un sombrero para una tarea específica que vas a hacer. Me pongo mi sombrero de cocina y soy un cocinar.»
En el futuro, dijo Wolf, el espacio de la IA se dividirá en dos tendencias principales.
«Por un lado, tendremos este enorme modelo de frontera que seguirá creciendo, porque el objetivo final es hacer cosas que los humanos no pueden hacer, como nuevos descubrimientos científicos», utilizando los LLM, afirmó. La larga cola de aplicaciones de IA verá la tecnología “integrada en casi todas partes, como es el caso hoy con Internet”.
Editado por Stacy Elliott.
Generalmente inteligente Hoja informativa
Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.