
Las redes neuronales, un tipo de modelo de aprendizaje automático, se utilizan para ayudar a los humanos a realizar una amplia variedad de tareas, desde predecir si el puntaje de crédito de una persona es lo suficientemente alto como para calificar para un préstamo hasta diagnosticar si un paciente tiene una determinada enfermedad. Pero los investigadores todavía tienen una comprensión limitada de cómo funcionan estos modelos. Si un modelo dado es óptimo para ciertas tareas sigue siendo una pregunta abierta.
Los investigadores del MIT han encontrado respuestas. Realizaron un análisis de redes neuronales y demostraron que pueden diseñarse para ser «óptimos», lo que significa que minimizan la probabilidad de clasificar erróneamente a los prestatarios o pacientes en la categoría incorrecta cuando las redes reciben una gran cantidad de datos de entrenamiento etiquetados. Para lograr la optimización, estas redes deben construirse con una arquitectura específica.
Los investigadores descubrieron que, en ciertas situaciones, los componentes básicos que permiten que una red neuronal sea óptima no son los que los desarrolladores usan en la práctica. Estos bloques de construcción óptimos, derivados del nuevo análisis, son poco convencionales y nunca antes se habían considerado, según los investigadores.
En un artículo publicado esta semana en el procedimientos de la Academia Nacional de Ciencias, describen estos bloques de construcción óptimos, llamados funciones de activación, y muestran cómo se pueden usar para diseñar redes neuronales que logren un mejor rendimiento en cualquier conjunto de datos. Los resultados se mantienen incluso cuando las redes neuronales se vuelven muy grandes. Este trabajo podría ayudar a los desarrolladores a seleccionar la función de activación correcta, permitiéndoles construir redes neuronales que clasifiquen los datos con mayor precisión en una amplia gama de dominios de aplicación, dice la autora principal Caroline Uhler, profesora del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS).
«Aunque estas son nuevas funciones habilitadoras que nunca antes se han utilizado, son funciones simples que alguien podría implementar para un problema en particular. Este trabajo muestra la importancia de «tener evidencia teórica». Si está buscando una comprensión basada en principios de estos modelos, en realidad puede llevarlo a nuevas funciones de activación en las que nunca habría pensado», dice Uhler, quien también es codirector del Centro Eric y Wendy Schmidt en el Instituto Broad del MIT y Harvard, y miembro investigador en el Laboratorio de Información y Sistemas de Decisión (LIDS) del MIT y su Instituto de Datos, Sistemas y Sociedad (IDSS).
Adityanarayanan Radhakrishnan, estudiante de posgrado de EECS y miembro del Centro Eric y Wendy Schmidt, y Mikhail Belkin, profesor del Instituto de ciencia de datos Halicioğlu de la Universidad de California en San Diego, se unen a Uhler para escribir el artículo.
Encuesta de activación
Una red neuronal es un tipo de modelo de aprendizaje automático que se basa libremente en el cerebro humano. Muchas capas de nodos interconectados, o neuronas, procesan datos. Los investigadores forman una red para completar una tarea mostrándole millones de ejemplos de un conjunto de datos.
Por ejemplo, una red que ha sido entrenada para clasificar imágenes en categorías, como perros y gatos, recibe una imagen que ha sido codificada como números. La red realiza una serie de complejas operaciones de multiplicación, capa por capa, hasta que el resultado es un solo número. Si este número es positivo, la red clasifica la imagen como un perro, y si es negativo como un gato.
Las funciones de activación ayudan a la red a aprender patrones complejos en los datos de entrada. Lo hacen aplicando una transformación a la salida de una capa antes de que los datos se envíen a la siguiente capa. Cuando los investigadores construyen una red neuronal, seleccionan una función de activación para usar. También eligen el ancho de la red (cuántas neuronas hay en cada capa) y la profundidad (cuántas capas hay en la red).
«Resulta que si tomas las funciones de activación estándar que la gente usa en la práctica y sigues aumentando la profundidad de la red, obtienes un rendimiento realmente terrible. Mostramos que si diseñas con diferentes activaciones d, a medida que obtienes más datos, su red mejorará cada vez más”, dice Radhakrishnan.
Él y sus colaboradores estudiaron una situación en la que una red neuronal es infinitamente profunda y amplia, lo que significa que la red se construye agregando continuamente más capas y más nodos, y está capacitada para realizar tareas de clasificación. En la clasificación, la red aprende a colocar las entradas de datos en distintas categorías.
«Una imagen clara»
Después de realizar un análisis detallado, los investigadores determinaron que solo hay tres formas en que este tipo de red puede aprender a clasificar las entradas. Un método clasifica una entrada en función de la mayoría de las entradas en los datos de entrenamiento; si hay más perros que gatos, decidirá que cada nueva entrada sea un perro. Otro método de clase es elegir la etiqueta (perro o gato) del punto de datos de entrenamiento que más se parezca a la nueva entrada.
El tercer método clasifica una nueva entrada en función de un promedio ponderado de todos los puntos de datos de entrenamiento que son similares a ella. Su análisis muestra que es el único método de los tres que conduce a un rendimiento óptimo. Identificaron un conjunto de funciones de activación que siempre utilizan este método de clasificación óptimo.
«Esa fue una de las cosas más sorprendentes: no importa lo que elija para una función de activación, será solo uno de estos tres clasificadores. Tenemos fórmulas que le dirán explícitamente cuál de estos tres será. Es un imagen muy limpia», dice.
Probaron esta teoría en varias tareas de evaluación comparativa de clasificación y descubrieron que conducía a un mejor rendimiento en muchos casos. Los constructores de redes neuronales podrían usar sus fórmulas para seleccionar una función de activación que mejore el rendimiento de la clasificación, dice Radhakrishnan.
En el futuro, los investigadores quieren usar lo que han aprendido para analizar situaciones en las que tienen una cantidad limitada de datos y para redes que no son infinitamente anchas o profundas. También quieren aplicar este análisis a situaciones en las que los datos no tienen etiquetas.
«En el aprendizaje profundo, queremos construir modelos basados en la teoría para que podamos implementarlos de manera confiable en un entorno crítico. Es un enfoque prometedor para lograr algo como esto: construir arquitecturas en una base teórica que se traduzca en mejores resultados en la práctica», dijo. dice.
Este trabajo fue apoyado, en parte, por la Fundación Nacional de Ciencias, la Oficina de Investigación Naval, el Laboratorio de IA Watson de MIT-IBM, el Centro Eric y Wendy Schmidt en el Instituto Broad y un Premio al Investigador Simons.