¿Hemos llegado a la era del aprendizaje autosupervisado?
Los datos fluyen todos los días. La gente trabaja las 24 horas del día, los 7 días de la semana. Los trabajos están repartidos por todo el mundo. Sin embargo, muchos datos permanecen sin anotar, a la espera de su posible uso en un nuevo modelo, capacitación o actualización.
O nunca sucederá. Esto nunca sucederá mientras el mundo funcione de manera supervisada.
El auge del aprendizaje autosupervisado en los últimos años ha revelado una nueva dirección. En lugar de crear anotaciones para todas las tareas, el aprendizaje autosupervisado divide las tareas en preentrenamiento/preentrenamiento (consulte mi artículo anterior sobre preentrenamiento). aquí) tareas y tareas posteriores. Las tareas de pretexto se centran en extraer características representativas de todo el conjunto de datos sin la ayuda de anotaciones reales. Sin embargo, esta tarea requiere etiquetas generadas automáticamente a partir del conjunto de datos, generalmente mediante un aumento extenso de datos. Por lo tanto, utilizamos la terminología aprendizaje sin supervisión (el conjunto de datos no está anotado) y aprendizaje auto supervisado (las tareas son supervisadas por etiquetas autogeneradas) indistintamente en este artículo.
El aprendizaje contrastivo es una categoría importante del aprendizaje autosupervisado.Utiliza conjuntos de datos sin etiquetar y pérdidas de información contrastiva codificadas (por ejemplo, pérdida contrastiva, pérdida de InfoNCE, pérdida triplete, etc.) para entrenar la red de aprendizaje profundo. Los principales aprendizajes contrastantes incluyen SimCLR, SimSiam y la serie MOCO.
MOCO: la palabra es una abreviatura de «contraste de impulso». La idea central fue escrita en el primer artículo de MOCO, sugiriendo la comprensión de un problema de aprendizaje autosupervisado de visión por computadora, de la siguiente manera:
“[quote from original paper] La visión por computadora, por otro lado, tiene más que ver con la construcción de diccionarios, porque la señal sin procesar se encuentra en un espacio continuo de alta dimensión y no está estructurada para la comunicación humana… Aunque están impulsados por diversas motivaciones, estos métodos (nota: el aprendizaje reciente de representación visual) puede considerarse como la construcción de diccionarios dinámicos… El aprendizaje no supervisado entrena a los codificadores para realizar una búsqueda en el diccionario: una «consulta» codificada debe ser similar a su clave correspondiente y diferente de otras. El aprendizaje se formula como una minimización de una pérdida contrastiva.
En este artículo, haremos una revisión en profundidad de MOCO v1 a v3:
- v1 – el papel «Contraste de momentos para el aprendizaje no supervisado de representaciones visuales.» se publicó en CVPR 2020. El artículo proporciona una actualización de impulso para los principales codificadores ResNet que utilizan colas de muestra con pérdida de InfoNCE.
- v2: el documento “Líneas de base mejoradas con aprendizaje de impulso contrastivo” se publicó inmediatamente después, implementando dos mejoras en la arquitectura SimCLR: a) reemplazar la capa FC con un MLP de 2 capas y b) extender el aumento de los datos originales al incluir el desenfoque .
- v3: el artículo “Un estudio empírico sobre el entrenamiento de transformadores de visión autosupervisados” se publicó en ICCV 2021. El marco extiende el par clave-consulta a dos pares clave-consulta, que se utilizaron para entrenar un contraste simétrico de pérdida en el estilo SimSiam. La red troncal también se amplió desde ResNet únicamente a ResNet y ViT.