Snapper proporciona etiquetado asistido por aprendizaje automático para la detección de objetos de imagen con precisión de píxel

La anotación del cuadro delimitador es una tarea tediosa y tediosa que requiere anotadores para crear anotaciones que coincidan estrechamente con los límites de un objeto. Las tareas de anotación de cuadro delimitador, por ejemplo, requieren anotadores para garantizar que todos los bordes de un objeto anotado se incluyan en la anotación. En la práctica, crear anotaciones precisas y bien alineadas en los bordes de los objetos es un proceso laborioso.

En este artículo, presentamos una nueva herramienta interactiva llamada Snapper, impulsada por un modelo de aprendizaje automático (ML) que reduce el esfuerzo requerido por parte de los anotadores. La herramienta Snapper ajusta automáticamente las anotaciones ruidosas, lo que reduce el tiempo necesario para anotar datos con un alto nivel de calidad.

Presentamos a Snapper

Snapper es un sistema interactivo e inteligente que «alinea» automáticamente las anotaciones de objetos con objetos basados ​​en imágenes en tiempo real. Con Snapper, los anotadores colocan anotaciones de cuadro delimitador dibujando cuadros, luego ven ajustes inmediatos y automáticos en su cuadro delimitador para adaptarse mejor al objeto delimitado.

El sistema Snapper se compone de dos subsistemas. El primer subsistema es un componente front-end de ReactJS que intercepta los eventos del mouse relacionados con las anotaciones y maneja la representación de las predicciones del modelo. Integramos este front-end con nuestra interfaz de usuario de anotaciones de Amazon SageMaker Ground Truth. El segundo subsistema consiste en el backend del modelo, que recibe solicitudes del cliente front-end, enruta las solicitudes a un modelo ML para generar coordenadas de cuadro delimitador ajustadas y envía los datos al cliente.

Modelo ML optimizado para anotadores

La comunidad de visión artificial ha propuesto un número considerable de modelos de detección de objetos muy exitosos en los últimos años. Sin embargo, estos modelos de última generación generalmente están optimizados para la detección de objetos no guiados. Para facilitar la funcionalidad de «ajuste» de Snapper para ajustar las anotaciones del usuario, la entrada a nuestro modelo es un cuadro delimitador inicial, proporcionado por el anotador, que puede servir como marcador de la presencia de un objeto. Además, dado que el sistema no tiene una clase de objetos que pretenda admitir, el modelo de ajuste de Snapper debe ser independiente del objeto, de modo que el sistema funcione bien en una variedad de clases de objetos.

En general, estos requisitos difieren significativamente de los casos de uso de los modelos típicos de detección de objetos de ML. Observamos que el problema tradicional de detección de objetos se formula como «detectar el centro del objeto, luego retroceder las dimensiones». Esto es contrario a la intuición, ya que las predicciones precisas de los bordes del cuadro delimitador se basan de manera crucial en encontrar primero un centro de cuadro preciso y luego intentar establecer distancias escalares a los bordes. Además, no proporciona estimaciones de buena confianza que se centren en las incertidumbres de las ubicaciones de los bordes, ya que solo está disponible para su uso la puntuación del clasificador.

Para darle a nuestro modelo Snapper la capacidad de ajustar las anotaciones del usuario, diseñamos e implementamos un modelo ML personalizado diseñado para el ajuste del cuadro delimitador. Como entrada, el modelo toma una imagen y una anotación de cuadro delimitador correspondiente. El modelo extrae características de la imagen utilizando una red neuronal convolucional. Después de la extracción de características, se aplica un agrupamiento espacial direccional a cada dimensión para agregar la información necesaria para identificar una ubicación de borde adecuada.

Formulamos la predicción de ubicación para cuadros delimitadores como un problema de clasificación en diferentes ubicaciones. Mientras vemos el objeto completo, le pedimos a la máquina que razone sobre la presencia o ausencia de un borde directamente en la ubicación de cada píxel como una tarea de clasificación. Esto mejora la precisión, porque el razonamiento de cada borde usa características de imagen del vecindario local inmediato. Además, el esquema desacopla el razonamiento entre diferentes aristas, lo que evita que las ubicaciones de aristas inequívocas se vean afectadas por otras inciertas. Además, nos proporciona estimaciones de confianza intuitivas por borde, ya que nuestro modelo considera cada borde del objeto de forma independiente (como lo harían los anotadores humanos) y proporciona una distribución interpretable (o estimación de incertidumbre) para la ubicación de cada borde. Esto nos permite resaltar los bordes menos seguros para una revisión humana más eficiente y precisa.

Comparación y evaluación de la herramienta Snapper

En la práctica, encontramos que la herramienta Snapper agiliza la tarea de anotación de cuadros delimitadores y es muy intuitiva para los usuarios. También realizamos un análisis cuantitativo de Snapper para caracterizar objetivamente la herramienta. Evaluamos el modelo de ajuste de Snapper usando un tipo de estándar de evaluación para modelos de detección de objetos que usa dos medidas para examinar la validez: intersección sobre unión (IoU) y desviación de bordes y esquinas. IoU calcula la alineación entre dos anotaciones dividiendo el área de superposición de las anotaciones por el área de unión de las anotaciones, lo que da como resultado una métrica entre 0 y 1. La desviación del borde y la desviación de la esquina se calculan tomando la fracción de los bordes y esquinas que se desvían de la verdad del suelo por un valor de píxel.

Para evaluar Snapper, generamos dinámicamente datos de anotaciones ruidosas ajustando aleatoriamente COCO Coordenadas de cuadro delimitador de verdad de tierra con fluctuación de fase. Nuestro procedimiento de adición de fluctuación de fase primero desplaza el centro del cuadro delimitador hasta un 10 % de la dimensión correspondiente del cuadro delimitador en cada eje, luego escala las dimensiones del cuadro delimitador mediante una relación de muestreo aleatoria incluida entre 0,9 y 1,1. Aquí aplicamos estas métricas al conjunto de validación oficial Conjunto de datos MS-COCO utilizado para el entrenamiento. Calculamos específicamente la fracción de cuadros delimitadores con IoU que superan el 90 % junto con la fracción de desviaciones de borde y desviaciones de esquina que se desvían menos de uno o tres píxeles de la realidad del suelo correspondiente. La siguiente tabla resume nuestros hallazgos.

Como se muestra en la tabla anterior, el modelo de ajuste de Snapper mejoró significativamente ambas fuentes de datos ruidosas en cada una de las tres métricas. Centrándonos en las anotaciones de alta precisión, observamos que la aplicación de Snapper al conjunto de datos MS COCO alterado aumenta la fracción de cuadros delimitadores con IoU que superan el 90 % en más del 40 %.

Conclusión

En este artículo, presentamos una nueva herramienta de anotación impulsada por ML llamada Snapper. Snapper consta de un backend de modelo de SageMaker, así como de un componente de front-end que integramos en la interfaz de usuario de etiquetado de Ground Truth. Evaluamos Snapper en anotaciones de cuadros delimitadores ruidosos simulados y descubrimos que puede refinar con éxito cuadros delimitadores imperfectos. El uso de Snapper en trabajos de etiquetado puede reducir significativamente los costos y aumentar la precisión.

Para obtener más información, visite Etiquetado de datos de Amazon SageMaker y programe una consulta hoy.


Sobre los autores

jonathan dólar es ingeniero de software en Amazon Web Services y trabaja en la intersección del aprendizaje automático y los sistemas distribuidos. Su trabajo consiste en producir modelos de aprendizaje automático y desarrollar nuevas aplicaciones de software impulsadas por el aprendizaje automático para poner las funciones más recientes en manos de los clientes.

alex williams es un científico aplicado del equipo de ciencia human-in-the-loop en AWS AI, donde realiza investigaciones sobre sistemas interactivos en la intersección de la interacción humano-computadora (HCI) y el aprendizaje automático. Antes de unirse a Amazon, fue profesor en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación en la Universidad de Tennessee, donde codirigió el laboratorio de Investigación de Personas, Agentes, Interacciones y Sistemas (PAIRS). También ha ocupado puestos de investigación en Microsoft Research, Mozilla Research y la Universidad de Oxford. Publica regularmente su trabajo en prem

min-bai es científico aplicado en AWS, con una especialización actual en visión por computadora 2D/3D, con un enfoque en las áreas de conducción autónoma y herramientas de inteligencia artificial fáciles de usar. Cuando no está en el trabajo, le gusta explorar la naturaleza, especialmente fuera de los caminos trillados.

Kumar Chellapilla es director general y director de Amazon Web Services y lidera el desarrollo de servicios de ML/AI, como sistemas humanos en bucle, AI DevOps, ML geoespacial y desarrollo de ADAS/vehículos autónomos. Antes de AWS, Kumar fue director de ingeniería en Uber ATG y Lyft Level 5 y lideró equipos que utilizan el aprendizaje automático para desarrollar capacidades de conducción autónoma, como percepción y mapeo. También ha trabajado en la aplicación de técnicas de aprendizaje automático para mejorar la búsqueda, las recomendaciones y la publicidad de productos en LinkedIn, Twitter, Bing y Microsoft Research.

patricio haffner es científico aplicado principal en el equipo de AWS Sagemaker Ground Truth. Ha estado trabajando en la optimización humana en el circuito desde 1995, cuando aplicó la red neuronal convolucional LeNet para verificar el reconocimiento. Está interesado en enfoques holísticos en los que los algoritmos de ML y las interfaces de usuario de etiquetado se optimizan juntos para minimizar el costo de etiquetado.

erran li es Jefe de Ciencias Aplicadas en servicios human-in-the-loop, AWS AI, Amazon. Sus intereses de investigación son el aprendizaje profundo en 3D y el aprendizaje de la representación del lenguaje y la visión. Anteriormente, fue científico principal en Alexa AI, jefe de aprendizaje automático en Scale AI y científico jefe en Pony.ai. Anteriormente, formó parte del equipo de percepción de Uber ATG y del equipo de plataforma de aprendizaje automático de Uber, trabajando en aprendizaje automático para conducción autónoma, sistemas de aprendizaje automático e iniciativas estratégicas de IA. Comenzó su carrera en Bell Labs y fue profesor asistente en la Universidad de Columbia. Ha impartido tutoriales en ICML’17 e ICCV’19, y coorganizado varios talleres en NeurIPS, ICML, CVPR, ICCV sobre aprendizaje automático para conducción autónoma, visión 3D y robótica, aprendizaje automático de sistemas informáticos y aprendizaje automático antagónico. Tiene un doctorado en informática de la Universidad de Cornell. Es miembro de ACM y miembro de IEEE.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *