YOLOv6-3.0 vs. DAMO-YOLO: Una comparación técnica para la detección de objetos

Seleccionar la arquitectura de visión artificial adecuada es una decisión fundamental para ingenieros e investigadores. El panorama de la object detection es competitivo, con gigantes industriales que constantemente superan los límites de la velocidad y la precisión. Esta página proporciona una comparación técnica completa entre YOLOv6-3.0, un modelo de Meituan eficiente en hardware, y DAMO-YOLO, una arquitectura repleta de tecnología de Alibaba Group.

Descripción general de YOLOv6-3.0

YOLOv6-3.0 sirve como un framework robusto adaptado específicamente para aplicaciones industriales. Lanzado por el Departamento de IA Visual de Meituan, prioriza la eficiencia en el mundo real, con el objetivo de ofrecer un alto rendimiento en las limitaciones de hardware estándar que se encuentran en la fabricación y la automatización.

Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu y Xiangxiang Chu
Organización:Meituan
Fecha: 2023-01-13
Arxiv:YOLOv6 v3.0: Una recarga a gran escala
GitHub:meituan/YOLOv6
Documentación:Documentación de Ultralytics YOLOv6

Arquitectura e Innovaciones Clave

YOLOv6-3.0 refina el paradigma del detector de una sola etapa con un enfoque en la reparametrización. Esta técnica permite que el modelo tenga una estructura compleja durante el entrenamiento para un mejor aprendizaje, pero se reduce a una estructura más simple y rápida durante la inferencia.

Backbone EfficientRep: El backbone utiliza bloques distintos para diferentes tamaños de modelo (EfficientRep para modelos pequeños y CSPStackRep para los más grandes), optimizando la utilización de las capacidades del hardware de la GPU.
Cuello Rep-PAN: El cuello emplea una topología Rep-PAN, mejorando la fusión de características mientras mantiene altas velocidades de inferencia.
Autodestilación: Una metodología de entrenamiento clave donde el modelo aprende de sus propias predicciones (específicamente, una rama maestra dentro de la misma red) para mejorar la precisión sin el costo computacional de un modelo maestro separado durante el despliegue.

Optimización Industrial

YOLOv6 está diseñado explícitamente teniendo en cuenta la cuantización. Su arquitectura es compatible con la cuantización posterior al entrenamiento (PTQ) y el entrenamiento con reconocimiento de cuantización (QAT), lo que lo convierte en un candidato sólido para la implementación en dispositivos edge donde se prefiere la precisión INT8 por su velocidad.

Más información sobre YOLOv6

Descripción general de DAMO-YOLO

DAMO-YOLO, desarrollado por Alibaba Group, introduce un conjunto de tecnologías novedosas para optimizar el equilibrio entre rendimiento y latencia. Se distingue por incorporar la Búsqueda de Arquitectura Neuronal (NAS) y técnicas avanzadas de fusión de características.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, y Xiuyu Sun
Organización:Alibaba Group
Fecha: 2022-11-23
Arxiv:DAMO-YOLO: A Report on Real-Time Object Detection Design
GitHub:tinyvision/DAMO-YOLO
Documentación:DAMO-YOLO GitHub README

Arquitectura e Innovaciones Clave

DAMO-YOLO se aleja de las arquitecturas puramente artesanales, confiando en parte en estrategias de búsqueda automatizadas para encontrar estructuras eficientes.

Backbone Impulsado por NAS (MazeNet): El backbone se genera utilizando MAE-NAS (Búsqueda de Arquitectura Neuronal), resultando en una estructura llamada MazeNet que está altamente optimizada para diferentes presupuestos computacionales.
RepGFPN Eficiente: Utiliza una Red Piramidal de Características Generalizada (GFPN) combinada con la reparametrización. Esto permite una rica fusión de características multiescala, que es fundamental para la detección de objetos de varios tamaños.
ZeroHead: Un diseño de cabezal de detección simplificado que reduce el número de parámetros y la complejidad computacional en la etapa final de la red.
AlignedOTA: Una estrategia de asignación dinámica de etiquetas que resuelve la desalineación entre las tareas de clasificación y regresión durante el proceso de entrenamiento.

Fusión Avanzada de Características

El cuello de botella RepGFPN en DAMO-YOLO es particularmente eficaz para manejar escenas complejas con objetos superpuestos. Al permitir conexiones de salto a través de diferentes niveles de escala, preserva la información semántica mejor que las estructuras FPN estándar.

Más información sobre DAMO-YOLO

Análisis de rendimiento: Velocidad vs. Precisión

La siguiente comparación utiliza datos del conjunto de datos COCO val2017. Las métricas destacan las ventajas y desventajas entre los dos modelos en diferentes escalas.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Puntos clave

Líder en Latencia: YOLOv6-3.0n es el modelo más rápido en esta comparación, registrando 1.17 ms en una GPU T4. Esto lo hace excepcionalmente adecuado para requisitos de alta velocidad de fotogramas en escenarios de inferencia en tiempo real.
Pico de precisión:YOLOv6-3.0l alcanza la máxima precisión con un mAP de 52.8, lo que demuestra la eficacia de su pesado backbone y su estrategia de auto-destilación, aunque a costa de mayores parámetros y FLOPs en comparación con DAMO-YOLO.
Punto óptimo de eficiencia:DAMO-YOLOs supera a YOLOv6-3.0s en precisión (46.0 vs 45.0 mAP) al tiempo que tiene menos parámetros (16.3M vs 18.5M). Esto destaca la eficiencia del backbone buscado por NAS en el régimen de modelos pequeños.
Eficiencia de parámetros: Generalmente, los modelos DAMO-YOLO exhiben menos FLOPs y conteos de parámetros para una precisión comparable en el rango de mediano a grande, lo que valida la efectividad del diseño ZeroHead.

La ventaja de Ultralytics

Si bien YOLOv6-3.0 y DAMO-YOLO ofrecen características convincentes para nichos específicos, Ultralytics YOLO11 proporciona una solución más holística para el desarrollo moderno de la IA. Elegir un modelo Ultralytics desbloquea un ecosistema integral diseñado para optimizar todo el ciclo de vida del aprendizaje automático.

¿Por qué elegir Ultralytics YOLO?

Facilidad de Uso Inigualable: A diferencia de los repositorios de investigación que a menudo requieren configuraciones de entorno complejas y la compilación de operadores C++ personalizados, los modelos de Ultralytics se pueden instalar a través de un simple pip install ultralytics. La intuitiva API de Python le permite entrenar e implementar modelos con tan solo unas pocas líneas de código.
Equilibrio de rendimiento: YOLO11 está diseñado para proporcionar el equilibrio óptimo entre la velocidad de inferencia y la precisión, a menudo superando a sus competidores en pruebas comparativas del mundo real, manteniendo al mismo tiempo menores requisitos de memoria durante el entrenamiento.
Versatilidad de Tareas: Si bien YOLOv6 y DAMO-YOLO son principalmente detectores de objetos, Ultralytics YOLO admite una amplia gama de tareas de forma nativa, incluyendo Segmentación de Instancias, Estimación de Pose, Clasificación y detección de Cajas Delimitadoras Orientadas (OBB).
Ecosistema bien mantenido: Ultralytics proporciona un ecosistema vivo con actualizaciones frecuentes, documentación extensa y soporte de la comunidad a través de Discord y GitHub. Esto garantiza que su proyecto esté preparado para el futuro y sea compatible con las últimas bibliotecas de hardware y software.
Flexibilidad de Implementación: Exporte fácilmente sus modelos entrenados a varios formatos como ONNX, TensorRT, CoreML y OpenVINO utilizando el modo de exportación incorporado, lo que facilita la implementación en todo, desde servidores en la nube hasta dispositivos Raspberry Pi.

Ejemplo: Ejecución de la detección de objetos con YOLO11

Comenzar con la detección de última generación es notablemente sencillo con Ultralytics:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Conclusión

Tanto YOLOv6-3.0 como DAMO-YOLO representan hitos importantes en la evolución de la detección de objetos. YOLOv6-3.0 destaca en entornos industriales donde la velocidad bruta y el soporte de cuantización son primordiales, particularmente con su variante Nano. DAMO-YOLO muestra el poder de la Búsqueda de Arquitectura Neuronal y la fusión innovadora de características, ofreciendo alta eficiencia y precisión en el rango de modelos pequeño a mediano.

Sin embargo, para los desarrolladores que buscan una solución lista para la producción que combine un rendimiento de vanguardia con versatilidad y facilidad de uso, Ultralytics YOLO11 sigue siendo la opción recomendada. Su robusto ecosistema, sus capacidades multitarea y su perfecta integración en los flujos de trabajo modernos de MLOps proporcionan una clara ventaja para garantizar el éxito del proyecto.

Explorar Otros Modelos

Para ampliar su comprensión del panorama de la detección de objetos, considere la posibilidad de explorar estas comparaciones de modelos relacionados:

YOLOv6-3.0 vs. DAMO-YOLO: Una comparación técnica para la detección de objetos

Descripción general de YOLOv6-3.0

Arquitectura e Innovaciones Clave

Descripción general de DAMO-YOLO

Arquitectura e Innovaciones Clave

Análisis de rendimiento: Velocidad vs. Precisión

Puntos clave

La ventaja de Ultralytics

¿Por qué elegir Ultralytics YOLO?

Ejemplo: Ejecución de la detección de objetos con YOLO11

Conclusión

Explorar Otros Modelos

Comentarios