DAMO-YOLO vs. YOLOv9: Una Comparación Técnica

En el mundo de la visión artificial, que avanza rápidamente, seleccionar el modelo de detección de objetos óptimo es una decisión fundamental que afecta a todo, desde la latencia del sistema hasta la precisión de la detección. Esta guía completa proporciona una comparación técnica entre DAMO-YOLO, un detector de alta velocidad de Alibaba Group, y YOLOv9, una arquitectura centrada en la preservación de la información y la eficiencia. Analizaremos sus innovaciones arquitectónicas, métricas de rendimiento y casos de uso ideales para ayudar a los desarrolladores e investigadores a tomar decisiones informadas.

Si bien ambos modelos ofrecen mejoras significativas con respecto a sus predecesores, YOLOv9, particularmente cuando se aprovecha dentro del ecosistema de Ultralytics, proporciona una convincente combinación de precisión de última generación, herramientas fáciles de usar para desarrolladores y opciones de implementación versátiles.

DAMO-YOLO: Diseño orientado a la velocidad mediante la búsqueda de arquitectura neuronal

DAMO-YOLO es un framework de detección de objetos desarrollado por Alibaba, diseñado con una metodología "única para todos". Prioriza la baja latencia y el alto rendimiento, lo que lo convierte en un fuerte competidor para aplicaciones industriales que requieren restricciones de velocidad estrictamente definidas en hardware específico.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización:Alibaba Group
Fecha: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444
GitHub:https://github.com/tinyvision/DAMO-YOLO

Innovaciones Arquitectónicas

DAMO-YOLO se distingue por procesos de diseño automatizados y componentes eficientes:

Búsqueda de Arquitectura Neuronal (NAS): En lugar de diseñar manualmente backbones, DAMO-YOLO utiliza la Búsqueda de Arquitectura Neuronal (NAS) para descubrir estructuras eficientes (TinyNAS) adaptadas a diferentes presupuestos computacionales.
Cuello RepGFPN: Introduce una variación eficiente de la red de pirámide de características generalizada (GFPN), denominada RepGFPN. Este componente optimiza la fusión de características y admite la reparametrización, lo que permite velocidades de inferencia más rápidas.
ZeroHead: El modelo emplea un cabezal de detección ligero "ZeroHead", que reduce la sobrecarga computacional que normalmente se asocia con los cabezales de detección complejos.
AlignedOTA: Para mejorar la estabilidad y la precisión del entrenamiento, utiliza AlignedOTA, una estrategia de asignación de etiquetas que resuelve los problemas de desalineación entre las tareas de clasificación y regresión.

Fortalezas y Limitaciones

La principal fortaleza de DAMO-YOLO radica en su velocidad de inferencia. La arquitectura está fuertemente optimizada para un alto rendimiento de la GPU, lo que la hace adecuada para las canalizaciones de análisis de video donde el volumen de procesamiento es crítico. Además, el uso de la destilación mejora el rendimiento de sus modelos más pequeños.

Sin embargo, DAMO-YOLO enfrenta desafíos con respecto a la madurez del ecosistema. En comparación con las herramientas robustas disponibles para los modelos de Ultralytics, los usuarios pueden encontrar menos recursos para la implementación, la conversión de formatos y el soporte de la comunidad. Su versatilidad de tareas también se limita generalmente a la detección de objetos, mientras que los marcos modernos a menudo admiten la segmentación y la estimación de pose de forma nativa.

Más información sobre DAMO-YOLO

YOLOv9: Gradientes Programables para una Máxima Eficiencia

YOLOv9 representa un cambio de paradigma en la detección de objetos en tiempo real al abordar el problema fundamental de la pérdida de información en las redes neuronales profundas. Al garantizar que los datos críticos se conserven en toda la profundidad de la red, YOLOv9 logra una precisión superior con una notable eficiencia de parámetros.

Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organización:Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Documentación:https://docs.ultralytics.com/models/yolov9/

Arquitectura Central: PGI y GELAN

YOLOv9 introduce dos tecnologías innovadoras que la distinguen:

Información de gradiente programable (PGI): Las redes profundas a menudo sufren de un cuello de botella de información donde los datos de entrada se pierden a medida que pasan a través de las capas. PGI proporciona una rama de supervisión auxiliar que genera gradientes fiables, asegurando que las capas profundas reciban información completa para actualizaciones de peso precisas.
Red de Agregación de Capas Eficiente Generalizada (GELAN): Esta novedosa arquitectura combina las fortalezas de CSPNet y ELAN. GELAN está diseñado para maximizar la utilización de parámetros, entregando un modelo que es a la vez ligero e increíblemente potente.

Por qué importa PGI

En los modelos tradicionales de aprendizaje profundo, la función de pérdida en la capa de salida a menudo carece de información suficiente para guiar las actualizaciones de las capas superficiales de forma eficaz. PGI actúa como un puente, preservando la información de entrada y garantizando que toda la red aprenda características robustas, lo que conduce a una mejor convergencia y una mayor precisión.

La ventaja de Ultralytics

Al usar YOLOv9 dentro del ecosistema Ultralytics, los desarrolladores obtienen ventajas significativas sobre las implementaciones independientes:

Facilidad de uso: La API de python y la CLI de Ultralytics abstraen las complejas canalizaciones de entrenamiento en comandos simples.
Eficiencia en el entrenamiento: Las metodologías de Ultralytics garantizan un uso óptimo de los recursos. YOLOv9 normalmente requiere menos memoria CUDA durante el entrenamiento en comparación con los detectores basados en transformadores, lo que lo hace accesible en una gama más amplia de hardware.
Versatilidad: Si bien el documento principal de YOLOv9 se centra en la detección, el framework de Ultralytics facilita la extensión de estas arquitecturas a otras tareas y garantiza una exportación perfecta a formatos como ONNX, TensorRT y OpenVINO.

Más información sobre YOLOv9

Análisis de rendimiento: Precisión vs. Eficiencia

La siguiente comparación destaca las ventajas y desventajas entre DAMO-YOLO y YOLOv9. Si bien DAMO-YOLO ofrece velocidades competitivas en hardware específico, YOLOv9 ofrece consistentemente una precisión media promedio (mAP) más alta con menos parámetros, lo que demuestra una eficiencia arquitectónica superior.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Conclusiones clave:

Eficiencia de parámetros: YOLOv9s logra un mAP más alto (46.8) que DAMO-YOLOs (46.0) utilizando menos de la mitad de los parámetros (7.1M vs 16.3M). Esto hace que YOLOv9 sea significativamente más amigable con el almacenamiento y más fácil de actualizar de forma inalámbrica para dispositivos edge AI.
Precisión de gama alta: Las variantes YOLOv9 más grandes (c y e) superan los límites de precisión más allá de los límites de DAMO-YOLO, alcanzando 55.6 mAP.
Velocidad: Si bien DAMO-YOLO muestra una ligera ventaja en la latencia bruta de TensorRT para modelos medianos, YOLOv9t es extremadamente rápido (2.3 ms), lo que lo hace ideal para aplicaciones móviles en tiempo real.

Metodologías de entrenamiento y usabilidad

La experiencia de entrenamiento difiere significativamente entre los dos modelos. La dependencia de DAMO-YOLO en NAS implica una fase de búsqueda compleja para derivar la arquitectura, o el uso de backbones pre-buscados. Su enfoque de "una vez por todas" puede ser computacionalmente costoso si se requiere la personalización de la estructura del backbone.

Por el contrario, YOLOv9, con el respaldo de Ultralytics, ofrece un modo de entrenamiento optimizado. Los usuarios pueden ajustar los modelos en conjuntos de datos personalizados como Open Images V7 o colecciones especializadas con una configuración mínima. La integración con Ultralytics HUB permite el entrenamiento, la visualización y la implementación con un solo clic basados en la nube, democratizando el acceso a la IA avanzada sin necesidad de una gran experiencia en NAS o ajuste de hiperparámetros.

Ejemplo de código: Entrenamiento de YOLOv9

Implementar YOLOv9 es sencillo con el paquete de python de Ultralytics.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Casos de Uso Ideales

Cuándo elegir DAMO-YOLO

Procesamiento de video a escala masiva: Si está procesando miles de transmisiones de video en GPU de servidor específicas donde cada milisegundo de latencia se traduce en importantes ahorros de costos de infraestructura, la optimización de DAMO-YOLO para un alto rendimiento podría ser beneficiosa.
Restricciones de hardware fijas: Para escenarios donde el hardware es conocido y estático, las arquitecturas derivadas de NAS se pueden seleccionar para llenar perfectamente el presupuesto de cómputo disponible.

Cuándo elegir YOLOv9

Visión Artificial de Propósito General: Para la mayoría de los desarrolladores que trabajan en robótica, seguridad o análisis minorista, YOLOv9 ofrece el mejor equilibrio entre precisión y facilidad de uso.
Implementación en el borde: Debido a su eficiencia de parámetros superior (por ejemplo, YOLOv9s), se adapta mejor a dispositivos limitados como Raspberry Pi o NVIDIA Jetson, dejando más espacio para otras aplicaciones.
Investigación y desarrollo: La arquitectura PGI proporciona una base fascinante para seguir investigando la eficiencia del aprendizaje profundo.
Requiere un ecosistema maduro: Si tu proyecto requiere un tracking fiable, una exportación sencilla a CoreML o TFLite y un soporte activo de la comunidad, el ecosistema de Ultralytics que rodea a YOLOv9 es inigualable.

Conclusión

Tanto DAMO-YOLO como YOLOv9 muestran la rápida innovación en el campo de la detección de objetos. DAMO-YOLO demuestra el valor de la Búsqueda de Arquitectura Neuronal para exprimir el máximo rendimiento de velocidad. Sin embargo, YOLOv9 destaca como la solución más versátil y potente para la mayoría de los usuarios.

Al resolver el cuello de botella de la información de supervisión profunda con PGI y optimizar las capas con GELAN, YOLOv9 ofrece una precisión de última generación con una eficiencia notable. Cuando se combina con el ecosistema de Ultralytics, ofrece una plataforma robusta, bien mantenida y fácil de usar que acelera el viaje desde el concepto hasta la implementación. Para los desarrolladores que buscan construir aplicaciones de visión de vanguardia con confianza, los modelos YOLO de Ultralytics siguen siendo la mejor opción.

Explorar Otros Modelos

Si le interesa explorar otras opciones de última generación dentro de la familia Ultralytics o realizar más comparaciones, considere estos recursos:

Ultralytics YOLO11: el último modelo SOTA para tareas de visión versátiles.
YOLOv8 vs. DAMO-YOLO
RT-DETR vs. DAMO-YOLO
YOLOv10 vs. DAMO-YOLO
YOLOX vs. DAMO-YOLO