DAMO-YOLO frente a YOLOv5: un análisis profundo de la detección de objetos en tiempo real

La evolución de la visión artificial ha estado marcada por una innovación continua en la detección de objetos en tiempo real. Hoy en día, los desarrolladores e investigadores se enfrentan a una miríada de opciones arquitectónicas al diseñar canales de visión. Esta comparativa técnica exhaustiva explora los matices entre DAMO-YOLO y Ultralytics YOLOv5, destacando sus respectivas arquitecturas, metodologías de entrenamiento, métricas de rendimiento y escenarios de despliegue ideales.

Introducción a DAMO-YOLO

Lanzado por Alibaba Group, DAMO-YOLO introdujo varias técnicas novedosas destinadas a superar los límites de la velocidad y precisión de detección.

Más información sobre DAMO-YOLO

Innovaciones arquitectónicas

DAMO-YOLO se basa en los cimientos de la búsqueda de arquitectura neuronal (NAS, por sus siglas en inglés). Sus autores utilizaron MAE-NAS para diseñar automáticamente backbones que equilibran la latencia y la precisión. El modelo introduce una eficiente RepGFPN (Reparameterized Generalized Feature Pyramid Network) que mejora la fusión de características a diferentes escalas. Además, DAMO-YOLO incorpora un diseño "ZeroHead", eliminando complejos cabezales de predicción multirrama en favor de una estructura más sencilla y eficiente que depende en gran medida de la reparametrización durante la inferencia.

Para mejorar el entrenamiento, el modelo utiliza AlignedOTA para la asignación de etiquetas y un proceso de mejora de destilación pesada, donde un modelo "profesor" más grande guía al modelo "estudiante" más pequeño para lograr una mayor precisión.

Introducción a Ultralytics YOLOv5

Ultralytics YOLOv5 es una de las arquitecturas de visión más adoptadas en todo el mundo, reconocida por su estabilidad, facilidad de uso y su extenso ecosistema de despliegue.

Más información sobre YOLOv5

El estándar del ecosistema

YOLOv5 redefinió el estándar de la industria en cuanto a usabilidad. Construido de forma nativa en PyTorch, utiliza un backbone CSPNet altamente optimizado y un neck PANet para una agregación robusta de características. Aunque precedió a la tendencia sin anclas (anchor-free) vista en modelos posteriores, su enfoque refinado basado en anclas, junto con el aprendizaje automático de anclas, garantiza un excelente rendimiento desde el primer momento.

La verdadera fuerza de YOLOv5 radica en su Ecosistema Bien Mantenido. Se integra a la perfección con herramientas de seguimiento como Comet y Weights & Biases, y admite exportaciones con un solo clic a formatos como ONNX, TensorRT y CoreML.

Primeros pasos con YOLOv5

YOLOv5 es increíblemente fácil de entrenar con datasets personalizados. La API optimizada reduce la fricción desde el prototipo hasta la producción, lo que lo convierte en un favorito entre los equipos de ingeniería ágiles.

Comparación de rendimiento y métricas

Al comparar estos modelos, es fundamental observar el equilibrio entre la precisión media (mAP), la velocidad de inferencia y el recuento de parámetros.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Analizando las compensaciones

DAMO-YOLO logra puntuaciones mAP impresionantes para sus tamaños de parámetros, beneficiándose enormemente de su fase de entrenamiento por destilación. Sin embargo, esto tiene un coste en cuanto a Eficiencia de Entrenamiento. El proceso de destilación multietapa requiere entrenar primero un modelo profesor pesado, lo que aumenta significativamente el tiempo de GPU compute y la VRAM necesarios.

Por el contrario, YOLOv5 ofrece unos excelentes Requisitos de Memoria. Los modelos Ultralytics YOLO son conocidos por un menor uso de memoria tanto durante el entrenamiento como en la inferencia en comparación con complejas tuberías de destilación o modelos basados en Transformer como RT-DETR. Esto permite que YOLOv5 se entrene de forma eficiente en hardware de consumo o en entornos en la nube accesibles como Google Colab.

Aplicaciones en el mundo real y versatilidad

Elegir la arquitectura correcta a menudo depende del entorno de despliegue.

Donde destaca DAMO-YOLO

DAMO-YOLO es estrictamente un modelo de detección de objetos. Es una excelente opción para la investigación académica, particularmente para equipos que estudian la búsqueda de arquitectura neuronal o aquellos que buscan reproducir las técnicas de reparametrización detalladas en el documento. Si un proyecto cuenta con amplios recursos computacionales para ejecutar la fase de entrenamiento de destilación y se centra únicamente en exprimir la última fracción de precisión para cuadros delimitadores 2D, DAMO-YOLO es un fuerte competidor.

La ventaja de Ultralytics

Para la producción en el mundo real, la Facilidad de Uso y la Versatilidad de los modelos Ultralytics los convierten en la opción preferida. Mientras que YOLOv5 sigue siendo un elemento básico para la detección y la clasificación de imágenes, el ecosistema más amplio de Ultralytics permite a los desarrolladores cambiar sin esfuerzo entre tareas.

Por ejemplo, las iteraciones más recientes de la familia Ultralytics admiten de forma nativa la segmentación de instancias, la estimación de pose y la detección de Oriented Bounding Box (OBB). Esta capacidad multitarea garantiza que los equipos puedan utilizar una única API de Python unificada para tuberías complejas, como la combinación del reconocimiento automático de matrículas con la segmentación de vehículos.

Casos de uso y recomendaciones

Elegir entre DAMO-YOLO y YOLOv5 depende de los requisitos específicos de tu proyecto, las restricciones de despliegue y las preferencias de ecosistema.

Cuándo elegir DAMO-YOLO

DAMO-YOLO es una gran opción para:

  • Análisis de video de alto rendimiento: Procesamiento de flujos de video de alta tasa de cuadros (FPS) en infraestructura de GPU NVIDIA fija, donde el rendimiento de procesamiento batch-1 es la métrica principal.
  • Líneas de fabricación industrial: Escenarios con estrictas restricciones de latencia de GPU en hardware dedicado, como la inspección de calidad en tiempo real en líneas de ensamblaje.
  • Investigación en Búsqueda de Arquitectura Neuronal: Estudiar los efectos de la búsqueda de arquitectura automatizada (MAE-NAS) y los backbones reparametrizados eficientes en el rendimiento de detección.

Cuándo elegir YOLOv5

YOLOv5 se recomienda para:

  • Sistemas de producción probados: Implementaciones existentes donde se valora la larga trayectoria de estabilidad de YOLOv5, su extensa documentación y el enorme soporte de la comunidad.
  • Entrenamiento con recursos limitados: Entornos con recursos de GPU limitados donde el eficiente pipeline de entrenamiento de YOLOv5 y sus menores requisitos de memoria son ventajosos.
  • Amplio soporte de formatos de exportación: Proyectos que requieren implementación en muchos formatos, incluyendo ONNX, TensorRT, CoreML y TFLite.

Cuándo elegir Ultralytics (YOLO26)

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia para el desarrollador:

  • Despliegue en borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de la supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.

El futuro: pasarse a YOLO26

Aunque YOLOv5 es legendario y DAMO-YOLO proporciona interesantes conocimientos académicos, el estado del arte ha evolucionado. Lanzado en enero de 2026, Ultralytics YOLO26 representa un gran salto adelante para la comunidad de visión artificial.

Más información sobre YOLO26

YOLO26 aborda los cuellos de botella tradicionales del despliegue en el borde (edge) y la inestabilidad en el entrenamiento:

  • End-to-End NMS-Free Design: YOLO26 natively eliminates Non-Maximum Suppression post-processing. This breakthrough simplifies deployment logic and drastically reduces latency variability, making it ideal for high-speed robotics and autonomous systems.
  • Optimizador MuSGD: Inspirado en las innovaciones de entrenamiento de modelos lingüísticos (como Kimi K2 de Moonshot AI), YOLO26 utiliza el optimizador MuSGD (un híbrido de SGD y Muon). Esto garantiza ejecuciones de entrenamiento altamente estables y una convergencia notablemente más rápida.
  • Hasta un 43 % más de velocidad en inferencia de CPU: Al eliminar estratégicamente la Distribution Focal Loss (DFL), YOLO26 logra velocidades muy superiores en CPUs y dispositivos edge en comparación con sus predecesores como YOLO11 y YOLOv8.
  • ProgLoss + STAL: Estas funciones de pérdida avanzadas producen mejoras notables en el reconocimiento de objetos pequeños, lo cual es crítico para analizar imágenes de drones aéreos y fuentes de sensores IoT.

Ejemplo de código: Sencillez en acción

El paquete Ultralytics te permite entrenar y desplegar modelos con solo unas pocas líneas de código. Tanto si utilizas YOLOv5 como si actualizas a la versión recomendada YOLO26, la interfaz sigue siendo coherente e intuitiva.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Export the model for edge deployment
model.export(format="onnx")

Conclusión

Tanto DAMO-YOLO como YOLOv5 han contribuido significativamente al panorama de la visión artificial. DAMO-YOLO muestra el poder de la búsqueda de arquitectura neuronal y la destilación, lo que lo convierte en un estudio interesante para los investigadores. Sin embargo, YOLOv5 sigue siendo una potencia práctica debido a su Equilibrio de Rendimiento, bajos requisitos de memoria y una facilidad de uso inigualable.

Para los desarrolladores que comienzan nuevos proyectos hoy, la recomendación es aprovechar la Plataforma Ultralytics y adoptar YOLO26. Combina el apreciado ecosistema fácil de usar de YOLOv5 con innovadores avances arquitectónicos, garantizando una precisión de primer nivel y una inferencia ultrarrápida tanto para aplicaciones de IA en la nube como en el borde (edge). Los desarrolladores también pueden querer explorar otros modelos eficientes como YOLOv6 o YOLOX dependiendo de las restricciones específicas de hardware heredado.

Comentarios