Ir al contenido

DAMO-YOLO vs. YOLOv5: Una Inmersión Profunda en la Detección de Objetos en Tiempo Real

La evolución de la visión por computadora ha estado marcada por la innovación continua en la detección de objetos en tiempo real. Hoy en día, desarrolladores e investigadores se enfrentan a una miríada de opciones arquitectónicas al diseñar pipelines de visión. Esta comparación técnica exhaustiva explora los matices entre DAMO-YOLO y Ultralytics YOLOv5, destacando sus respectivas arquitecturas, metodologías de entrenamiento, métricas de rendimiento y escenarios de implementación ideales.

Introducción a DAMO-YOLO

Lanzado por Alibaba Group, DAMO-YOLO introdujo varias técnicas novedosas destinadas a superar los límites de la velocidad y precisión de detección.

Más información sobre DAMO-YOLO

Innovaciones Arquitectónicas

DAMO-YOLO se basa en una Búsqueda de Arquitectura Neuronal (NAS). Los autores utilizaron MAE-NAS para diseñar automáticamente backbones que equilibran la latencia y la precisión. El modelo introduce una RepGFPN eficiente (Red Piramidal de Características Generalizada Re-parametrizada) que mejora la fusión de características a través de diferentes escalas. Además, DAMO-YOLO incorpora un diseño "ZeroHead", eliminando las complejas cabezas de predicción multi-rama en favor de una estructura más simple y eficiente que depende en gran medida de la re-parametrización durante la inferencia.

Para mejorar el entrenamiento, el modelo utiliza AlignedOTA para la asignación de etiquetas y un proceso intensivo de mejora por destilación, donde un modelo "maestro" más grande guía al modelo "estudiante" más pequeño para lograr una mayor precisión.

Introducción a Ultralytics YOLOv5

Ultralytics YOLOv5 es una de las arquitecturas de visión más adoptadas en el mundo, reconocida por su estabilidad, facilidad de uso y un amplio ecosistema de despliegue.

Más información sobre YOLOv5

El estándar del ecosistema

YOLOv5 redefinió el estándar de la industria en cuanto a usabilidad. Construido nativamente en PyTorch, utiliza un backbone CSPNet altamente optimizado y un cuello PANet para una agregación robusta de características. Aunque precedió la tendencia sin anclas vista en modelos posteriores, su enfoque basado en anclas altamente refinado, junto con el aprendizaje automático de anclas, asegura un rendimiento excelente de forma predeterminada.

La verdadera fortaleza de YOLOv5 reside en su Ecosistema Bien Mantenido. Se integra perfectamente con herramientas de seguimiento como Comet y Weights & Biases, y soporta exportaciones con un solo clic a formatos como ONNX, TensorRT y CoreML.

Primeros pasos con YOLOv5

YOLOv5 es increíblemente fácil de entrenar en conjuntos de datos personalizados. La API optimizada reduce la fricción desde el prototipo hasta la producción, convirtiéndolo en uno de los favoritos entre los equipos de ingeniería ágiles.

Comparación de rendimiento y métricas

Al comparar estos modelos, es crucial observar el equilibrio entre la precisión media promedio (mAP), la velocidad de inferencia y el número de parámetros.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Análisis de las ventajas y desventajas

DAMO-YOLO logra impresionantes puntuaciones de mAP para sus tamaños de parámetros, beneficiándose en gran medida de su fase de entrenamiento por destilación. Sin embargo, esto tiene un costo en términos de Eficiencia de Entrenamiento. El proceso de destilación multi-etapa requiere entrenar primero un modelo "maestro" pesado, lo que aumenta significativamente el tiempo de cómputo de GPU y la VRAM necesarios.

Por el contrario, YOLOv5 ofrece excelentes requisitos de memoria. Los modelos Ultralytics YOLO son conocidos por su menor uso de memoria durante el entrenamiento y la inferencia en comparación con pipelines de destilación complejos o modelos basados en transformadores como RT-DETR. Esto permite que YOLOv5 se entrene eficientemente en hardware de consumo o en entornos de nube accesibles como Google Colab.

Aplicaciones en el Mundo Real y Versatilidad

La elección de la arquitectura correcta a menudo depende del entorno de despliegue.

Dónde destaca DAMO-YOLO

DAMO-YOLO es estrictamente un modelo de detección de objetos. Es una excelente opción para la investigación académica, particularmente para equipos que estudian la Búsqueda de Arquitectura Neuronal o aquellos que buscan reproducir las técnicas de re-parametrización detalladas en el artículo. Si un proyecto cuenta con amplios recursos computacionales para ejecutar la fase de entrenamiento por destilación y se enfoca únicamente en exprimir la última fracción de precisión para cajas delimitadoras 2D, DAMO-YOLO es un fuerte contendiente.

La ventaja de Ultralytics

Para la producción en el mundo real, la Facilidad de Uso y la Versatilidad de los modelos Ultralytics los convierten en la opción preferida. Mientras que YOLOv5 sigue siendo un pilar para la detect y la clasificación de imágenes, el ecosistema más amplio de Ultralytics permite a los desarrolladores cambiar sin esfuerzo entre tareas.

Por ejemplo, las iteraciones más recientes de la familia Ultralytics soportan de forma nativa la segmentación de instancias, la estimación de pose y la detección de cajas delimitadoras orientadas (OBB). Esta capacidad multitarea asegura que los equipos puedan utilizar una única API unificada de Python para pipelines complejos, como la combinación del reconocimiento automático de matrículas con la segmentación de vehículos.

Casos de Uso y Recomendaciones

La elección entre DAMO-YOLO y YOLOv5 depende de los requisitos específicos de su proyecto, las restricciones de despliegue y las preferencias del ecosistema.

Cuándo elegir DAMO-YOLO

DAMO-YOLO es una opción sólida para:

  • Análisis de Video de Alto Rendimiento: Procesamiento de flujos de video de alto FPS en infraestructura fija de GPUs NVIDIA donde el rendimiento de lote-1 es la métrica principal.
  • Líneas de Fabricación Industrial: Escenarios con estrictas restricciones de latencia de GPU en hardware dedicado, como la inspección de calidad en tiempo real en líneas de montaje.
  • Investigación en Búsqueda de Arquitectura Neuronal: Estudiando los efectos de la búsqueda de arquitectura automatizada (MAE-NAS) y de los backbones reparametrizados eficientes en el rendimiento de detect.

Cuándo elegir YOLOv5

YOLOv5 es recomendado para:

  • Sistemas de Producción Probados: Implementaciones existentes donde se valora el largo track record de estabilidad de YOLOv5, su extensa documentación y el masivo soporte de la comunidad.
  • Entrenamiento con recursos limitados: Entornos con recursos de GPU limitados donde el eficiente pipeline de entrenamiento de YOLOv5 y sus menores requisitos de memoria son ventajosos.
  • Amplio soporte de formatos de exportación: Proyectos que requieren despliegue en múltiples formatos, incluyendo ONNX, TensorRT, CoreML y TFLite.

Cuándo elegir Ultralytics (YOLO26)

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia para el desarrollador:

  • Implementación en el borde sin NMS: Aplicaciones que requieren inferencia consistente y de baja latencia sin la complejidad del postprocesamiento de supresión no máxima.
  • Entornos solo con CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia hasta un 43% más rápida de YOLO26 en CPU proporciona una ventaja decisiva.
  • Detección de Objetos Pequeños: Escenarios desafiantes como imágenes aéreas de drones o análisis de sensores IoT, donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.

El futuro: Transicionando a YOLO26

Aunque YOLOv5 es legendario y DAMO-YOLO proporciona interesantes conocimientos académicos, el estado del arte ha evolucionado. Lanzado en enero de 2026, Ultralytics YOLO26 representa un gran avance para la comunidad de visión.

Más información sobre YOLO26

YOLO26 aborda los cuellos de botella tradicionales del despliegue en el borde y la inestabilidad del entrenamiento:

  • Diseño de extremo a extremo sin NMS: YOLO26 elimina nativamente el postprocesamiento de Supresión No Máxima. Este avance simplifica la lógica de implementación y reduce drásticamente la variabilidad de la latencia, haciéndolo ideal para robótica de alta velocidad y sistemas autónomos.
  • Optimizador MuSGD: Inspirado en las innovaciones del entrenamiento de LLM (como Kimi K2 de Moonshot AI), YOLO26 utiliza el optimizador MuSGD (un híbrido de SGD y Muon). Esto garantiza ejecuciones de entrenamiento altamente estables y una convergencia notablemente más rápida.
  • Hasta un 43% más rápido en la inferencia de CPU: Al eliminar estratégicamente la Pérdida Focal de Distribución (DFL), YOLO26 logra velocidades muy superiores en CPU y dispositivos de borde en comparación con sus predecesores como YOLO11 y YOLOv8.
  • ProgLoss + STAL: Estas funciones de pérdida avanzadas producen mejoras notables en el reconocimiento de objetos pequeños, lo cual es crítico para analizar la imaginería de drones aéreos y las transmisiones de sensores IoT.

Ejemplo de código: Simplicidad en acción

El paquete Ultralytics permite entrenar y desplegar modelos con solo unas pocas líneas de código. Ya sea que esté utilizando YOLOv5 o actualizando al recomendado YOLO26, la interfaz se mantiene consistente e intuitiva.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Export the model for edge deployment
model.export(format="onnx")

Conclusión

Tanto DAMO-YOLO como YOLOv5 han contribuido significativamente al panorama de la visión por computadora. DAMO-YOLO muestra el poder de la Búsqueda de Arquitectura Neuronal y la destilación, convirtiéndolo en un estudio interesante para los investigadores. Sin embargo, YOLOv5 sigue siendo una potencia práctica debido a su Balance de Rendimiento, bajos requisitos de memoria y facilidad de uso inigualable.

Para los desarrolladores que inician nuevos proyectos hoy, la recomendación es aprovechar la Plataforma Ultralytics y adoptar YOLO26. Combina el apreciado ecosistema fácil de usar de YOLOv5 con avances arquitectónicos innovadores, asegurando una precisión de primer nivel y una inferencia ultrarrápida tanto para aplicaciones de IA en la nube como en el edge. Los desarrolladores también pueden querer explorar otros modelos eficientes como YOLOv6 o YOLOX dependiendo de las limitaciones específicas de hardware heredado.


Comentarios