Ir al contenido

YOLO26 vs. DAMO-YOLO: Avances en la Detección de Objetos en Tiempo Real

En el panorama en rápida evolución de la visión por computadora, seleccionar el modelo de detección de objetos adecuado es crucial para equilibrar la precisión, la velocidad y la viabilidad del despliegue. Esta comparación explora YOLO26, la última oferta optimizada para el edge de Ultralytics, y DAMO-YOLO, un detector de alto rendimiento desarrollado por Alibaba Group. Ambos modelos introducen innovaciones arquitectónicas significativas, pero se dirigen a prioridades ligeramente diferentes en la cadena de despliegue.

Descripción general del modelo

Ultralytics YOLO26

YOLO26 representa un cambio de paradigma hacia la simplicidad y la eficiencia en el edge. Lanzado en enero de 2026, está diseñado para eliminar las complejidades del postprocesamiento tradicional al tiempo que ofrece un rendimiento de vanguardia en dispositivos con limitaciones de CPU. Soporta de forma nativa una amplia gama de tareas, incluyendo la detección de objetos, la segmentación de instancias, la estimación de pose, la clasificación y la detección de cajas delimitadoras orientadas (obb).

Más información sobre YOLO26

DAMO-YOLO

DAMO-YOLO se centra en optimizar el equilibrio entre velocidad y precisión mediante la búsqueda avanzada de arquitectura neuronal (NAS) y una fuerte re-parametrización. Desarrollado por el equipo de TinyVision en Alibaba, introduce componentes novedosos como RepGFPN y ZeroHead para maximizar la eficiencia de extracción de características, apuntando principalmente a escenarios de GPU de propósito general.

Comparación de Arquitectura Técnica

De Extremo a Extremo vs. NMS Tradicional

La diferencia operativa más significativa radica en cómo se finalizan las predicciones.

YOLO26 utiliza un diseño nativamente end-to-end sin NMS. Al generar las predicciones finales directamente desde la red, elimina la necesidad de Non-Maximum Suppression (NMS). Esta eliminación del postprocesamiento reduce la variabilidad de la latencia y simplifica las cadenas de despliegue, especialmente en hardware de edge como Raspberry Pi o dispositivos móviles donde las operaciones de NMS pueden ser un cuello de botella. Este enfoque fue pionero con éxito en YOLOv10 y refinado aquí.

DAMO-YOLO se basa en un cabezal de predicción densa más tradicional (ZeroHead) que requiere NMS para filtrar las cajas superpuestas. Aunque efectivo, esto añade un paso computacional durante la inferencia que escala con el número de objetos detectados, lo que podría introducir fluctuaciones de latencia en escenas concurridas.

Innovación en el Entrenamiento: MuSGD vs. NAS

YOLO26 introduce el Optimizador MuSGD, un híbrido de SGD y Muon. Inspirado en los avances de entrenamiento de LLM como Kimi K2 de Moonshot AI, este optimizador proporciona dinámicas de entrenamiento más estables y una convergencia más rápida, permitiendo a los usuarios alcanzar un rendimiento óptimo con menos épocas.

DAMO-YOLO aprovecha la Búsqueda de Arquitectura Neuronal (NAS) a través de su método MAE-NAS para descubrir automáticamente estructuras de backbone eficientes. También emplea el Efficient RepGFPN, un cuello de re-parametrización intensiva que fusiona características a múltiples escalas. Aunque potentes, estas arquitecturas derivadas de NAS a veces pueden ser menos intuitivas de modificar o ajustar en comparación con los bloques optimizados y diseñados manualmente en los modelos de Ultralytics.

Funciones de Pérdida

YOLO26 elimina Distribution Focal Loss (DFL) para optimizar la exportabilidad a formatos como CoreML y TensorRT. En su lugar, utiliza ProgLoss y Small-Target-Aware Label Assignment (STAL), que aumentan significativamente el rendimiento en objetos pequeños, un punto débil común en sectores como la fotografía aérea y el análisis médico.

DAMO-YOLO utiliza AlignedOTA, una estrategia de asignación de etiquetas que resuelve el desalineamiento entre las tareas de clasificación y regresión. Se centra en asegurar que los anchors de alta calidad se asignen a las ground truths más relevantes durante el entrenamiento.

Optimización de Edge en YOLO26

Al eliminar DFL y NMS, YOLO26 logra una inferencia en CPU hasta un 43% más rápida en comparación con las generaciones anteriores. Esto lo hace excepcionalmente adecuado para aplicaciones de "Edge AI" donde los recursos de GPU no están disponibles, como la gestión inteligente de estacionamientos en dispositivos.

Métricas de rendimiento

La siguiente tabla destaca las diferencias de rendimiento. YOLO26 demuestra una eficiencia superior, particularmente en el recuento de parámetros y FLOPs, mientras mantiene una precisión competitiva o superior.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Puntos clave

  1. Eficiencia: YOLO26n (Nano) es aproximadamente 3.5 veces más pequeño en parámetros y 3.3 veces menor en FLOPs que DAMO-YOLOt, mientras logra una precisión comparable. Esta drástica reducción en el peso computacional hace que YOLO26 sea significativamente mejor para el despliegue móvil y de IoT.
  2. Escalado de Precisión: A medida que los modelos escalan, YOLO26m supera a DAMO-YOLOm en casi 4.0 mAP utilizando menos parámetros (20.4M frente a 28.2M).
  3. Velocidad: YOLO26 ofrece consistentemente tiempos de inferencia más rápidos en GPU T4 en todas las escalas, lo cual es crucial para aplicaciones de alto rendimiento como el análisis de video.

Usabilidad y Ecosistema

Simplicidad y Documentación

Una de las características distintivas de los modelos Ultralytics es la facilidad de uso. YOLO26 está integrado en el paquete ultralytics python, permitiendo a los usuarios entrenar, validar y desplegar modelos con solo unas pocas líneas de código.

from ultralytics import YOLO

# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100)

En contraste, DAMO-YOLO es un repositorio orientado a la investigación. Aunque proporciona scripts para entrenamiento e inferencia, carece de la API unificada, las guías extensas y el amplio soporte de sistemas operativos (Windows, Linux, macOS) que ofrece el ecosistema de Ultralytics.

Despliegue y Exportación

YOLO26 soporta la exportación con un solo clic a más de 10 formatos, incluyendo ONNX, OpenVINO, CoreML y TFLite. Esta flexibilidad es vital para los ingenieros que pasan de la investigación a la producción. La eliminación de módulos complejos como DFL asegura que estas exportaciones sean robustas y compatibles con una gama más amplia de aceleradores de hardware.

DAMO-YOLO se basa en pasos de re-parametrización específicos que deben manejarse con cuidado durante la exportación. Si no se "cambia" correctamente del modo de entrenamiento al modo de despliegue, el rendimiento del modelo puede degradarse o fallar, añadiendo una capa de complejidad para el usuario.

Casos de uso en el mundo real

Escenarios Ideales para YOLO26

  • Dispositivos Edge e IoT: Debido a su huella de memoria mínima (a partir de 2.4M parámetros), YOLO26 es perfecto para cámaras de seguridad y drones donde la energía y la RAM son limitadas.
  • Análisis Deportivo en Tiempo Real: El diseño sin NMS garantiza una latencia consistente, lo cual es crítico para track objetos en rápido movimiento en aplicaciones deportivas.
  • Sistemas Multitarea: Dado que YOLO26 soporta segment, pose y obb de forma nativa, es la opción preferida para pipelines complejos como la manipulación robótica que requieren orientación y puntos de agarre.

Escenarios Ideales para DAMO-YOLO

  • Investigación Académica: Su uso de NAS y técnicas avanzadas de destilación lo convierte en un candidato sólido para investigadores que estudian metodologías de búsqueda de arquitecturas.
  • Servidores GPU de Alta Gama: En escenarios donde las restricciones de hardware son inexistentes y cada fracción de precisión importa en benchmarks específicos, el backbone pesado de DAMO-YOLO puede ser aprovechado eficazmente.

Conclusión

Mientras que DAMO-YOLO introdujo conceptos impresionantes en la búsqueda de arquitecturas y la reparametrización en 2022, YOLO26 representa el estado del arte para 2026. Al centrarse en la simplicidad de extremo a extremo, eliminando cuellos de botella como NMS y DFL, y reduciendo drásticamente el número de parámetros, YOLO26 ofrece una solución más práctica, rápida y fácil de usar para los desarrolladores de IA modernos.

Para los usuarios que buscan desplegar soluciones robustas de visión por computadora hoy en día, la integración perfecta con la Plataforma Ultralytics y la enorme eficiencia de rendimiento por vatio hacen de YOLO26 la recomendación clara.

Lecturas adicionales

Para aquellos interesados en otros enfoques arquitectónicos, explore estos modelos relacionados en la documentación:

  • YOLO11 - El estándar de la generación anterior para versatilidad y precisión.
  • RT-DETR - Un detector en tiempo real basado en transformadores que también ofrece inferencia sin NMS.
  • YOLOv10 - El pionero del enfoque de entrenamiento sin NMS de extremo a extremo utilizado en YOLO26.

Comentarios