YOLOv10 frente a DAMO-YOLO: una comparativa técnica de detectores de objetos en tiempo real

Al crear pipelines modernos de visión artificial, seleccionar la arquitectura de detección de objetos en tiempo real adecuada es fundamental. En este exhaustivo análisis técnico, exploramos las arquitecturas, las métricas de rendimiento y los casos de uso ideales para YOLOv10 y DAMO-YOLO. Ambos modelos representan saltos significativos en las capacidades de detección de objetos, pero siguen caminos arquitectónicos diferentes para lograr sus objetivos.

Ya sea que tu proyecto requiera el despliegue en hardware de IA en el borde con restricciones o exija la máxima precisión en GPUs en la nube, entender los matices de estas arquitecturas te ayudará a tomar una decisión informada.

Explorando YOLOv10

Presentado por investigadores de la Universidad de Tsinghua, YOLOv10 revolucionó la familia YOLO al introducir un enfoque nativamente de extremo a extremo, eliminando efectivamente la necesidad de la supresión de no máximos (NMS) durante el posprocesamiento.

Detalles de YOLOv10:

Características arquitectónicas clave

La innovación principal de YOLOv10 es su estrategia de Consistent Dual Assignments para el entrenamiento sin NMS. Los detectores de objetos tradicionales dependen en gran medida de la NMS para filtrar cajas delimitadoras superpuestas, lo que introduce una latencia impredecible, un cuello de botella significativo para aplicaciones en tiempo real como vehículos autónomos y robótica de alta velocidad. Al predecir una única caja delimitadora óptima por objeto directamente, YOLOv10 logra una inferencia predecible y de latencia ultra baja.

Además, el modelo emplea un diseño Holistic Efficiency-Accuracy Driven Design. La arquitectura optimiza varios componentes, incluyendo una cabeza de clasificación ligera y un submuestreo desacoplado espacio-canal, lo que reduce significativamente la redundancia computacional. Esto resulta en una arquitectura que cuenta con un menor número de parámetros y menos FLOPs mientras mantiene una precisión media (mAP) competitiva.

Exportación simplificada para producción

Dado que YOLOv10 elimina las operaciones de NMS del grafo de inferencia, exportar el modelo a formatos como ONNX o TensorRT es altamente simplificado, lo que lo hace excepcionalmente adecuado para despliegues en el borde.

Más información sobre YOLOv10

Ejemplo de uso

YOLOv10 está profundamente integrado en el ecosistema de Ultralytics, lo que hace que sea increíblemente fácil de usar a través del paquete de Python de Ultralytics.

from ultralytics import YOLO

# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")

# Export the model to TensorRT format
model.export(format="engine", half=True)

Explorando DAMO-YOLO

Desarrollado por Alibaba Group, DAMO-YOLO se centra en descubrir estructuras de red altamente eficientes a través de la búsqueda de arquitectura neuronal automatizada (NAS), con el objetivo de empujar la frontera de Pareto de velocidad y precisión.

Detalles de DAMO-YOLO:

Características arquitectónicas clave

DAMO-YOLO introduce varias tecnologías novedosas adaptadas para aplicaciones industriales. La base del modelo es su columna vertebral MAE-NAS Backbone, generada mediante una búsqueda evolutiva multiobjetivo. Este proceso automatizado descubre estructuras de columna vertebral que se adhieren estrictamente a presupuestos computacionales predefinidos, logrando un fino equilibrio entre precisión y latencia de inferencia.

Además, la arquitectura utiliza un cuello Efficient RepGFPN. Esta red de pirámide de características está diseñada para mejorar la fusión de características a través de diferentes escalas, lo cual es crítico para tareas complejas como el análisis de imágenes aéreas donde los objetos varían drásticamente en tamaño. Para complementar esto, DAMO-YOLO implementa una ZeroHead, una cabeza de detección minimalista que reduce drásticamente la complejidad de las capas de predicción finales, ahorrando un valioso tiempo de cómputo durante la inferencia.

Más información sobre DAMO-YOLO

Comparación de rendimiento

Al evaluar arquitecturas de detección de objetos, encontrar el equilibrio adecuado entre velocidad de inferencia, eficiencia de parámetros y precisión de detección es primordial. La siguiente tabla compara el rendimiento de YOLOv10 y DAMO-YOLO a través de sus respectivos tamaños de modelo.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Como se observa en los benchmarks, YOLOv10 ofrece consistentemente perfiles de latencia excepcionales en TensorRT, particularmente en su variante nano, requiriendo significativamente menos parámetros y FLOPs que los modelos comparables de DAMO-YOLO. Aunque DAMO-YOLO ofrece una mAP sólida en su variante tiny, la eficiencia de parámetros y la latencia de inferencia de la familia YOLOv10 proporcionan una ventaja distintiva para entornos de despliegue restringidos.

Casos de uso y recomendaciones

Elegir entre YOLOv10 y DAMO-YOLO depende de tus requisitos específicos de proyecto, restricciones de despliegue y preferencias de ecosistema.

Cuándo elegir YOLOv10

YOLOv10 es una opción sólida para:

  • Detección en tiempo real sin NMS: Aplicaciones que se benefician de la detección de extremo a extremo sin supresión de no máximos, reduciendo la complejidad del despliegue.
  • Compensaciones equilibradas entre velocidad y precisión: Proyectos que requieren un sólido equilibrio entre la velocidad de inferencia y la precisión de detección a través de varias escalas de modelo.
  • Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.

Cuándo elegir DAMO-YOLO

DAMO-YOLO se recomienda para:

  • Análisis de video de alto rendimiento: Procesamiento de flujos de video de alta tasa de cuadros (FPS) en infraestructura de GPU NVIDIA fija, donde el rendimiento de procesamiento batch-1 es la métrica principal.
  • Líneas de fabricación industrial: Escenarios con estrictas restricciones de latencia de GPU en hardware dedicado, como la inspección de calidad en tiempo real en líneas de ensamblaje.
  • Investigación en Búsqueda de Arquitectura Neuronal: Estudiar los efectos de la búsqueda de arquitectura automatizada (MAE-NAS) y los backbones reparametrizados eficientes en el rendimiento de detección.

Cuándo elegir Ultralytics (YOLO26)

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia para el desarrollador:

  • Despliegue en borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de la supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.

La ventaja de Ultralytics

Aunque ambos modelos son técnicamente impresionantes, elegir una arquitectura para producción implica mirar más allá de las métricas brutas. Construir con modelos respaldados nativamente por el ecosistema de Ultralytics proporciona ventajas inigualables tanto para desarrolladores como para investigadores.

Facilidad de uso y ecosistema bien mantenido

A diferencia de los repositorios académicos independientes que a menudo enfrentan el abandono, Ultralytics ofrece un ecosistema robusto y activamente mantenido. Configurar entornos complejos para modelos que dependen en gran medida de pipelines NAS puede ser desalentador. Por el contrario, Ultralytics proporciona una API de Python estandarizada e intuitiva y una potente CLI, respaldadas por una extensa documentación. Esto reduce radicalmente el tiempo de comercialización para soluciones de visión personalizadas.

Eficiencia de entrenamiento y requisitos de memoria

Entrenar modelos grandes puede volverse rápidamente costoso desde el punto de vista computacional. Las arquitecturas YOLO de Ultralytics son históricamente conocidas por su baja huella de memoria CUDA durante el entrenamiento y la inferencia. Esta eficiencia permite a los desarrolladores entrenar modelos en hardware de consumo o instancias en la nube rentables sin encontrarse con errores de falta de memoria que son comunes al trabajar con modelos basados en Transformer como RT-DETR.

Seguimiento de experimentos

Ultralytics se integra de forma nativa con las mejores herramientas de MLOps. Puedes realizar un seguimiento sencillo del progreso de entrenamiento de tu modelo utilizando integraciones con Weights & Biases, Comet o ClearML sin necesidad de código adicional.

Versatilidad entre tareas

Una limitación significativa de muchos modelos de detección especializados es su enfoque estrecho. Dentro del ecosistema de Ultralytics, no estás limitado solo a la detección de objetos. Las herramientas se extienden sin problemas a múltiples tareas de visión artificial, incluyendo segmentación de instancias, clasificación de imágenes, estimación de pose y detección de caja delimitadora orientada (OBB).

Mirando hacia el futuro: la evolución de YOLO26

Aunque YOLOv10 fue pionero en la inferencia sin NMS y DAMO-YOLO mostró el poder de NAS, el campo de la visión artificial avanza rápidamente. Para los desarrolladores que buscan la solución definitiva de vanguardia, recomendamos echar un vistazo a Ultralytics YOLO26.

Lanzado como el sucesor definitivo de YOLO11, YOLO26 se basa en los cimientos sin NMS establecidos por YOLOv10 pero los lleva significativamente más lejos.

Los avances clave en YOLO26 incluyen:

  • Inferencia de CPU hasta un 43% más rápida: optimizada específicamente para computación en el borde y dispositivos de bajo consumo.
  • Eliminación de DFL: se ha eliminado la Distribution Focal Loss, garantizando exportaciones más simples y una compatibilidad mejorada con diversos objetivos de despliegue.
  • Optimizador MuSGD: un híbrido de SGD y Muon, que aporta una estabilidad avanzada en el entrenamiento de LLM y una convergencia más rápida directamente a la visión artificial.
  • ProgLoss + STAL: funciones de pérdida drásticamente mejoradas que ofrecen mejoras notables en el reconocimiento de objetos pequeños, algo esencial para casos de uso como la agricultura y la teledetección.

Al utilizar la recientemente renovada plataforma de Ultralytics, los desarrolladores pueden anotar, entrenar y desplegar modelos de próxima generación como YOLO26 en solo unos pocos clics, asegurando que tu pipeline de visión artificial sea tanto de vanguardia como preparado para el futuro.

Comentarios