Ir al contenido

DAMO-YOLO vs YOLOv10: Evolución de la Detección de Objetos Eficiente en Tiempo Real

El campo de la visión artificial ha sido testigo de una rápida evolución en las arquitecturas de detección de objetos en tiempo real. Al comparar DAMO-YOLO y YOLOv10, observamos dos filosofías distintas en el diseño de modelos: búsqueda automática de arquitectura versus optimización de extremo a extremo sin NMS. Aunque ambos superan los límites de la precisión y la velocidad, sus estructuras subyacentes y casos de uso ideales difieren significativamente.

DAMO-YOLO: Búsqueda de Arquitectura Neuronal a Escala

Desarrollado por el Alibaba Group, DAMO-YOLO surgió como un potente detect centrado en aprovechar el descubrimiento automatizado para la eficiencia estructural.

Aspectos Arquitectónicos Destacados

DAMO-YOLO se basa en gran medida en la Búsqueda de Arquitectura Neuronal (NAS) para equilibrar el rendimiento y la latencia. Su backbone, denominado MAE-NAS, utiliza una búsqueda evolutiva multi-objetivo bajo estrictos presupuestos computacionales para encontrar la profundidad y anchura de capa óptimas.

Para gestionar la fusión de características a través de escalas, el modelo emplea una eficiente RepGFPN (Red Piramidal de Características Generalizada Reparametrizada). Este diseño de "cuello pesado" es particularmente hábil en la extracción de jerarquías espaciales complejas, lo que lo hace útil en escenarios como el análisis de imágenes aéreas. Además, DAMO-YOLO introduce el ZeroHead, un cabezal de detección optimizado que reduce en gran medida la complejidad de las capas de predicción finales, basándose en un robusto proceso de mejora por destilación durante el entrenamiento.

Entrenamiento por Destilación

DAMO-YOLO a menudo utiliza un proceso de destilación de conocimiento multi-etapa. Requiere entrenar un modelo "maestro" más pesado para guiar al modelo "estudiante" más pequeño, lo que extrae un mAP (precisión media promedio) más alto, pero aumenta significativamente el tiempo de cómputo de GPU requerido.

Más información sobre DAMO-YOLO

YOLOv10: Pionero en la Detección de Objetos de Extremo a Extremo

Lanzado un año y medio después, YOLOv10 introdujo un cambio de paradigma al eliminar por completo la necesidad de la Supresión No Máxima (NMS) durante la inferencia.

Aspectos Arquitectónicos Destacados

La característica destacada de YOLOv10 son sus asignaciones duales consistentes para un entrenamiento sin NMS. Los detectores tradicionales predicen múltiples cuadros delimitadores superpuestos para un solo objeto, lo que requiere NMS para filtrar duplicados. Este paso de postprocesamiento crea un cuello de botella, especialmente en dispositivos de borde. YOLOv10 resuelve esto permitiendo que el modelo prediga de forma natural un único cuadro delimitador preciso por objeto.

Los autores también se centraron en un diseño de modelo holístico impulsado por la eficiencia y la precisión. Al analizar cuidadosamente la redundancia computacional en las arquitecturas existentes, optimizaron el backbone y el cabezal para reducir el número de FLOPs y parámetros. Este diseño ligero garantiza que YOLOv10 ofrezca una latencia de inferencia excepcional cuando se exporta a formatos como TensorRT u OpenVINO.

Más información sobre YOLOv10

Rendimiento y benchmarks

La tabla a continuación ilustra las métricas de rendimiento bruto en el conjunto de datos COCO. Los mejores valores generales en cada columna se resaltan en negrita.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Aunque DAMO-YOLO se mantiene firme en términos de precisión, YOLOv10 proporciona consistentemente una menor latencia y pesos de modelo significativamente más pequeños. Por ejemplo, YOLOv10s logra un mAP ligeramente superior (46.7%) que DAMO-YOLOs (46.0%) utilizando menos de la mitad de los parámetros (7.2M vs 16.3M). Los menores requisitos de memoria hacen de YOLOv10 una opción excepcionalmente versátil para sistemas embebidos.

Eficiencia y usabilidad del entrenamiento

Al pasar de la investigación académica a la producción, la facilidad de uso es primordial. El proceso de destilación multi-etapa de DAMO-YOLO y las complejas configuraciones NAS pueden suponer curvas de aprendizaje pronunciadas para los equipos de ingeniería.

Por el contrario, YOLOv10 se beneficia enormemente de estar completamente integrado en el SDK de python de Ultralytics. Entrenar un modelo personalizado implica un código repetitivo mínimo. Ultralytics gestiona automáticamente la aumentación de datos, la optimización de hiperparámetros y el seguimiento de experimentos.

from ultralytics import YOLO

# Load a pretrained YOLOv10 nano model
model = YOLO("yolov10n.pt")

# Train on a custom dataset with built-in validation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image seamlessly
prediction = model("path/to/image.jpg")
prediction[0].show()

Prototipado rápido

El uso del ecosistema de Ultralytics permite a los desarrolladores pasar de un prototipo a un modelo ONNX exportado completamente en solo unas pocas líneas de código, evitando las complejas configuraciones de entorno requeridas por los frameworks más antiguos.

Casos de uso en el mundo real

  • Comercio Minorista Inteligente (DAMO-YOLO): La precisión de DAMO-YOLO es muy adecuada para entornos de servidores de alta densidad que analizan el comportamiento del cliente, donde las GPU son abundantes y los cuellos de botella de NMS en tiempo real son manejables.
  • Vehículos Autónomos (YOLOv10): La arquitectura sin NMS garantiza una latencia determinista y predecible, lo cual es crítico para los sistemas de seguridad en la conducción autónoma.
  • Automatización Industrial (YOLOv10): La detección de defectos en líneas de montaje de alta velocidad requiere modelos que maximicen las velocidades de inferencia en tiempo real sin consumir una gran cantidad de VRAM, lo que convierte a YOLOv10 en un candidato ideal para el despliegue en el borde.

Casos de Uso y Recomendaciones

La elección entre DAMO-YOLO y YOLOv10 depende de los requisitos específicos de su proyecto, las restricciones de despliegue y las preferencias del ecosistema.

Cuándo elegir DAMO-YOLO

DAMO-YOLO es una opción sólida para:

  • Análisis de Video de Alto Rendimiento: Procesamiento de flujos de video de alto FPS en infraestructura fija de GPUs NVIDIA donde el rendimiento de lote-1 es la métrica principal.
  • Líneas de Fabricación Industrial: Escenarios con estrictas restricciones de latencia de GPU en hardware dedicado, como la inspección de calidad en tiempo real en líneas de montaje.
  • Investigación en Búsqueda de Arquitectura Neuronal: Estudiando los efectos de la búsqueda de arquitectura automatizada (MAE-NAS) y de los backbones reparametrizados eficientes en el rendimiento de detect.

Cuándo elegir YOLOv10

YOLOv10 se recomienda para:

  • Detección en tiempo real sin NMS: Aplicaciones que se benefician de la detección de extremo a extremo sin supresión no máxima, reduciendo la complejidad de la implementación.
  • Compromisos Equilibrados Velocidad-Precisión: Proyectos que requieren un equilibrio sólido entre la velocidad de inferencia y la precisión de detección en diversas escalas de modelos.
  • Aplicaciones de Latencia Consistente: Escenarios de despliegue donde los tiempos de inferencia predecibles son críticos, como en robótica o sistemas autónomos.

Cuándo elegir Ultralytics (YOLO26)

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia para el desarrollador:

  • Implementación en el borde sin NMS: Aplicaciones que requieren inferencia consistente y de baja latencia sin la complejidad del postprocesamiento de supresión no máxima.
  • Entornos solo con CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia hasta un 43% más rápida de YOLO26 en CPU proporciona una ventaja decisiva.
  • Detección de Objetos Pequeños: Escenarios desafiantes como imágenes aéreas de drones o análisis de sensores IoT, donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.

La Siguiente Generación: Llega Ultralytics YOLO26

Aunque YOLOv10 sentó las bases para la detección NMS-free, la tecnología ha evolucionado rápidamente. Para aplicaciones modernas, el modelo Ultralytics YOLO26 ofrece un rendimiento y una usabilidad inigualables, tomando lo mejor de las generaciones anteriores y refinándolas para la producción.

YOLO26 presenta un diseño estrictamente nativo de extremo a extremo, eliminando el posprocesamiento NMS para pipelines de despliegue más sencillos en dispositivos de borde. Además, la eliminación de la Distribution Focal Loss (DFL) ha mejorado drásticamente la compatibilidad con hardware de IA de borde de baja potencia.

En cuanto al entrenamiento, YOLO26 introduce el Optimizador MuSGD, un híbrido inspirado en técnicas de entrenamiento de Modelos de Lenguaje Grandes (LLM). Esto garantiza un entrenamiento más estable y una convergencia más rápida. Junto con las funciones de pérdida ProgLoss + STAL, YOLO26 muestra mejoras notables en el reconocimiento de objetos pequeños, una característica crítica para la conservación de la vida silvestre y las operaciones con drones.

Fundamentalmente, YOLO26 no es solo un detector de objetos. Ofrece mejoras específicas para cada tarea en todos los ámbitos, soportando de forma nativa la Segmentación de Instancias, la Estimación de Pose utilizando la Estimación de Máxima Verosimilitud Logarítmica Residual (RLE), y pérdidas angulares especializadas para Oriented Bounding Boxes (OBB). Con una inferencia en CPU hasta un 43% más rápida que sus predecesores, es la elección definitiva para equipos de ingeniería ágiles.

Para la gestión centralizada, anotación y entrenamiento en la nube de modelos YOLO26, la Plataforma Ultralytics proporciona una interfaz intuitiva que agiliza todo el ciclo de vida de la visión por computadora.

Los desarrolladores interesados en explorar otros avances recientes también pueden evaluar Ultralytics YOLO11 o el framework basado en transformadores RT-DETR para escenarios que requieren soluciones arquitectónicas distintas.


Comentarios