Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO frente a YOLOv10#

El campo de la visión artificial ha experimentado una rápida evolución en las arquitecturas de detección de objetos en tiempo real. Al comparar DAMO-YOLO y YOLOv10, observamos dos filosofías distintas en el diseño de modelos: la búsqueda de arquitectura automatizada frente a la optimización integral sin NMS. Aunque ambos superan los límites de precisión y velocidad, sus estructuras subyacentes y casos de uso ideales difieren significativamente.

Link to this sectionDAMO-YOLO: Búsqueda de arquitectura neuronal a escala#

Desarrollado por Alibaba Group, DAMO-YOLO surgió como un potente detector centrado en aprovechar el descubrimiento automatizado para lograr la eficiencia estructural.

  • Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
  • Fecha: 23 de noviembre de 2022
  • Arxiv: 2211.15444v2
  • GitHub: tinyvision/DAMO-YOLO

Link to this sectionAspectos destacados de la arquitectura#

DAMO-YOLO depende en gran medida de la búsqueda de arquitectura neuronal (NAS, por sus siglas en inglés) para equilibrar el rendimiento y la latencia. Su backbone, denominado MAE-NAS, utiliza una búsqueda evolutiva multiobjetivo bajo estrictos presupuestos computacionales para encontrar la profundidad y anchura de capa óptimas.

Para gestionar la fusión de características a través de escalas, el modelo emplea una eficiente RepGFPN (Red de Pirámide de Características Generalizada Reparametrizada). Este diseño de cuello pesado es particularmente apto para extraer jerarquías espaciales complejas, lo que lo hace útil en escenarios como el análisis de imágenes aéreas. Además, DAMO-YOLO introduce el ZeroHead, un cabezal de detección optimizado que reduce considerablemente la complejidad de las capas de predicción final, basándose en un sólido proceso de mejora por destilación durante el entrenamiento.

Entrenamiento por destilación

DAMO-YOLO suele utilizar un proceso de destilación de conocimiento de varias etapas. Requiere entrenar un modelo "profesor" más pesado para guiar al modelo "alumno" más pequeño, el cual extrae un mAP (precisión media media) más alto, pero aumenta significativamente el tiempo de cómputo de GPU requerido.

Más información sobre DAMO-YOLO

Link to this sectionYOLOv10: Pioneros en detección de objetos de extremo a extremo#

Lanzado un año y medio después, YOLOv10 introdujo un cambio de paradigma al eliminar por completo la necesidad de supresión de no máximos (NMS) durante la inferencia.

Link to this sectionAspectos destacados de la arquitectura#

La característica destacada de YOLOv10 son sus asignaciones duales consistentes para el entrenamiento sin NMS. Los detectores tradicionales predicen múltiples cuadros delimitadores superpuestos para un solo objeto, lo que requiere NMS para filtrar duplicados. Este paso de posprocesamiento crea un cuello de botella, especialmente en dispositivos de borde (edge). YOLOv10 resuelve esto permitiendo que el modelo prediga de forma natural un único cuadro delimitador preciso por objeto.

Los autores también se centraron en un diseño de modelo holístico impulsado por la eficiencia y la precisión. Al analizar cuidadosamente la redundancia computacional en las arquitecturas existentes, optimizaron el backbone y el cabezal para reducir el número de FLOPs y parámetros. Este diseño ligero garantiza que YOLOv10 ofrezca una latencia de inferencia excepcional cuando se exporta a formatos como TensorRT o OpenVINO.

Aprende más sobre YOLOv10

Link to this sectionRendimiento y benchmarks#

La siguiente tabla ilustra las métricas de rendimiento en bruto en el conjunto de datos COCO. Los mejores valores generales en cada columna están resaltados en negrita.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Aunque DAMO-YOLO se mantiene bien en términos de precisión, YOLOv10 proporciona consistentemente una menor latencia y pesos de modelo significativamente más pequeños. Por ejemplo, YOLOv10s logra un mAP ligeramente mayor (46,7%) que DAMO-YOLOs (46,0%) mientras utiliza menos de la mitad de los parámetros (7,2M frente a 16,3M). Los menores requisitos de memoria hacen de YOLOv10 una opción excepcionalmente versátil para sistemas integrados.

Link to this sectionEficiencia de entrenamiento y usabilidad#

Al realizar la transición de la investigación académica a la producción, la facilidad de uso es primordial. El proceso de destilación de varias etapas de DAMO-YOLO y las complejas configuraciones de NAS pueden plantear curvas de aprendizaje pronunciadas para los equipos de ingeniería.

Conversely, YOLOv10 benefits immensely from being fully integrated into the Ultralytics Python SDK. Training a custom model involves minimal boilerplate code. Ultralytics handles data augmentation, hyperparameter tuning, and experiment tracking automatically.

from ultralytics import YOLO

# Load a pretrained YOLOv10 nano model
model = YOLO("yolov10n.pt")

# Train on a custom dataset with built-in validation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image seamlessly
prediction = model("path/to/image.jpg")
prediction[0].show()
Prototipado rápido

Utilizar el ecosistema Ultralytics permite a los desarrolladores pasar de un prototipo a un modelo ONNX exportado en solo unas pocas líneas de código, evitando las complejas configuraciones de entorno requeridas por marcos de trabajo más antiguos.

Link to this sectionCasos de uso en el mundo real#

  • Venta minorista inteligente (DAMO-YOLO): La precisión de DAMO-YOLO es muy adecuada para entornos de servidor de alta densidad que analizan el comportamiento del cliente, donde abundan las GPU y los cuellos de botella de NMS en tiempo real son manejables.
  • Vehículos autónomos (YOLOv10): La arquitectura sin NMS garantiza una latencia determinista y predecible, lo cual es fundamental para los sistemas de seguridad en la conducción autónoma.
  • Industrial Automation (YOLOv10): Detecting defects on fast-moving assembly lines requires models that maximize real-time inference speeds without consuming vast VRAM, making YOLOv10 a prime candidate for edge deployment.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre DAMO-YOLO y YOLOv10 depende de los requisitos específicos de tu proyecto, las limitaciones de implementación y las preferencias de ecosistema.

Link to this sectionCuándo elegir DAMO-YOLO#

DAMO-YOLO es una buena opción para:

  • Analítica de vídeo de alto rendimiento: Procesamiento de flujos de vídeo de altos FPS en infraestructura de GPU NVIDIA fija, donde el rendimiento por lote (batch-1) es la métrica principal.
  • Líneas de fabricación industrial: Escenarios con restricciones estrictas de latencia de GPU en hardware dedicado, como la inspección de calidad en tiempo real en líneas de montaje.
  • Investigación en búsqueda de arquitectura neuronal: Estudio de los efectos de la búsqueda automatizada de arquitectura (MAE-NAS) y backbones reparametrizados eficientes en el rendimiento de detección.

Link to this sectionCuándo elegir YOLOv10#

YOLOv10 está recomendado para:

  • Detección en tiempo real sin NMS: Aplicaciones que se benefician de una detección integral (end-to-end) sin NMS, lo que reduce la complejidad de la implementación.
  • Equilibrio entre velocidad y precisión: Proyectos que requieren un buen equilibrio entre la velocidad de inferencia y la precisión de detección en varias escalas de modelo.
  • Aplicaciones de latencia constante: Escenarios de despliegue donde los tiempos de inferencia predecibles son críticos, como en robótica o sistemas autónomos.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionLa próxima generación: Llega Ultralytics YOLO26#

Aunque YOLOv10 sentó las bases para la detección sin NMS, la tecnología ha evolucionado rápidamente. Para las aplicaciones modernas, el modelo Ultralytics YOLO26 ofrece un rendimiento y una facilidad de uso inigualables, tomando lo mejor de las generaciones anteriores y perfeccionándolo para la producción.

YOLO26 features a strictly natively end-to-end design, eliminating NMS post-processing for simpler deployment pipelines across edge devices. Furthermore, the removal of Distribution Focal Loss (DFL) has dramatically improved compatibility with low-power edge AI hardware.

On the training side, YOLO26 introduces the MuSGD Optimizer, a hybrid inspired by Large Language Model (LLM) training techniques. This ensures more stable training and faster convergence. Coupled with the ProgLoss + STAL loss functions, YOLO26 exhibits remarkable improvements in small-object recognition, a critical feature for wildlife conservation and drone operations.

Crucialmente, YOLO26 no es solo un detector de objetos. Ofrece mejoras específicas para cada tarea en todos los ámbitos, soportando de forma nativa la segmentación de instancias, la estimación de pose mediante la estimación de log-verosimilitud residual (RLE) y pérdidas de ángulo especializadas para cuadros delimitadores orientados (OBB). Con hasta un 43% más de rapidez en la inferencia por CPU que sus predecesores, es la elección definitiva para equipos de ingeniería ágiles.

Para la gestión centralizada, anotación y entrenamiento en la nube de los modelos YOLO26, la plataforma Ultralytics proporciona una interfaz intuitiva que agiliza todo el ciclo de vida de la visión artificial.

Los desarrolladores interesados en explorar otros avances recientes también pueden evaluar Ultralytics YOLO11 o el marco de trabajo RT-DETR basado en Transformer para escenarios que requieran soluciones arquitectónicas distintas.

Comentarios