Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv10 frente a DAMO-YOLO#

Al crear pipelines modernos de visión artificial, seleccionar la arquitectura de detección de objetos en tiempo real adecuada es fundamental. En este análisis técnico exhaustivo, exploramos las arquitecturas, las métricas de rendimiento y los casos de uso ideales para YOLOv10 y DAMO-YOLO. Ambos modelos representan saltos significativos en las capacidades de detección de objetos, pero siguen caminos arquitectónicos diferentes para lograr sus objetivos.

Tanto si tu proyecto requiere el despliegue en hardware de IA en el borde restringido como si exige la máxima precisión en GPUs en la nube, comprender los matices de estas arquitecturas te ayudará a tomar una decisión informada.

Link to this sectionExplorando YOLOv10#

Presentado por investigadores de la Universidad de Tsinghua, YOLOv10 revolucionó la familia YOLO al introducir un enfoque nativamente de extremo a extremo, eliminando efectivamente la necesidad de supresión de no máximos (NMS) durante el postprocesamiento.

Detalles de YOLOv10:

Link to this sectionCaracterísticas arquitectónicas clave#

La principal innovación de YOLOv10 es su estrategia de asignaciones duales consistentes para el entrenamiento sin NMS. Los detectores de objetos tradicionales dependen en gran medida de la NMS para filtrar cuadros delimitadores superpuestos, lo que introduce una latencia impredecible, un cuello de botella significativo para aplicaciones en tiempo real como vehículos autónomos y robótica de alta velocidad. Al predecir un solo cuadro delimitador óptimo por objeto directamente, YOLOv10 logra una inferencia predecible y de latencia ultra baja.

Además, el modelo emplea un diseño holístico impulsado por la eficiencia y la precisión. La arquitectura optimiza varios componentes, incluida una cabecera de clasificación ligera y el submuestreo desacoplado de canal espacial, lo que reduce significativamente la redundancia computacional. Esto da como resultado una arquitectura que cuenta con un menor recuento de parámetros y menos FLOPs, mientras mantiene una precisión media (mAP) competitiva.

Exportación simplificada para producción

Debido a que YOLOv10 elimina las operaciones de NMS del grafo de inferencia, la exportación del modelo a formatos como ONNX o TensorRT es altamente simplificada, lo que lo hace excepcionalmente adecuado para despliegues en el borde.

Aprende más sobre YOLOv10

Link to this sectionEjemplo de uso#

YOLOv10 está profundamente integrado en el ecosistema Ultralytics, lo que hace que sea increíblemente fácil de usar a través del paquete de Python de Ultralytics.

from ultralytics import YOLO

# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")

# Export the model to TensorRT format
model.export(format="engine", quantize=16)

Link to this sectionExplorando DAMO-YOLO#

Desarrollado por Alibaba Group, DAMO-YOLO se centra en descubrir estructuras de red altamente eficientes a través de la búsqueda de arquitectura neuronal (NAS) automatizada, con el objetivo de impulsar la frontera de Pareto de velocidad y precisión.

Detalles de DAMO-YOLO:

Link to this sectionCaracterísticas arquitectónicas clave#

DAMO-YOLO introduce varias tecnologías novedosas adaptadas a las aplicaciones industriales. La base del modelo es su backbone MAE-NAS, generado a través de una búsqueda evolutiva multiobjetivo. Este proceso automatizado descubre estructuras de backbone que se adhieren estrictamente a presupuestos computacionales predefinidos, logrando un fino equilibrio entre la precisión y la latencia de inferencia.

Además, la arquitectura utiliza un cuello Efficient RepGFPN. Esta red de pirámide de características está diseñada para mejorar la fusión de características a través de diferentes escalas, lo cual es crítico para tareas complejas como el análisis de imágenes aéreas donde los objetos varían drásticamente en tamaño. Para complementar esto, DAMO-YOLO implementa un ZeroHead, una cabecera de detección minimalista que reduce drásticamente la complejidad de las capas de predicción finales, ahorrando un valioso tiempo de computación durante la inferencia.

Más información sobre DAMO-YOLO

Link to this sectionComparación de rendimiento#

Al evaluar las arquitecturas de detección de objetos, encontrar el equilibrio adecuado entre la velocidad de inferencia, la eficiencia de los parámetros y la precisión de la detección es primordial. La siguiente tabla compara el rendimiento de YOLOv10 y DAMO-YOLO a través de sus respectivos tamaños de modelo.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Como se observa en los benchmarks, YOLOv10 ofrece consistentemente perfiles de latencia excepcionales en TensorRT, particularmente en su variante nano, requiriendo significativamente menos parámetros y FLOPs que los modelos comparables de DAMO-YOLO. Si bien DAMO-YOLO ofrece una buena mAP en su variante tiny, la eficiencia de los parámetros y la latencia de inferencia de la familia YOLOv10 proporcionan una ventaja distinta para entornos de despliegue restringidos.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre YOLOv10 y DAMO-YOLO depende de los requisitos específicos de tu proyecto, las restricciones de despliegue y las preferencias del ecosistema.

Link to this sectionCuándo elegir YOLOv10#

YOLOv10 es una opción sólida para:

  • Detección en tiempo real sin NMS: Aplicaciones que se benefician de una detección integral (end-to-end) sin NMS, lo que reduce la complejidad de la implementación.
  • Equilibrio entre velocidad y precisión: Proyectos que requieren un buen equilibrio entre la velocidad de inferencia y la precisión de detección en varias escalas de modelo.
  • Aplicaciones de latencia constante: Escenarios de despliegue donde los tiempos de inferencia predecibles son críticos, como en robótica o sistemas autónomos.

Link to this sectionCuándo elegir DAMO-YOLO#

DAMO-YOLO se recomienda para:

  • Analítica de vídeo de alto rendimiento: Procesamiento de flujos de vídeo de altos FPS en infraestructura de GPU NVIDIA fija, donde el rendimiento por lote (batch-1) es la métrica principal.
  • Líneas de fabricación industrial: Escenarios con restricciones estrictas de latencia de GPU en hardware dedicado, como la inspección de calidad en tiempo real en líneas de montaje.
  • Investigación en búsqueda de arquitectura neuronal: Estudio de los efectos de la búsqueda automatizada de arquitectura (MAE-NAS) y backbones reparametrizados eficientes en el rendimiento de detección.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionLa ventaja de Ultralytics#

Aunque ambos modelos son técnicamente impresionantes, elegir una arquitectura para producción implica mirar más allá de las métricas brutas. Construir con modelos soportados nativamente por el ecosistema Ultralytics proporciona ventajas inigualables tanto para desarrolladores como para investigadores.

Link to this sectionFacilidad de uso y ecosistema bien mantenido#

A diferencia de los repositorios académicos independientes que a menudo se enfrentan al abandono, Ultralytics ofrece un ecosistema robusto y mantenido activamente. Configurar entornos complejos para modelos que dependen en gran medida de pipelines de NAS puede ser desalentador. Por el contrario, Ultralytics proporciona una API de Python estandarizada e intuitiva y una potente CLI, respaldada por una extensa documentación. Esto reduce radicalmente el tiempo de comercialización para soluciones de visión personalizadas.

Link to this sectionEficiencia de entrenamiento y requisitos de memoria#

Entrenar modelos grandes puede volverse rápidamente costoso desde el punto de vista computacional. Las arquitecturas YOLO de Ultralytics son históricamente conocidas por su baja huella de memoria CUDA durante el entrenamiento y la inferencia. Esta eficiencia permite a los desarrolladores entrenar modelos en hardware de nivel de consumo o instancias de nube rentables sin encontrarse con errores de falta de memoria, los cuales son comunes al trabajar con modelos basados en Transformer como RT-DETR.

Seguimiento de experimentos

Ultralytics se integra de forma nativa con las principales herramientas de MLOps. Puedes realizar fácilmente un seguimiento del progreso del entrenamiento de tu modelo utilizando integraciones con Weights & Biases, Comet o ClearML sin código repetitivo adicional.

Link to this sectionVersatilidad en todas las tareas#

Una limitación significativa de muchos modelos de detección especializados es su enfoque estrecho. Dentro del ecosistema Ultralytics, no estás limitado solo a la detección de objetos. Las herramientas se extienden perfectamente a múltiples tareas de visión artificial, incluyendo segmentación de instancias, clasificación de imágenes, estimación de pose y detección de cuadros delimitadores orientados (OBB).

Link to this sectionMirando hacia el futuro: La evolución de YOLO26#

Si bien YOLOv10 fue pionero en la inferencia sin NMS y DAMO-YOLO mostró el poder de la NAS, el campo de la visión artificial se mueve rápidamente. Para los desarrolladores que buscan la mejor solución de vanguardia, recomendamos echar un vistazo a Ultralytics YOLO26.

Lanzado como el sucesor definitivo de YOLO11, YOLO26 se basa en la base sin NMS establecida por YOLOv10, pero la lleva mucho más lejos.

Los avances clave en YOLO26 incluyen:

  • Hasta un 43% más rápido en inferencia de CPU: optimizado específicamente para la computación en el borde y dispositivos de baja potencia.
  • Eliminación de DFL: Se ha eliminado la Distribution Focal Loss, lo que garantiza exportaciones más simples y una mayor compatibilidad con diversos destinos de despliegue.
  • Optimizador MuSGD: Un híbrido de SGD y Muon, que aporta estabilidad avanzada de entrenamiento de LLM y una convergencia más rápida directamente a la visión artificial.
  • ProgLoss + STAL: Funciones de pérdida drásticamente mejoradas que ofrecen mejoras notables en el reconocimiento de objetos pequeños, lo cual es esencial para casos de uso como la agricultura y la teledetección.

Al utilizar la recién renovada Plataforma Ultralytics, los desarrolladores pueden anotar, entrenar y desplegar modelos de próxima generación como YOLO26 sin problemas en solo unos clics, asegurando que tu pipeline de visión artificial sea de vanguardia y esté preparado para el futuro.

Comentarios