Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO26 vs DAMO-YOLO: Una comparación técnica de detectores de objetos en tiempo real#

Al seleccionar un modelo de visión artificial de última generación, es fundamental encontrar el equilibrio óptimo entre velocidad de inferencia, precisión y facilidad de despliegue. Esta guía completa compara dos modelos destacados en el panorama de la IA de visión: Ultralytics YOLO26 y DAMO-YOLO. Si bien ambas arquitecturas superan los límites de la detección de objetos en tiempo real, sus filosofías de diseño subyacentes y casos de uso previstos difieren significativamente.

Link to this sectionInnovaciones arquitectónicas y diseño#

Link to this sectionUltralytics YOLO26: El estándar de visión diseñado para el borde#

Desarrollado por Glenn Jocher y Jing Qiu en Ultralytics y lanzado el 14 de enero de 2026, YOLO26 representa un salto enorme en el linaje YOLO. Está diseñado desde cero para la computación en el borde (edge computing), combinando a la perfección prácticas de entrenamiento de LLM de vanguardia con arquitecturas de visión avanzadas.

Los avances arquitectónicos clave de YOLO26 incluyen:

  • Diseño de extremo a extremo sin NMS: Basándose en el trabajo pionero de YOLOv10, YOLO26 es nativamente de extremo a extremo. Al eliminar por completo la supresión de no máximos (NMS) durante el posprocesamiento, garantiza una latencia determinista y simplifica enormemente los flujos de trabajo de despliegue.
  • Eliminación de DFL: La eliminación de Distribution Focal Loss agiliza el gráfico del modelo. Esto hace que la exportación a marcos de trabajo de despliegue como ONNX y TensorRT sea mucho más fluida y asegura una mejor compatibilidad con dispositivos de borde de baja potencia.
  • Optimizador MuSGD: Inspirado en Kimi K2 de Moonshot AI, este híbrido de descenso de gradiente estocástico (SGD) y Muon aporta innovaciones del entrenamiento de LLM a la visión artificial, lo que resulta en un entrenamiento notablemente estable y una convergencia rápida.
  • ProgLoss + STAL: Estas funciones de pérdida avanzadas ofrecen mejoras notables en el reconocimiento de objetos pequeños, una necesidad crítica para el análisis de imágenes aéreas mediante drones y flujos de trabajo de robótica complejos.

Más información sobre YOLO26

Link to this sectionDAMO-YOLO: Búsqueda de arquitectura neuronal a escala#

Desarrollado por Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun de Alibaba Group (lanzado el 23 de noviembre de 2022), DAMO-YOLO se centra intensamente en el descubrimiento automatizado de arquitecturas. La investigación, detallada en su artículo de arXiv, utiliza la Búsqueda de Arquitectura Neuronal (NAS) para encontrar backbones óptimos bajo estrictos presupuestos de latencia.

Las características arquitectónicas clave de DAMO-YOLO incluyen:

  • Backbone MAE-NAS: Emplea una búsqueda evolutiva multiobjetivo para diseñar automáticamente backbones que equilibren la precisión con la velocidad de despliegue objetivo.
  • Efficient RepGFPN: Un diseño robusto de cuello pesado (heavy-neck) que optimiza la fusión de características a través de diferentes escalas, haciéndolo altamente capaz de procesar escenas visuales complejas.
  • ZeroHead: Una cabecera de detección drásticamente simplificada, diseñada para minimizar la sobrecarga computacional en las capas de predicción final.

Más información sobre DAMO-YOLO

Elegir la arquitectura correcta

Aunque la arquitectura basada en NAS de DAMO-YOLO es excelente para restricciones de hardware específicas y predefinidas, el diseño sin NMS y la eliminación de DFL de YOLO26 lo convierten en una opción mucho más versátil y predecible en una amplia gama de entornos de borde y nube.

Link to this sectionComparación de rendimiento y métricas#

Una comparación directa de las variantes del modelo entrenadas en el conjunto de datos COCO estándar revela perfiles de rendimiento distintos. La tabla a continuación describe las compensaciones entre precisión (mAP), velocidad y huella computacional (parámetros y FLOPs).

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Link to this sectionAnálisis de rendimiento#

Al analizar los datos, el equilibrio de rendimiento se inclina fuertemente hacia YOLO26 para aplicaciones modernas. La variante Nano (YOLO26n) es excepcionalmente ligera, con solo 2.4M de parámetros, ofreciendo velocidades fulgurantes de 1.7 ms en una GPU NVIDIA T4. Además, YOLO26 está diseñado específicamente para ofrecer hasta un 43% más de rapidez en la inferencia por CPU, lo que lo convierte en el campeón indiscutible para dispositivos de borde que carecen de aceleradores de GPU dedicados.

Aunque DAMO-YOLOt supera ligeramente a YOLO26n en mAP puro, lo hace a costa de requerir casi cuatro veces la cantidad de parámetros (8.5M). A medida que avanzamos hacia variantes más grandes, YOLO26 supera consistentemente a DAMO-YOLO en precisión mientras mantiene una huella de memoria más pequeña, menor uso de memoria CUDA durante el entrenamiento y velocidades de TensorRT drásticamente más rápidas.

Link to this sectionEcosistema, usabilidad y eficiencia de entrenamiento#

La verdadera fuerza de un modelo de aprendizaje automático no radica solo en sus métricas brutas, sino en la facilidad con la que los desarrolladores e investigadores pueden utilizarlo.

Link to this sectionLa ventaja de Ultralytics#

Elegir un modelo de Ultralytics garantiza el acceso a un ecosistema altamente refinado y centrado en el desarrollador. Los flujos de trabajo complejos que involucran aumento de datos, ajuste de hiperparámetros y seguimiento robusto de experimentos se abstraen en comandos intuitivos.

Además, YOLO26 ofrece una versatilidad inigualable. Mientras que DAMO-YOLO es estrictamente un detector de objetos, YOLO26 proporciona mejoras integrales y específicas para cada tarea en múltiples dominios directamente:

Link to this sectionMetodologías de entrenamiento#

El entrenamiento de DAMO-YOLO a menudo implica un proceso de destilación complejo donde un modelo "profesor" grande entrena a un modelo "estudiante" más pequeño. Si bien esta técnica extrae ganancias marginales de precisión, exige una memoria de GPU extensa y ciclos de entrenamiento más largos.

Por el contrario, los requisitos de memoria para YOLO26 son significativamente más bajos. Impulsado por el optimizador MuSGD, YOLO26 se entrena rápida y eficientemente en hardware estándar de grado comercial. Aquí tienes lo fácil que es entrenar un modelo YOLO26 utilizando la API de Python de Ultralytics respaldada por PyTorch:

from ultralytics import YOLO

# Initialize the natively end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Export the optimized, NMS-free model
model.export(format="onnx")
Explorando otros modelos

Si te interesa explorar otras arquitecturas modernas dentro del ecosistema de Ultralytics, el altamente capaz YOLO11 sigue siendo una elección fantástica para flujos de trabajo heredados. Alternativamente, los investigadores interesados en arquitecturas basadas en Transformer pueden explorar el modelo RT-DETR.

Link to this sectionAplicaciones en el mundo real#

Elegir entre estas arquitecturas depende, en última instancia, de tu entorno de despliegue.

Link to this sectionIA de borde y dispositivos IoT#

Para cámaras inteligentes de venta minorista, monitores agrícolas automatizados o robótica, los recursos informáticos son estrictamente limitados. Aquí, YOLO26 es la elección definitiva. Su inferencia por CPU un 43% más rápida, su flujo de trabajo completamente libre de NMS y su diminuta huella de parámetros le permiten ejecutarse sin problemas en dispositivos de borde como Raspberry Pi sin sacrificar la precisión crítica.

Link to this sectionFabricación de alta velocidad y control de calidad#

En líneas de automatización de fabricación de ritmo rápido, la detección de defectos en cintas transportadoras de movimiento rápido requiere una latencia mínima y determinista. Aunque DAMO-YOLO puede funcionar adecuadamente en configuraciones de GPU específicas, la latencia fluctuante introducida por el posprocesamiento NMS tradicional puede desincronizar los actuadores robóticos. La naturaleza de extremo a extremo de YOLO26 garantiza tiempos de procesamiento de fotogramas consistentes y predecibles, asegurando una integración impecable en la robótica industrial de alta velocidad.

Link to this sectionDrones e imágenes aéreas#

Detectar sujetos diminutos desde grandes altitudes es notoriamente difícil. La integración de ProgLoss y STAL en YOLO26 mejora drásticamente el reconocimiento de objetos pequeños. Ya sea rastreando vida silvestre o analizando la congestión del tráfico desde vehículos aéreos no tripulados (UAV), YOLO26 identifica constantemente objetos de área de píxeles más pequeños que las arquitecturas más antiguas, incluido DAMO-YOLO, pasan por alto con frecuencia.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre YOLO26 y DAMO-YOLO depende de los requisitos específicos de tu proyecto, las restricciones de despliegue y las preferencias de ecosistema.

Link to this sectionCuándo elegir YOLO26#

YOLO26 es una gran elección para:

  • Despliegue en borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de la supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.

Link to this sectionCuándo elegir DAMO-YOLO#

DAMO-YOLO se recomienda para:

  • Análisis de video de alto rendimiento: Procesamiento de flujos de video de alta tasa de cuadros (FPS) en infraestructura de GPU NVIDIA fija, donde el rendimiento de procesamiento batch-1 es la métrica principal.
  • Líneas de fabricación industrial: Escenarios con estrictas restricciones de latencia de GPU en hardware dedicado, como la inspección de calidad en tiempo real en líneas de ensamblaje.
  • Investigación en Búsqueda de Arquitectura Neuronal: Estudiar los efectos de la búsqueda de arquitectura automatizada (MAE-NAS) y los backbones reparametrizados eficientes en el rendimiento de detección.

Link to this sectionConclusión#

Aunque DAMO-YOLO sigue siendo un estudio fascinante sobre las capacidades de la Búsqueda de Arquitectura Neuronal para objetivos de hardware específicos, Ultralytics YOLO26 se erige como la solución superior y completa para el profesional de IA moderno. Con su arquitectura de extremo a extremo sin NMS, requisitos de memoria significativamente más bajos, optimizador híbrido MuSGD y un ecosistema impecablemente bien mantenido, YOLO26 permite a los desarrolladores construir y desplegar sistemas de visión de vanguardia de forma más rápida y fiable que nunca.

Colaboradores

Comentarios