Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO frente a YOLOv5#

La evolución de la visión por ordenador ha estado marcada por una innovación continua en la detección de objetos en tiempo real. Hoy en día, los desarrolladores e investigadores se enfrentan a una miríada de opciones arquitectónicas al diseñar pipelines de visión. Esta comparativa técnica exhaustiva explora los matices entre DAMO-YOLO y Ultralytics YOLOv5, destacando sus respectivas arquitecturas, metodologías de entrenamiento, métricas de rendimiento y escenarios de despliegue ideales.

Link to this sectionIntroducción a DAMO-YOLO#

Publicado por Alibaba Group, DAMO-YOLO introdujo varias técnicas novedosas destinadas a superar los límites de la velocidad y la precisión en la detección.

Más información sobre DAMO-YOLO

Link to this sectionInnovaciones arquitectónicas#

DAMO-YOLO está construido sobre los cimientos de la búsqueda de arquitectura neuronal (NAS, por sus siglas en inglés). Los autores utilizaron MAE-NAS para diseñar automáticamente backbones que equilibren la latencia y la precisión. El modelo introduce una eficiente RepGFPN (Reparameterized Generalized Feature Pyramid Network) que mejora la fusión de características a distintas escalas. Además, DAMO-YOLO incorpora un diseño "ZeroHead", eliminando complejos cabezales de predicción de múltiples ramas en favor de una estructura más sencilla y eficiente que depende en gran medida de la reparametrización durante la inferencia.

Para mejorar el entrenamiento, el modelo utiliza AlignedOTA para la asignación de etiquetas y un proceso intensivo de mejora mediante destilación, en el que un modelo "profesor" más grande guía al modelo "alumno" más pequeño para lograr una mayor precisión.

Link to this sectionIntroducción a Ultralytics YOLOv5#

Ultralytics YOLOv5 es una de las arquitecturas de visión más adoptadas en el mundo, reconocida por su estabilidad, facilidad de uso y su extenso ecosistema de despliegue.

Más información sobre YOLOv5

Link to this sectionEl estándar del ecosistema#

YOLOv5 redefinió el estándar de la industria en cuanto a usabilidad. Construido de forma nativa en PyTorch, utiliza un backbone CSPNet altamente optimizado y un cuello PANet para una agregación robusta de características. Aunque precedió a la tendencia sin anclas (anchor-free) observada en modelos posteriores, su enfoque altamente refinado basado en anclas, junto con el aprendizaje automático de anclas, garantiza un rendimiento excelente desde el primer momento.

La verdadera fuerza de YOLOv5 reside en su Ecosistema bien mantenido. Se integra a la perfección con herramientas de seguimiento como Comet y Weights & Biases, y admite exportaciones con un solo clic a formatos como ONNX, TensorRT y CoreML.

Primeros pasos con YOLOv5

YOLOv5 es increíblemente fácil de entrenar en datasets personalizados. La API optimizada reduce la fricción desde el prototipo hasta la producción, convirtiéndolo en un favorito entre los equipos de ingeniería ágiles.

Link to this sectionComparación de rendimiento y métricas#

Al comparar estos modelos, es fundamental observar el equilibrio entre la precisión media (mAP), la velocidad de inferencia y el número de parámetros.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Link to this sectionAnálisis de las compensaciones#

DAMO-YOLO logra puntuaciones de mAP impresionantes para sus tamaños de parámetros, beneficiándose enormemente de su fase de entrenamiento por destilación. Sin embargo, esto tiene un coste en cuanto a Eficiencia de entrenamiento. El proceso de destilación multietapa requiere entrenar primero un modelo profesor pesado, lo que aumenta significativamente el tiempo de cómputo en GPU y la VRAM necesarios.

Por el contrario, YOLOv5 ofrece unos excelentes Requisitos de memoria. Los modelos YOLO de Ultralytics son conocidos por su menor uso de memoria tanto durante el entrenamiento como en la inferencia en comparación con los complejos pipelines de destilación o los modelos basados en Transformer como RT-DETR. Esto permite que YOLOv5 se entrene eficientemente en hardware de consumo o en entornos de nube accesibles como Google Colab.

Link to this sectionAplicaciones en el mundo real y versatilidad#

Elegir la arquitectura correcta suele depender del entorno de despliegue.

Link to this sectionDonde destaca DAMO-YOLO#

DAMO-YOLO es estrictamente un modelo de detección de objetos. Es una excelente elección para la investigación académica, especialmente para equipos que estudian la búsqueda de arquitectura neuronal o aquellos que buscan reproducir las técnicas de reparametrización detalladas en el paper. Si un proyecto cuenta con amplios recursos computacionales para ejecutar la fase de entrenamiento por destilación y se centra únicamente en extraer la última fracción de precisión para cuadros delimitadores 2D, DAMO-YOLO es un firme candidato.

Link to this sectionLa ventaja de Ultralytics#

Para la producción en el mundo real, la Facilidad de uso y la Versatilidad de los modelos de Ultralytics los convierten en la opción preferida. Si bien YOLOv5 sigue siendo un elemento básico para la detección y la clasificación de imágenes, el ecosistema más amplio de Ultralytics permite a los desarrolladores cambiar de tarea sin esfuerzo.

Por ejemplo, las iteraciones más recientes de la familia Ultralytics admiten de forma nativa la segmentación de instancias, la estimación de poses y la detección mediante cajas delimitadoras orientadas (OBB). Esta capacidad multitarea garantiza que los equipos puedan utilizar una única API de Python unificada para pipelines complejos, como la combinación del reconocimiento automático de matrículas con la segmentación de vehículos.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre DAMO-YOLO y YOLOv5 depende de los requisitos específicos de tu proyecto, las restricciones de despliegue y las preferencias de ecosistema.

Link to this sectionCuándo elegir DAMO-YOLO#

DAMO-YOLO es una buena opción para:

  • Analítica de vídeo de alto rendimiento: Procesamiento de flujos de vídeo de altos FPS en infraestructura de GPU NVIDIA fija, donde el rendimiento por lote (batch-1) es la métrica principal.
  • Líneas de fabricación industrial: Escenarios con restricciones estrictas de latencia de GPU en hardware dedicado, como la inspección de calidad en tiempo real en líneas de montaje.
  • Investigación en búsqueda de arquitectura neuronal: Estudio de los efectos de la búsqueda automatizada de arquitectura (MAE-NAS) y backbones reparametrizados eficientes en el rendimiento de detección.

Link to this sectionCuándo elegir YOLOv5#

YOLOv5 se recomienda para:

  • Sistemas de producción probados: Despliegues existentes donde se valora la larga trayectoria de estabilidad, la extensa documentación y el enorme soporte de la comunidad de YOLOv5.
  • Entrenamiento con recursos limitados: Entornos con recursos de GPU limitados donde la eficiente canalización de entrenamiento de YOLOv5 y sus menores requisitos de memoria son ventajosos.
  • Amplio soporte de formatos de exportación: Proyectos que requieren despliegue en muchos formatos, incluidos ONNX, TensorRT, CoreML y TFLite.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionEl futuro: pasarse a YOLO26#

Aunque YOLOv5 es legendario y DAMO-YOLO proporciona interesantes conocimientos académicos, el estado del arte ha evolucionado. Lanzado en enero de 2026, Ultralytics YOLO26 representa un salto masivo para la comunidad de visión.

Más información sobre YOLO26

YOLO26 aborda los cuellos de botella tradicionales del despliegue en el borde (edge) y la inestabilidad del entrenamiento:

  • Diseño integral sin NMS: YOLO26 elimina de forma nativa el postprocesamiento de supresión de no máximos (NMS). Este avance simplifica la lógica de despliegue y reduce drásticamente la variabilidad de la latencia, lo que lo hace ideal para robótica de alta velocidad y sistemas autónomos.
  • Optimizador MuSGD: Inspirado en las innovaciones del entrenamiento de LLM (como el Kimi K2 de Moonshot AI), YOLO26 utiliza el optimizador MuSGD (un híbrido de SGD y Muon). Esto garantiza ejecuciones de entrenamiento altamente estables y una convergencia notablemente más rápida.
  • Inferencia en CPU hasta un 43% más rápida: Al eliminar estratégicamente la Distribution Focal Loss (DFL), YOLO26 logra velocidades muy superiores en CPUs y dispositivos de borde en comparación con sus predecesores como YOLO11 y YOLOv8.
  • ProgLoss + STAL: Estas funciones de pérdida avanzadas producen mejoras notables en el reconocimiento de objetos pequeños, lo cual es fundamental para analizar imágenes de drones aéreos y feeds de sensores IoT.

Link to this sectionEjemplo de código: Simplicidad en acción#

El paquete de Ultralytics te permite entrenar y desplegar modelos con solo unas pocas líneas de código. Tanto si estás utilizando YOLOv5 como si te actualizas al recomendado YOLO26, la interfaz sigue siendo coherente e intuitiva.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Export the model for edge deployment
model.export(format="onnx")

Link to this sectionConclusión#

Tanto DAMO-YOLO como YOLOv5 han contribuido significativamente al panorama de la visión por ordenador. DAMO-YOLO muestra el poder de la búsqueda de arquitectura neuronal y la destilación, lo que lo convierte en un estudio interesante para los investigadores. Sin embargo, YOLOv5 sigue siendo una potencia práctica debido a su equilibrio de rendimiento, sus bajos requisitos de memoria y su inigualable facilidad de uso.

Para los desarrolladores que comienzan nuevos proyectos hoy, la recomendación es aprovechar la Plataforma Ultralytics y adoptar YOLO26. Combina el apreciado ecosistema fácil de usar de YOLOv5 con avances arquitectónicos revolucionarios, garantizando una precisión de primer nivel y una inferencia ultrarrápida tanto para aplicaciones de IA en la nube como en el borde. Es posible que los desarrolladores también quieran explorar otros modelos eficientes como YOLOv6 o YOLOX dependiendo de las restricciones específicas de hardware heredado.

Comentarios