Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO frente a YOLOv7#

La rápida evolución de la visión artificial ha producido modelos de detección de objetos altamente eficientes diseñados para equilibrar la precisión y el coste computacional. Dos modelos notables introducidos en 2022 son DAMO-YOLO y YOLOv7. Aunque ambos pretenden superar los límites de las tareas de visión en tiempo real, logran sus resultados a través de paradigmas arquitectónicos y metodologías de entrenamiento muy diferentes.

Esta comparativa técnica integral explora los enfoques distintivos de ambos modelos, examinando sus arquitecturas, potencial de despliegue y métricas de rendimiento para ayudar a los ingenieros de aprendizaje automático a elegir la herramienta adecuada para sus aplicaciones de visión artificial específicas.

Link to this sectionOrígenes y metadatos del modelo#

Antes de profundizar en el análisis técnico, es esencial contextualizar los orígenes de estos dos modelos de visión artificial.

Link to this sectionDAMO-YOLO#

Desarrollado por investigadores de Alibaba Group, DAMO-YOLO se introdujo para optimizar tanto la velocidad como la precisión mediante la búsqueda automatizada de arquitecturas y la destilación.

Más información sobre DAMO-YOLO

Link to this sectionYOLOv7#

Lanzado como el modelo de vanguardia a mediados de 2022, YOLOv7 impulsó la inferencia en tiempo real al introducir "bag-of-freebies" entrenables sin aumentar los costes de despliegue.

Más información sobre YOLOv7

Ecosistema soportado

YOLOv7 cuenta con soporte oficial dentro del ecosistema Ultralytics, lo que permite un entrenamiento, validación y exportación fluidos con una API unificada.

Link to this sectionInnovaciones arquitectónicas#

Link to this sectionDAMO-YOLO: NAS y Destilación#

DAMO-YOLO incorpora varias técnicas de vanguardia orientadas a la máxima eficiencia:

  • Backbones NAS: Utiliza la Búsqueda de Arquitectura Neuronal (NAS) para diseñar automáticamente backbones óptimos (MAE-NAS) adaptados a entornos donde la latencia es crítica.
  • Efficient RepGFPN: Una red piramidal de características generalizada modificada que mejora significativamente la eficiencia de la fusión de características a través de múltiples escalas.
  • ZeroHead y AlignedOTA: Incorpora una cabeza de detección ligera y una estrategia de asignación de etiquetas optimizada (AlignedOTA) para reducir la carga computacional.
  • Mejora por destilación: Aprovecha enormemente la destilación de conocimiento durante el entrenamiento para impulsar el rendimiento de variantes de modelos más pequeños sin aumentar su número de parámetros.

Link to this sectionYOLOv7: E-ELAN y Bag-of-Freebies#

YOLOv7 adoptó un enfoque de ingeniería más estructural, centrándose en la optimización de la ruta de gradiente y estrategias de entrenamiento robustas.

  • Arquitectura E-ELAN: La Extended Efficient Layer Aggregation Network permite al modelo aprender características más diversas controlando las rutas de gradiente más cortas y largas, asegurando una convergencia de aprendizaje efectiva.
  • Escalado de modelos: Introduce un método de escalado compuesto diseñado para modelos basados en concatenación, escalando la profundidad y la anchura simultáneamente para la alineación estructural.
  • Bag-of-Freebies entrenables: Emplea técnicas como convoluciones reparametrizadas (RepConv) sin conexiones de identidad y estrategias de asignación de etiquetas dinámica, que impulsan la precisión durante el entrenamiento sin afectar la velocidad de inferencia.

Link to this sectionAnálisis de rendimiento#

Al evaluar la precisión media media (mAP), la velocidad y la eficiencia, ambos modelos muestran métricas impresionantes, aunque se dirigen a segmentos ligeramente diferentes. YOLOv7 se centra intensamente en el despliegue en GPU de alta precisión, mientras que las estructuras derivadas de NAS de DAMO-YOLO apuntan a un despliegue agresivo de baja latencia en CPU y dispositivos edge.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Como se observa en las métricas, aunque DAMO-YOLO proporciona variantes extremadamente ligeras (como el modelo tiny con solo 8,5 M de parámetros), YOLOv7 logra un pico de precisión general más alto, con YOLOv7x alcanzando un impresionante 53,1 mAP en el conjunto de datos COCO.

Link to this sectionLa ventaja del ecosistema Ultralytics#

Si bien la arquitectura teórica es importante, la practicidad de un modelo viene dictada por su ecosistema. Los modelos soportados por Ultralytics, como YOLOv7, se benefician de un ecosistema bien mantenido y una facilidad de uso inigualable.

  • Equilibrio de rendimiento: Los modelos de Ultralytics logran constantemente un equilibrio óptimo entre la velocidad de inferencia y la precisión de detección, lo que los hace ideales tanto para dispositivos edge como para el despliegue de modelos en la nube.
  • Requisitos de memoria: A diferencia de los modelos basados en Transformer más pesados, los modelos YOLO de Ultralytics mantienen bajos requisitos de memoria CUDA durante el entrenamiento. Esto permite tamaños de lote mayores, agilizando el proceso de entrenamiento incluso en hardware de consumo.
  • Versatilidad: El framework de Ultralytics va más allá de la detección de objetos hacia tareas como la segmentación de instancias y la estimación de poses, ofreciendo a los desarrolladores un kit de herramientas de visión artificial completo.
Eficiencia de entrenamiento

El paquete de Ultralytics te permite pasar sin problemas de los datasets a un modelo totalmente entrenado en solo minutos, aprovechando cargadores de datos altamente optimizados y pesos preentrenados.

Link to this sectionEjemplo de código: Entrenamiento de YOLOv7 con Ultralytics#

Integrar YOLOv7 en tu pipeline de visión artificial es increíblemente sencillo usando la API de Python de Ultralytics.

from ultralytics import YOLO

# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

Link to this sectionEl nuevo estándar: Presentación de YOLO26#

Aunque YOLOv7 y DAMO-YOLO representaron avances significativos en 2022, el campo de la IA de visión avanza rápidamente. Para los equipos que inician nuevos proyectos hoy, el modelo recomendado es el avanzado Ultralytics YOLO26, lanzado en enero de 2026.

YOLO26 supone un salto generacional en rendimiento y usabilidad, incorporando innovaciones de última generación:

  • Diseño integral sin NMS: YOLO26 es nativamente de extremo a extremo. Al eliminar el postprocesamiento de supresión no máxima (NMS), ofrece una lógica de despliegue más rápida y sencilla, un cambio de paradigma iniciado inicialmente por YOLOv10.
  • Optimizador MuSGD: Inspirado en las innovaciones de los modelos de lenguaje grande como Kimi K2 de Moonshot AI, YOLO26 utiliza un híbrido de SGD y Muon. Este optimizador garantiza dinámicas de entrenamiento altamente estables y tasas de convergencia drásticamente más rápidas.
  • Inferencia en CPU hasta un 43% más rápida: Con la eliminación específica de Distribution Focal Loss (DFL) y profundas mejoras estructurales, YOLO26 está fuertemente optimizado para la computación edge de bajo consumo, superando a las generaciones anteriores en hardware sin GPU.
  • ProgLoss + STAL: Incorpora nuevas funciones de pérdida avanzadas que se dirigen explícitamente y mejoran el reconocimiento de objetos pequeños, una capacidad esencial para aplicaciones en imágenes aéreas, robótica y vigilancia de seguridad.
  • Mejoras específicas por tarea: Más allá de la detección estándar, YOLO26 presenta mejoras a medida para diversas tareas, incluyendo prototipado multiescala para segmentación, RLE para estimación de poses y pérdidas de ángulo específicas para cajas delimitadoras orientadas (OBB).

Más información sobre YOLO26

Link to this sectionCasos de uso ideales#

Elegir la arquitectura adecuada depende totalmente de tu entorno de despliegue objetivo y de las restricciones del proyecto.

Cuándo elegir DAMO-YOLO:

  • Trabajas en entornos edge fuertemente restringidos y limitados en recursos donde el número bruto de parámetros debe mantenerse extremadamente bajo (por ejemplo, microcontroladores).
  • Utilizas pipelines de aprendizaje automático automatizado integrados específicamente con los servicios en la nube propietarios de Alibaba.

Cuándo elegir YOLOv7:

  • Tienes pipelines de GPU heredados ya optimizados para inferencia de alta precisión basada en anclas.
  • Operas en entornos donde la precisión en tiempo real es primordial, como en vehículos autónomos de alta velocidad o robótica avanzada.

Cuándo elegir YOLO26 (Recomendado):

  • Estás creando una nueva aplicación de visión artificial desde cero y necesitas lo último en precisión e inferencia en CPU/edge.
  • Necesitas un despliegue rápido y fluido (como exportar a CoreML o TensorRT) sin lidiar con las restricciones del operador NMS.
  • Quieres utilizar todas las capacidades de la Plataforma Ultralytics para el entrenamiento en la nube, la gestión de datasets y el despliegue automatizado.

Al aprovechar el robusto ecosistema de modelos de Ultralytics, los desarrolladores pueden reducir drásticamente el tiempo de ingeniería mientras aseguran un rendimiento predictivo de primer nivel para sus aplicaciones del mundo real.

Comentarios