Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO frente a RTDETRv2#

El panorama de la visión artificial, en rápida evolución, ha producido una impresionante variedad de arquitecturas diseñadas para equilibrar velocidad, precisión y eficiencia computacional. Dos modelos destacados que han aportado enfoques únicos para resolver estos desafíos son DAMO-YOLO y RTDETRv2. Aunque ambos modelos tienen como objetivo proporcionar soluciones de vanguardia para la inferencia en tiempo real, difieren fundamentalmente en sus filosofías arquitectónicas.

Esta guía exhaustiva profundiza en las especificaciones técnicas, las innovaciones arquitectónicas y los casos de uso prácticos de ambos modelos, al tiempo que explora cómo soluciones modernas como Ultralytics Platform y el vanguardista YOLO26 han redefinido los estándares de la industria en cuanto a implementación y facilidad de uso.

Link to this sectionResumen de modelos#

Link to this sectionEntender DAMO-YOLO#

Desarrollado por investigadores de Alibaba Group, DAMO-YOLO introduce un método de detección de objetos rápido y preciso que depende en gran medida de la búsqueda de arquitectura neuronal (NAS). Sustituye las estructuras convencionales diseñadas manualmente por otras generadas mediante NAS y optimizadas para una baja latencia. Además, incorpora una eficiente RepGFPN (Reparameterized Generalized Feature Pyramid Network) y un diseño ZeroHead para agilizar la agregación de características y las predicciones de los cuadros delimitadores.

Detalles clave del modelo:

Más información sobre DAMO-YOLO

Link to this sectionEntender RTDETRv2#

El RTDETRv2 de Baidu representa un salto significativo para los Transformers de detección en tiempo real. A diferencia de las redes neuronales convolucionales (CNN) tradicionales que dependen de cuadros de anclaje y de la supresión no máxima (NMS), RTDETRv2 utiliza mecanismos de autoatención para visualizar el contexto de toda la imagen. Produce cuadros delimitadores directamente, evitando por completo el paso de posprocesamiento NMS. Este modelo introduce una estrategia de entrenamiento de "bag of freebies" para mejorar la precisión base sin aumentar la latencia de inferencia.

Detalles clave del modelo:

Más información sobre RTDETRv2

La adopción de Transformers en la IA de visión

Aunque los transformers requieren mayores recursos computacionales, su capacidad para procesar el contexto global los hace increíblemente efectivos para comprender escenas complejas, lo cual es una gran fortaleza de RTDETRv2.

Link to this sectionComparación de rendimiento#

Al evaluar estos modelos para su implementación en el mundo real, parámetros como la precisión media (mAP), la velocidad de inferencia y el consumo de memoria son críticos. Los modelos basados en transformers como RTDETRv2 suelen exigir mayor memoria CUDA durante el entrenamiento y la inferencia en comparación con CNN ligeras como DAMO-YOLO.

A continuación, presentamos una comparación detallada de sus métricas de rendimiento.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Link to this sectionCasos de uso ideales#

Dónde destaca DAMO-YOLO: Debido a su backbone optimizado mediante NAS y a su número excepcionalmente bajo de parámetros en sus variantes más pequeñas (como DAMO-YOLOt), es muy adecuado para su implementación en hardware con grandes limitaciones. Si estás creando soluciones para dispositivos embebidos utilizando entornos de ejecución como ONNX o motores TensorRT especializados para computación en el borde (edge computing), DAMO-YOLO proporciona un framework altamente receptivo.

Dónde destaca RTDETRv2: RTDETRv2 brilla en escenarios donde se dispone de GPUs de nivel servidor y el contexto global de la imagen es primordial. Su arquitectura de transformer le permite resolver de forma natural cuadros delimitadores superpuestos sin necesidad de NMS, convirtiéndolo en una opción robusta para la gestión de multitudes densas o el seguimiento de objetos complejo, donde las relaciones espaciales entre objetos distantes son fundamentales.

Link to this sectionLa ventaja de Ultralytics: Presentamos YOLO26#

Aunque DAMO-YOLO y RTDETRv2 representan logros académicos significativos, la transición de estos modelos a aplicaciones escalables y listas para producción puede ser complicada. Los desarrolladores a menudo se enfrentan a bases de código fragmentadas, falta de soporte para el aprendizaje multitarea y tuberías (pipelines) de implementación complejas.

Aquí es donde el ecosistema Ultralytics marca la diferencia. Al priorizar la facilidad de uso, una API de Python bien mantenida y una versatilidad inigualable, Ultralytics garantiza que los desarrolladores dediquen menos tiempo a depurar y más tiempo a crear.

El modelo Ultralytics YOLO26, lanzado recientemente, lleva estas ventajas al siguiente nivel, ofreciendo avances que superan tanto a DAMO-YOLO como a RTDETRv2:

  • Diseño integral sin NMS: Desarrollado originalmente en YOLOv10, YOLO26 es nativamente integral (end-to-end). Esto elimina por completo el posprocesamiento NMS, haciendo que la implementación sea más rápida y drásticamente más sencilla que en las CNN tradicionales, a la vez que iguala los beneficios de salida directa de RTDETRv2.
  • Hasta un 43% más rápido en inferencia de CPU: Optimizado intensamente para dispositivos de IA en el borde sin GPUs discretas, lo que lo convierte en una opción muy superior para aplicaciones IoT en comparación con los pesados transformers.
  • Optimizador MuSGD: Inspirado en Kimi K2 de Moonshot AI, este híbrido de SGD y Muon incorpora las innovaciones de entrenamiento de los modelos de lenguaje extenso (LLM) a la visión artificial, lo que da como resultado un entrenamiento notablemente estable y una convergencia más rápida.
  • ProgLoss + STAL: Estas funciones de pérdida avanzadas ofrecen mejoras notables en el reconocimiento de objetos pequeños, un área en la que los modelos suelen tener dificultades. Esto es fundamental para aplicaciones de imágenes aéreas y drones.
  • Eliminación de DFL: Se ha eliminado la Distribution Focal Loss para garantizar formatos de exportación simplificados y una mejor compatibilidad con dispositivos de borde de bajo consumo.
  • Versatilidad inigualable: A diferencia de los modelos competidores limitados estrictamente a la detección, YOLO26 incluye mejoras específicas para cada tarea, como pérdida de ángulo especializada para Oriented Bounding Boxes (OBB), pérdida de segmentación semántica para una precisión de píxel perfecto y estimación de log-verosimilitud residual (RLE) para estimación de poses.

Más información sobre YOLO26

La eficiencia de memoria es importante

Entrenar modelos basados en transformers como RTDETRv2 requiere inmensas asignaciones de memoria CUDA, lo que a menudo exige costosas configuraciones de múltiples GPUs. Los modelos Ultralytics YOLO mantienen requisitos de memoria notablemente más bajos tanto durante el entrenamiento como en la inferencia, democratizando el desarrollo de IA para investigadores y aficionados por igual.

Link to this sectionEjemplo de código: La API unificada de Ultralytics#

Uno de los mayores beneficios del ecosistema Ultralytics es su API unificada. Puedes cargar, entrenar y validar sin problemas una gran variedad de modelos (incluyendo una implementación en PyTorch de RTDETR y modelos YOLO de última generación) sin cambiar tu flujo de trabajo.

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display the detected objects
results_yolo[0].show()

Esta simplicidad se extiende al entrenamiento con conjuntos de datos personalizados y a la exportación. Utilizando el paquete de Python de Ultralytics, los desarrolladores pueden enviar fácilmente sus pesos entrenados a plataformas de implementación como CoreML o OpenVINO con un solo comando.

Link to this sectionConclusión y exploración adicional#

Tanto DAMO-YOLO como RTDETRv2 han superado indudablemente los límites de lo que es posible en la detección de objetos en tiempo real. DAMO-YOLO proporciona estructuras de red optimizadas y auto-buscadas para obtener la máxima eficiencia, mientras que RTDETRv2 demuestra que los transformers pueden competir en el espacio del tiempo real al eliminar cuellos de botella tradicionales como el NMS.

Sin embargo, para los desarrolladores que buscan el equilibrio definitivo entre rendimiento, documentación completa y preparación para la producción, los modelos Ultralytics YOLO siguen siendo el estándar de oro. Con la introducción de YOLO26, los usuarios obtienen acceso a una detección integral (end-to-end) similar a la de los transformers, eficiencia de entrenamiento inspirada en los LLM y velocidades de CPU inigualables, todo ello envuelto en un ecosistema intuitivo y robusto.

Si estás evaluando modelos para tu próximo proyecto, puede que también te resulte útil leer nuestras comparativas de EfficientDet frente a RTDETR, explorar la generación anterior YOLO11, o revisar líneas base académicas como YOLOX. Comienza a crear hoy mismo explorando la guía de inicio rápido de Ultralytics.

Comentarios