Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 frente a DAMO-YOLO#

El panorama de la visión artificial evoluciona constantemente, con investigadores e ingenieros esforzándose por crear modelos que equilibren a la perfección velocidad, precisión y eficiencia. Dos arquitecturas destacadas que han causado un gran impacto en este ámbito son RTDETRv2, desarrollada por Baidu, y DAMO-YOLO, creada por Alibaba Group. Ambos modelos superan los límites de la detección de objetos en tiempo real, pero adoptan filosofías arquitectónicas fundamentalmente distintas para lograr sus impresionantes resultados.

En esta comparación técnica, profundizaremos en sus arquitecturas, metodologías de entrenamiento y capacidades de despliegue en el mundo real. También exploraremos cómo se comparan estos modelos con el ecosistema más amplio, particularmente con la Plataforma Ultralytics altamente optimizada y la arquitectura YOLO26 de última generación.

Link to this sectionInnovaciones arquitectónicas#

Comprender los mecanismos fundamentales de estos modelos es crucial para los ingenieros de aprendizaje automático encargados de seleccionar la herramienta adecuada para entornos de producción.

Link to this sectionRTDETRv2: El enfoque Transformer#

Partiendo del éxito del RT-DETR original, RTDETRv2 utiliza un codificador híbrido y un decodificador transformer. Este diseño permite al modelo procesar el contexto global de forma altamente efectiva, lo que lo hace excepcionalmente bueno para distinguir entre objetos superpuestos en escenas densas. La ventaja más significativa de esta arquitectura es su diseño nativo sin NMS (Non-Maximum Suppression). Al eliminar el paso de post-procesamiento NMS, RTDETRv2 agiliza el pipeline de inferencia y garantiza una latencia más estable en diversas configuraciones de hardware.

Más información sobre RTDETRv2

Link to this sectionDAMO-YOLO: Avanzando en la eficiencia de CNN#

DAMO-YOLO, por otro lado, mantiene sus raíces en el exitoso linaje de YOLO basado en CNN, pero introduce varias mejoras innovadoras. Aprovecha la búsqueda de arquitectura neuronal (NAS) para optimizar su backbone, asegurando la máxima eficiencia en la extracción de características. Además, incorpora un eficiente RepGFPN (Reparameterized Generalized Feature Pyramid Network) y un diseño ZeroHead, junto con técnicas de AlignedOTA y mejora por destilación. Estas innovaciones permiten a DAMO-YOLO alcanzar velocidades de inferencia rápidas mientras mantiene una puntuación mAPval altamente competitiva.

Más información sobre DAMO-YOLO

Divergencia arquitectónica

Mientras que RTDETRv2 se enfoca en aprovechar los mecanismos de atención para la comprensión global de características sin NMS, DAMO-YOLO maximiza la eficiencia tradicional de las CNN a través de NAS y destilación avanzada, lo que requiere un post-procesamiento estándar pero ofrece ventajas de velocidad distintas en cierto hardware.

Link to this sectionComparación de rendimiento y métricas#

Al evaluar modelos para su despliegue, métricas de rendimiento como la precisión media (mAP), la velocidad de inferencia y el recuento de parámetros son primordiales. A continuación, se detalla una comparación de las dos familias de modelos.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Link to this sectionAnálisis de los resultados#

Como se observa en la tabla, el RTDETRv2-x logra la mayor precisión con un mAPval de 54.3, demostrando la potencia de la arquitectura transformer en validaciones complejas como el dataset COCO. Sin embargo, esto tiene el coste de un número de parámetros (76M) y FLOPs significativamente mayor.

Por el contrario, DAMO-YOLOt (Tiny) es excepcionalmente ligero, requiriendo solo 8.5M de parámetros, lo que lo convierte en una opción increíblemente rápida para entornos donde la memoria CUDA está severamente restringida. DAMO-YOLO generalmente proporciona un equilibrio favorable entre velocidad y precisión para dispositivos edge heredados.

Link to this sectionEcosistema, usabilidad y la ventaja de Ultralytics#

Si bien repositorios independientes como el GitHub de RT-DETR y el GitHub de DAMO-YOLO oficiales ofrecen el código base para entrenar estos modelos, integrarlos en pipelines de producción a menudo requiere una gran cantidad de código repetitivo y optimización manual.

Aquí es donde el ecosistema Ultralytics simplifica drásticamente la experiencia del desarrollador. Ultralytics integra modelos como RTDETRv2 directamente en su API unificada, permitiendo a los usuarios entrenar, validar y exportar modelos con una sola línea de código. Además, los modelos de Ultralytics son conocidos por sus mínimos requisitos de memoria durante el entrenamiento en comparación con los pesados repositorios independientes basados en transformers.

Link to this sectionEjemplo de código: Integración perfecta#

Aquí tienes lo fácil que es aprovechar la biblioteca Python de Ultralytics para realizar inferencias. La API permanece consistente tanto si utilizas un modelo transformer como una CNN de última generación.

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")

# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")

# Display the results
results_yolo[0].show()
Exportación de modelos para producción

Utilizando la API de Ultralytics, puedes exportar tus modelos entrenados sin problemas a formatos como TensorRT, ONNX o CoreML con un sencillo comando model.export(format="engine"), reduciendo drásticamente la fricción en el despliegue.

Link to this sectionCasos de uso ideales#

Elegir entre estas arquitecturas depende totalmente de los requisitos específicos de tu proyecto:

  • RTDETRv2 destaca en el procesamiento del lado del servidor donde la VRAM es abundante. Su conciencia del contexto global es perfecta para imágenes médicas y análisis de multitudes densas donde las oclusiones son frecuentes.
  • DAMO-YOLO es altamente adecuado para aplicaciones IoT embebidas y líneas de inspección industrial de rápido movimiento donde un bajo número de parámetros y un alto FPS son requisitos estrictos.

Link to this sectionEl futuro: Ultralytics YOLO26#

Aunque tanto RTDETRv2 como DAMO-YOLO tienen sus méritos, el campo de la visión artificial avanza rápidamente. Para nuevos proyectos, el último Ultralytics YOLO26 representa la síntesis definitiva de velocidad, precisión y experiencia del desarrollador.

YOLO26 adopta un diseño end-to-end sin NMS, capturando el beneficio principal de los transformers sin la enorme carga computacional. Incorpora el innovador optimizador MuSGD—inspirado en el entrenamiento de Large Language Models—para una convergencia rápida y estable. Además, con la eliminación de DFL (Distribution Focal Loss eliminada para una exportación simplificada y una mejor compatibilidad con dispositivos edge/de bajo consumo), YOLO26 logra una inferencia en CPU hasta un 43% más rápida, convirtiéndose en el campeón indiscutible para edge computing. Además, ProgLoss + STAL proporciona funciones de pérdida mejoradas con mejoras notables en el reconocimiento de objetos pequeños, crítico para IoT, robótica e imágenes aéreas.

A diferencia de los modelos limitados estrictamente a cajas delimitadoras, la familia YOLO26 ofrece una versatilidad inigualable, soportando tareas que van desde la segmentación de instancias y la estimación de poses hasta cajas delimitadoras orientadas (OBB), todo gestionado sin problemas a través de la intuitiva Plataforma Ultralytics.

Explora YOLO26 en la Plataforma

Link to this sectionDetalles del modelo y referencias#

Link to this sectionRTDETRv2#

Link to this sectionDAMO-YOLO#

Para los usuarios interesados en explorar otras comparaciones, echa un vistazo a nuestras guías sobre RTDETRv2 vs. YOLO11 o DAMO-YOLO vs. YOLOv8 para ver cómo se comportan estos modelos frente a las generaciones anteriores de la familia Ultralytics.

Comentarios