Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 frente a RTDETRv2: un análisis técnico profundo de la detección de objetos moderna#

El panorama de la detección de objetos en tiempo real ha experimentado un cambio de paradigma en los últimos años. Han surgido dos filosofías arquitectónicas distintas que dominan el campo: las redes neuronales convolucionales (CNN) altamente optimizadas y los Transformers de detección (DETR) en tiempo real. Representando la cumbre de estos dos enfoques están YOLOv9 y RTDETRv2.

Esta guía exhaustiva compara estos dos potentes modelos, analizando sus innovaciones arquitectónicas, métricas de rendimiento y escenarios de despliegue ideales para ayudarte a elegir el modelo adecuado para tu pipeline de visión artificial.

Link to this sectionResumen ejecutivo#

Ambos modelos logran resultados de vanguardia, pero se adaptan a restricciones de despliegue y ecosistemas de desarrollo ligeramente diferentes.

  • Elige YOLOv9 si: necesitas una utilización de parámetros altamente eficiente y una inferencia rápida en dispositivos de borde (edge). YOLOv9 lleva al límite teórico la eficiencia de las CNN, lo que lo hace ideal para entornos donde los recursos computacionales son estrictamente limitados.
  • Elige RTDETRv2 si: requieres la comprensión contextual matizada que proporcionan los Transformers, especialmente en escenas con oclusiones severas o relaciones complejas entre objetos, y cuentas con el hardware necesario para soportar una arquitectura ligeramente más pesada.
  • Elige YOLO26 (recomendado) si: quieres lo mejor de ambos mundos. Como la generación más reciente disponible en la Plataforma Ultralytics, YOLO26 presenta un diseño nativo de extremo a extremo sin NMS (similar a los modelos DETR pero mucho más rápido), lo que elimina los cuellos de botella del posprocesamiento y ofrece una inferencia en CPU hasta un 43% más rápida que las generaciones anteriores.

Link to this sectionEspecificaciones técnicas y autoría#

Comprender los orígenes y la intención de diseño de estos modelos proporciona un contexto crucial para sus decisiones arquitectónicas.

Link to this sectionYOLOv9#

Autores: Chien-Yao Wang y Hong-Yuan Mark Liao
Organización: Institute of Information Science, Academia Sinica
Fecha: 21-02-2024
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: WongKinYiu/yolov9

Aprende más sobre YOLOv9

Link to this sectionRTDETRv2#

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
Organización: Baidu
Fecha: 24-07-2024
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

Más información sobre RTDETR

Link to this sectionInnovaciones arquitectónicas#

Link to this sectionYOLOv9: resolviendo el cuello de botella de información#

Ultralytics YOLOv9 introduce dos innovaciones principales diseñadas para abordar la pérdida de información a medida que los datos pasan a través de redes neuronales profundas:

  1. Programmable Gradient Information (PGI): este marco de supervisión auxiliar asegura que se generen gradientes fiables para actualizar los pesos de la red, preservando información crucial de características incluso en capas muy profundas de la red.
  2. Generalized Efficient Layer Aggregation Network (GELAN): una arquitectura novedosa que combina las fortalezas de CSPNet y ELAN. GELAN optimiza la eficiencia de los parámetros, permitiendo que YOLOv9 logre una mayor precisión con menos FLOPs en comparación con las CNN tradicionales.

Link to this sectionRTDETRv2: mejorando los Transformers en tiempo real#

Partiendo del éxito del RT-DETR original, RTDETRv2 utiliza una arquitectura basada en Transformer que evita inherentemente la necesidad de una supresión de no máximos (NMS). Sus mejoras incluyen:

  1. Estrategia Bag-of-Freebies: la iteración v2 incorpora técnicas de entrenamiento avanzadas y aumentos de datos que mejoran significativamente la precisión sin añadir sobrecarga a la latencia de inferencia.
  2. Codificador híbrido eficiente: al procesar características multiescala a través de un mecanismo de atención desacoplado intra-escala y trans-escala, RTDETRv2 gestiona eficientemente el coste computacional tradicionalmente alto de los Vision Transformers.
Detección nativa de extremo a extremo

Mientras que RTDETRv2 aprovecha los Transformers para la detección sin NMS, la nueva arquitectura YOLO26 logra esto de forma nativa dentro de una estructura de CNN altamente optimizada, proporcionando el mismo despliegue simplificado pero con velocidades de inferencia en el borde muy superiores.

Link to this sectionComparación de rendimiento#

Al evaluar modelos para producción, el equilibrio entre la precisión y los requisitos computacionales es fundamental. La tabla a continuación resume el rendimiento de varios tamaños de modelos en los puntos de referencia estándar.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Link to this sectionAnálisis#

Como muestran los datos, YOLOv9 mantiene una clara ventaja en la eficiencia de los parámetros. El modelo YOLOv9c logra un impresionante mAP de 53.0 con solo 25.3M de parámetros, lo que lo hace increíblemente ligero.

Por el contrario, RTDETRv2 ofrece una fuerte competencia en las categorías de modelos medianos a grandes. Sin embargo, esto tiene un coste de mayores recuentos de parámetros y significativamente más FLOPs, típico de los modelos Transformer. Esta diferencia arquitectónica también se traduce en el uso de memoria: los modelos YOLO suelen requerir mucha menos memoria CUDA durante el entrenamiento y la inferencia en comparación con sus homólogos Transformer.

Link to this sectionLa ventaja de Ultralytics: ecosistema y versatilidad#

Si bien las métricas arquitectónicas puras son importantes, el ecosistema de software a menudo dicta el éxito de un proyecto de IA. Acceder a estos modelos avanzados a través de la API de Python de Ultralytics ofrece ventajas inigualables.

Link to this sectionEntrenamiento y despliegue optimizados#

Entrenar un Transformer de detección suele requerir archivos de configuración intrincados y GPUs de gama alta. Al utilizar el framework de Ultralytics, los desarrolladores pueden entrenar tanto modelos YOLOv9 como RTDETR con una sintaxis idéntica y sencilla, beneficiándose de pipelines de entrenamiento altamente eficientes y pesos preentrenados fácilmente disponibles.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")

Link to this sectionVersatilidad de tareas inigualable#

Una limitación importante de los modelos especializados como RTDETRv2 es su enfoque limitado en la detección de cuadros delimitadores. Por el contrario, el ecosistema más amplio de Ultralytics, que abarca modelos como YOLO11 y YOLOv8, admite una amplia gama de tareas de visión artificial. Esto incluye segmentación de instancias píxel a píxel, estimación de pose esquelética, clasificación de imagen completa y detección de cuadros delimitadores orientados (OBB) para imágenes aéreas.

Link to this sectionAplicaciones en el mundo real#

Link to this sectionAnalítica de borde de alta velocidad#

Para entornos minoristas o líneas de fabricación que requieren reconocimiento de productos en tiempo real en dispositivos de borde, YOLOv9 es la opción superior. Su arquitectura GELAN garantiza un alto rendimiento en hardware restringido como la serie NVIDIA Jetson, lo que permite un control de calidad automatizado sin retrasos significativos.

Link to this sectionAnálisis de escenas complejas#

En escenarios como la monitorización de multitudes densas o intersecciones de tráfico complejas donde los objetos a menudo se ocluyen entre sí, los mecanismos de atención global de RTDETRv2 destacan. La capacidad del modelo para razonar de forma nativa sobre todo el contexto de la imagen le permite mantener un seguimiento y una detección robustos incluso cuando los objetos están parcialmente ocultos.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre YOLOv9 y RT-DETR depende de los requisitos específicos de tu proyecto, las restricciones de despliegue y las preferencias de ecosistema.

Link to this sectionCuándo elegir YOLOv9#

YOLOv9 es una opción sólida para:

  • Investigación del cuello de botella de información: proyectos académicos que estudian arquitecturas de información de gradiente programable (PGI) y redes de agregación de capas eficientes generalizadas (GELAN).
  • Estudios de optimización del flujo de gradiente: investigación enfocada en comprender y mitigar la pérdida de información en capas de red profundas durante el entrenamiento.
  • Evaluación comparativa de detección de alta precisión: escenarios donde el sólido rendimiento de YOLOv9 en el benchmark COCO es necesario como punto de referencia para comparaciones arquitectónicas.

Link to this sectionCuándo elegir RT-DETR#

RT-DETR se recomienda para:

  • Investigación en detección basada en Transformer: Proyectos que exploran mecanismos de atención y arquitecturas transformer para detección de objetos de extremo a extremo sin NMS.
  • Escenarios de alta precisión con latencia flexible: Aplicaciones donde la precisión de detección es la prioridad máxima y una latencia de inferencia ligeramente mayor es aceptable.
  • Detección de objetos grandes: Escenas con objetos principalmente medianos a grandes donde el mecanismo de atención global de los transformers proporciona una ventaja natural.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionEl futuro: llega YOLO26#

Si bien YOLOv9 y RTDETRv2 representan logros enormes, el campo de la visión artificial avanza rápidamente. Para los desarrolladores que buscan iniciar nuevos proyectos, YOLO26 es la solución de vanguardia recomendada.

Lanzado en 2026, YOLO26 incorpora las mejores características de las CNN y los DETR. Cuenta con un diseño nativo de extremo a extremo sin NMS, eliminando por completo la latencia de posprocesamiento, una técnica pionera en YOLOv10. Además, YOLO26 elimina la pérdida focal de distribución (DFL) para una mejor compatibilidad con el borde e introduce el revolucionario optimizador MuSGD. Inspirado en el entrenamiento de modelos de lenguaje grandes (específicamente Kimi K2 de Moonshot AI), este optimizador híbrido garantiza una estabilidad de entrenamiento sin precedentes y una convergencia más rápida.

Junto con funciones de pérdida mejoradas como ProgLoss y STAL para un reconocimiento excepcional de objetos pequeños, YOLO26 ofrece una inferencia en CPU hasta un 43% más rápida, consolidando su posición como el modelo definitivo para despliegues de IA modernos.

Comentarios