Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 frente a YOLOv9#

El campo de la visión artificial ha sido testigo de una fascinante divergencia en las filosofías arquitectónicas, principalmente entre las Redes Neuronales Convolucionales (CNNs) y los modelos basados en Transformer. Al comparar RTDETRv2 y YOLOv9, los desarrolladores evalúan esencialmente las ventajas y desventajas entre los mecanismos de atención global y la información de gradiente programable. Ambos modelos representan la cúspide de sus respectivos paradigmas, superando los límites de la detección de objetos en tiempo real.

Link to this sectionIntroducción a los modelos#

Link to this sectionRTDETRv2: Transformer de detección en tiempo real#

Desarrollado por investigadores de Baidu, RTDETRv2 se basa en el RT-DETR original introduciendo una "bolsa de obsequios" (Bag-of-Freebies) para mejorar el Transformer de detección en tiempo real base. Aborda el cuello de botella tradicional de los transformers, la velocidad de inferencia, haciéndolos viables para aplicaciones en tiempo real.

  • Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
  • Organización: Baidu
  • Fecha: 24-07-2024
  • Enlaces: Arxiv, GitHub

Una característica definitoria de RTDETRv2 es su diseño nativo end-to-end sin NMS. Al eliminar por completo la Supresión de No Máximos (NMS) durante el post-procesamiento, el modelo estabiliza la latencia de inferencia y simplifica el pipeline de despliegue. El mecanismo de atención global permite que el modelo destaque en la comprensión de escenas complejas y multitudes densas, ya que evalúa todo el contexto de la imagen simultáneamente.

Más información sobre RTDETRv2

Link to this sectionYOLOv9: información de gradiente programable#

YOLOv9, una arquitectura basada en CNN altamente eficiente, aborda el problema del cuello de botella de información inherente en las redes neuronales profundas. Introduce la Información de Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN).

YOLOv9 se basa en las probadas bases de la red neuronal convolucional, pero maximiza la eficiencia de los parámetros. Al retener información crucial durante el proceso de alimentación hacia adelante, asegura actualizaciones de pesos fiables, lo que resulta en un modelo increíblemente ligero pero altamente preciso. Sin embargo, a diferencia de RTDETRv2, YOLOv9 todavía depende del post-procesamiento NMS estándar.

Aprende más sobre YOLOv9

Link to this sectionRendimiento y eficiencia de recursos#

Al evaluar estos modelos para producción, es crítico equilibrar la media de la Precisión Media (mAP) frente al coste computacional. La siguiente tabla ilustra su rendimiento en el dataset MS COCO.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Link to this sectionRequisitos de memoria y eficiencia de entrenamiento#

Los transformers como RTDETRv2 son notoriamente intensivos en memoria durante el entrenamiento, requiriendo a menudo una memoria CUDA sustancial y tiempos de entrenamiento más largos para converger completamente. Por el contrario, las arquitecturas CNN como YOLOv9 y otros modelos Ultralytics YOLO ofrecen un uso de memoria excepcionalmente menor, permitiendo a los desarrolladores entrenar con tamaños de lote más grandes en hardware de consumo.

Entrenamiento eficiente

Para maximizar la utilización del hardware, considera utilizar la Plataforma Ultralytics para un entrenamiento en la nube optimizado. Esta gestiona automáticamente la configuración del entorno y el tamaño óptimo de los lotes.

Link to this sectionLa ventaja de Ultralytics: Ecosistema y facilidad de uso#

Si bien investigar repositorios independientes como las páginas oficiales de GitHub de RTDETRv2 o YOLOv9 puede ser muy educativo, los entornos de producción exigen estabilidad, facilidad de uso y un ecosistema bien mantenido. Integrar estos modelos a través de la API de Python de Ultralytics ofrece una experiencia de desarrollo fluida.

Link to this sectionAPI unificada y versatilidad#

El framework de Ultralytics abstrae las complejidades de la carga de datos, las aumentaciones y el entrenamiento distribuido. Además, aunque el RTDETRv2 original está estrictamente enfocado en la detección, el ecosistema Ultralytics permite a los usuarios transitar fácilmente entre Detección de Objetos, Segmentación de Instancias y Estimación de Pose.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")

Con una documentación robusta, seguimiento de experimentos automático y capacidades de exportación fluidas a formatos como ONNX, TensorRT y OpenVINO, Ultralytics reduce drásticamente el tiempo desde el prototipo hasta la producción.

Link to this sectionCasos de uso ideales#

Link to this sectionDonde destaca RTDETRv2#

Gracias a su mecanismo de atención global, RTDETRv2 es una potencia para el procesamiento del lado del servidor y entornos donde el contexto global es primordial. Destaca en:

  • Imagen médica: Identificación de anomalías sutiles donde el contexto circundante es crítico.
  • Vigilancia aérea: Detección de objetos pequeños en grabaciones de drones de alta resolución sin los sesgos espaciales de las convoluciones CNN tradicionales.
  • Análisis de multitudes densas: Seguimiento de individuos donde la oclusión severa normalmente confunde a los modelos basados en anclas.

Link to this sectionDonde destaca YOLOv9#

YOLOv9 es un campeón de los despliegues en el borde (edge) con recursos limitados. Su eficiencia computacional lo hace ideal para:

  • Robótica: Navegación en tiempo real y evitación de obstáculos donde se requiere una latencia mínima.
  • IoT para ciudades inteligentes: Despliegue en dispositivos de borde como NVIDIA Jetson para la monitorización del tráfico.
  • Inspección industrial: Control de calidad en líneas de montaje de alta velocidad que requiere un alto número de fotogramas por segundo (FPS).

Link to this sectionEl futuro: Llega Ultralytics YOLO26#

Si bien YOLOv9 y RTDETRv2 representan grandes saltos hacia adelante, el panorama ha evolucionado rápidamente. Para despliegues modernos, el recién lanzado Ultralytics YOLO26 representa la sinergia definitiva de ambas filosofías arquitectónicas.

Al tomar los mejores aspectos de los transformers y las CNNs, YOLO26 establece un nuevo estándar:

  • Diseño nativo end-to-end sin NMS: Al igual que RTDETRv2, YOLO26 es nativamente end-to-end, eliminando por completo el post-procesamiento NMS para pipelines de despliegue más rápidos, simples y altamente predecibles.
  • Optimizador MuSGD: Inspirado en técnicas de entrenamiento de Large Language Models (LLM) (como Kimi K2 de Moonshot AI), YOLO26 utiliza un híbrido de SGD y Muon. Esto aporta una estabilidad de entrenamiento sin igual y una convergencia rápida a la visión artificial.
  • Hasta un 43% más de velocidad de inferencia en CPU: A diferencia de los transformers pesados, YOLO26 está altamente optimizado para la computación en el borde (edge) y dispositivos sin GPUs.
  • Eliminación de DFL: La eliminación de Distribution Focal Loss simplifica drásticamente el grafo del modelo, asegurando una exportación impecable a dispositivos de borde de baja potencia y Unidades de Procesamiento Neuronal (NPUs) integradas.
  • ProgLoss + STAL: Estas funciones de pérdida mejoradas mejoran drásticamente el reconocimiento de objetos pequeños, una característica crítica para datasets de IoT y aéreos.

Para los equipos que buscan iniciar un nuevo proyecto de visión artificial, recomendamos encarecidamente evaluar YOLO26. Proporciona la elegancia sin NMS de un transformer con la velocidad vertiginosa y la eficiencia de entrenamiento de una arquitectura YOLO altamente optimizada.

Más información sobre YOLO26

Link to this sectionResumen#

Elegir entre RTDETRv2 y YOLOv9 depende en gran medida de tu hardware de despliegue y de tus necesidades específicas de precisión. RTDETRv2 proporciona una precisión de vanguardia y conciencia contextual para aplicaciones respaldadas por servidores, mientras que YOLOv9 ofrece una eficiencia excepcional para dispositivos de borde.

Sin embargo, al aprovechar el maduro ecosistema de Ultralytics, los desarrolladores pueden experimentar con ambos sin esfuerzo. Además, con la introducción de modelos más nuevos como YOLO11 y el YOLO26 nativamente end-to-end, encontrar el equilibrio perfecto entre la inferencia de alta velocidad, el soporte versátil de tareas y el bajo consumo de memoria nunca ha sido tan fácil.

Comentarios