Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOX vs RTDETRv2#

Elegir la arquitectura óptima para aplicaciones de visión artificial requiere un cuidadoso equilibrio entre precisión, velocidad de inferencia y viabilidad de implementación. En este análisis técnico exhaustivo, exploramos las diferencias fundamentales entre YOLOX, una arquitectura CNN sin anclas de gran éxito, y RTDETRv2, un transformer de detección en tiempo real de última generación.

Aunque ambos modelos han hecho contribuciones significativas al campo de la detección de objetos, los desarrolladores que crean aplicaciones listas para producción a menudo descubren que alternativas modernas como Ultralytics YOLO26 ofrecen una eficiencia de entrenamiento superior, menores requisitos de memoria y un ecosistema de implementación más robusto.

Link to this sectionYOLOX: Tendiendo un puente entre la investigación y la industria#

YOLOX surgió como una adaptación sin anclas muy popular de la serie YOLO, introduciendo un diseño simplificado que ofreció impresionantes mejoras de rendimiento en el momento de su lanzamiento.

  • Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun
  • Organización: Megvii
  • Fecha: 18 de julio de 2021
  • Enlaces: Arxiv, GitHub, Docs

Link to this sectionInnovaciones arquitectónicas#

YOLOX hizo transitar a la familia YOLO hacia un paradigma sin anclas, integrando una cabeza desacoplada y la avanzada estrategia de asignación de etiquetas SimOTA. Al eliminar las cajas de anclaje, la arquitectura redujo significativamente el número de parámetros de diseño y mejoró la generalización en diversos conjuntos de datos de referencia. Sus versiones ligeras, YOLOX-Nano y YOLOX-Tiny, se convirtieron en opciones populares para implementar IA de visión en dispositivos edge.

Consideraciones sobre modelos heredados

Aunque YOLOX aportó avances notables, su dependencia de pesadas tuberías de aumento y rutinas de post-procesamiento antiguas (como la NMS tradicional) puede conllevar una mayor latencia en comparación con modelos nativamente de extremo a extremo.

Más información sobre YOLOX

Link to this sectionRTDETRv2: Avanzando en los Transformers de visión en tiempo real#

Basándose en los cimientos de su predecesor, RTDETRv2 aprovecha el poder de los Vision Transformers (ViTs) para lograr una precisión altamente competitiva sin sacrificar velocidades de inferencia en tiempo real.

  • Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
  • Organización: Baidu
  • Fecha: 24-07-2024
  • Enlaces: Arxiv, GitHub

Link to this sectionInnovaciones arquitectónicas#

RTDETRv2 reimagina fundamentalmente la tubería de detección mediante la utilización de una arquitectura basada en transformer que evita de forma nativa la supresión no máxima (NMS). Esto se logra a través de un codificador híbrido y una selección de consultas consciente de IoU, lo que mejora la inicialización de las consultas de objetos. El modelo maneja eficazmente características multiescala, lo que le permite capturar detalles intrincados en entornos complejos, como la detección de video de tráfico nocturno.

Sin embargo, los transformers consumen muchos recursos por naturaleza. El entrenamiento de RTDETRv2 generalmente demanda significativamente más memoria de GPU y ciclos de computación que las alternativas basadas en CNN, lo cual puede ser un obstáculo para equipos que operan con presupuestos estrictos o aquellos que requieren un ajuste de modelo frecuente.

Más información sobre RTDETR

Link to this sectionTabla de comparación de rendimiento#

Para evaluar objetivamente estas arquitecturas, examinamos su rendimiento en el conjunto de datos COCO. La siguiente tabla ilustra las compensaciones entre la precisión (mAP), el recuento de parámetros y la complejidad computacional.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Aunque RTDETRv2 logra una precisión impresionante, YOLOX mantiene una ventaja en perfiles de parámetros ligeros, particularmente con sus variantes Nano y Tiny.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre YOLOX y RT-DETR depende de los requisitos específicos de tu proyecto, las limitaciones de implementación y las preferencias de ecosistema.

Link to this sectionCuándo elegir YOLOX#

YOLOX es una opción sólida para:

  • Investigación en detección sin anclas: Investigación académica que utiliza la arquitectura limpia y sin anclas de YOLOX como base para experimentar con nuevas cabeceras de detección o funciones de pérdida.
  • Dispositivos de borde ultraligeros: Despliegue en microcontroladores o hardware móvil antiguo donde la huella extremadamente pequeña de la variante YOLOX-Nano (0.91M de parámetros) es crítica.
  • Estudios de asignación de etiquetas SimOTA: Proyectos de investigación que investigan estrategias de asignación de etiquetas basadas en transporte óptimo y su impacto en la convergencia del entrenamiento.

Link to this sectionCuándo elegir RT-DETR#

RT-DETR se recomienda para:

  • Investigación en detección basada en Transformer: Proyectos que exploran mecanismos de atención y arquitecturas transformer para detección de objetos de extremo a extremo sin NMS.
  • Escenarios de alta precisión con latencia flexible: Aplicaciones donde la precisión de detección es la prioridad máxima y una latencia de inferencia ligeramente mayor es aceptable.
  • Detección de objetos grandes: Escenas con objetos principalmente medianos a grandes donde el mecanismo de atención global de los transformers proporciona una ventaja natural.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionLa ventaja de Ultralytics: YOLO26#

Aunque tanto YOLOX como RTDETRv2 ofrecen puntos fuertes distintos, el recién lanzado Ultralytics YOLO26 redefine el estado del arte en IA de visión, resolviendo las compensaciones históricas entre velocidad, precisión y facilidad de implementación.

Link to this section1. Arquitectura de extremo a extremo sin NMS#

Inspirado en los modelos transformer pero manteniendo la eficiencia de las CNN, YOLO26 presenta un diseño end-to-end sin NMS de forma nativa. Al eliminar la supresión no máxima como paso de post-procesamiento, YOLO26 simplifica drásticamente las tuberías de implementación, garantizando una latencia de inferencia constante en varios dispositivos edge sin la sobrecarga del ajuste complejo de umbrales.

Link to this section2. Inferencia de CPU hasta un 43% más rápida#

A diferencia de arquitecturas transformer como RTDETRv2, que dependen en gran medida de GPUs de gama alta, YOLO26 está específicamente optimizado para entornos de edge computing. Mediante la eliminación de la pérdida focal de distribución (DFL), YOLO26 optimiza la exportación de modelos y logra una inferencia de CPU hasta un 43% más rápida, convirtiéndose en la opción ideal para la integración en hardware como la Raspberry Pi o dispositivos móviles estándar.

Link to this section3. Eficiencia de entrenamiento con MuSGD#

Entrenar modelos transformer a menudo conduce a un consumo de memoria CUDA excesivo y tiempos de entrenamiento prolongados. YOLO26 introduce el novedoso Optimizador MuSGD: un híbrido entre el descenso de gradiente estocástico y el optimizador Muon inspirado en LLM. Esta innovación ofrece un entrenamiento excepcionalmente estable y una convergencia más rápida, lo que reduce significativamente los requisitos de hardware en comparación con RTDETRv2.

Link to this section4. Ecosistema y versatilidad inigualables#

El ecosistema Ultralytics proporciona una experiencia de desarrollador intuitiva y optimizada. Con una documentación extensa, soporte activo de la comunidad y la Plataforma Ultralytics basada en la nube, gestionar el ciclo de vida completo de la IA nunca ha sido tan fácil. Además, YOLO26 es altamente versátil. Mientras que RTDETRv2 se centra en la detección de objetos, YOLO26 admite de forma nativa segmentación de instancias, estimación de poses, clasificación de imágenes y tareas de caja delimitadora orientada (OBB). Mejorado por las nuevas funciones de pérdida ProgLoss + STAL, YOLO26 también destaca en el reconocimiento de objetos pequeños, una característica crítica para imágenes aéreas y detección de defectos industriales.

Otros modelos compatibles

El framework Ultralytics también es compatible con la generación anterior de YOLO11 y YOLOv8, lo que permite a los usuarios comparar y migrar fácilmente tuberías heredadas.

Link to this sectionIntegración perfecta con Ultralytics#

Implementar modelos no debería requerir lidiar con bases de código complejas y fragmentadas. La API de Python de Ultralytics te permite cargar, entrenar y exportar modelos de última generación con solo unas pocas líneas de código.

from ultralytics import YOLO

# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)

Al aprovechar Ultralytics, evitas las configuraciones de entorno complicadas que suelen estar asociadas a los repositorios de investigación, acelerando tu tiempo de comercialización.

Link to this sectionConclusión#

YOLOX y RTDETRv2 representan hitos significativos en la progresión de la detección de objetos en tiempo real. YOLOX demostró la viabilidad de las CNN sin anclas altamente eficientes, mientras que RTDETRv2 adaptó con éxito los transformers a las restricciones de tiempo real.

Sin embargo, para aplicaciones modernas que van desde analítica inteligente en retail hasta robótica integrada, Ultralytics YOLO26 ofrece la solución definitiva. Al fusionar la inferencia sin NMS con velocidades de CPU inigualables, huellas de memoria reducidas y el sólido soporte de la Plataforma Ultralytics, YOLO26 equipa a los desarrolladores para construir la próxima generación de sistemas de visión artificial fiables y de alto rendimiento.

Colaboradores

Comentarios