Link to this sectionRTDETRv2 frente a YOLOX#
El panorama de la visión artificial ha evolucionado rápidamente, ofreciendo a desarrolladores e investigadores una amplia gama de arquitecturas para elegir al crear sistemas basados en visión. Dos hitos notables en este camino son el modelo basado en Transformer RTDETRv2 y el basado en CNN YOLOX. Aunque ambos modelos han contribuido significativamente al campo de la detección de objetos en tiempo real, representan enfoques fundamentalmente distintos para resolver problemas de reconocimiento visual.
Esta guía exhaustiva explora los matices arquitectónicos, las métricas de rendimiento y los escenarios de despliegue ideales para ambos modelos. Además, examinaremos cómo las alternativas modernas como el vanguardista Ultralytics YOLO26 se basan en estos cimientos para ofrecer una precisión, eficiencia y facilidad de uso superiores.
Link to this sectionRTDETRv2: Transformers de detección en tiempo real#
Presentado como sucesor del RT-DETR original, RTDETRv2 aprovecha la arquitectura Transformer para lograr una detección de objetos en tiempo real de alto rendimiento. Al eliminar la necesidad de la supresión de no máximos (NMS), simplifica el proceso de inferencia.
- Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
- Organización: Baidu
- Fecha: 24-07-2024
- Enlaces: Artículo de Arxiv, GitHub oficial, Documentación
Link to this sectionArquitectura y diseño#
RTDETRv2 depende en gran medida de los mecanismos de autoatención inherentes a los Transformers, lo que permite al modelo capturar el contexto global en toda una imagen. Esta comprensión holística le permite predecir cuadros delimitadores y probabilidades de clase directamente. Introduce características de detección multiescala que mejoran su capacidad para reconocer objetos pequeños en entornos complejos.
Aunque los Transformers destacan al capturar el contexto global, sus mecanismos de autoatención escalan cuadráticamente con la longitud de la secuencia, lo que a menudo conlleva un consumo de memoria CUDA significativamente mayor durante el entrenamiento en comparación con las CNN tradicionales.
Link to this sectionPuntos fuertes y debilidades#
La principal fortaleza de RTDETRv2 reside en su diseño nativo de extremo a extremo. Al omitir NMS, evita los picos de latencia que a menudo se asocian con predicciones densas y superpuestas. Sin embargo, la gran huella computacional de sus bloques Transformer significa que exige importantes recursos de GPU tanto para el entrenamiento como para el despliegue. Esto lo hace menos ideal para dispositivos de borde con recursos limitados o hardware móvil heredado.
Más información sobre RTDETRv2
Link to this sectionYOLOX: Promoviendo las CNN sin anclas#
Desarrollado para cerrar la brecha entre la investigación académica y la aplicación industrial, YOLOX introdujo una cabeza desacoplada y un diseño sin anclas a la popular familia de modelos YOLO.
- Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun
- Organización: Megvii
- Fecha: 18 de julio de 2021
- Enlaces: Artículo de Arxiv, GitHub oficial, Documentación
Link to this sectionArquitectura y diseño#
YOLOX marca una diferencia respecto a los detectores tradicionales basados en anclas al predecir la ubicación de los objetos directamente sin cuadros delimitadores predefinidos. Esto simplifica el diseño de la red y reduce la cantidad de parámetros de ajuste heurístico necesarios para un rendimiento óptimo. Además, YOLOX emplea una cabeza desacoplada que separa las tareas de clasificación y regresión, lo que mejora la velocidad de convergencia durante el entrenamiento.
Link to this sectionPuntos fuertes y debilidades#
La naturaleza sin anclas de YOLOX lo hace altamente adaptable a diversas tareas de visión artificial y más sencillo de entrenar con conjuntos de datos personalizados. Sus variantes más ligeras, como YOLOX-Nano, son adecuadas para el despliegue en microcontroladores y dispositivos IoT de bajo consumo. Sin embargo, debido a que YOLOX es anterior a la revolución sin NMS, todavía depende del procesamiento posterior tradicional, lo que puede introducir fricción en el despliegue y aumentar la latencia en escenas densas.
Link to this sectionComparación de rendimiento y métricas#
Al comparar estos modelos, evaluar su velocidad, precisión y eficiencia de parámetros es crucial para determinar cuál se ajusta mejor a tu caso de uso específico. La tabla a continuación describe el rendimiento de varios tamaños de modelo en el conjunto de datos estándar COCO.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Como se observa en los datos, RTDETRv2 logra una precisión máxima superior (54,3 mAP) en su variante más grande en comparación con YOLOXx. Sin embargo, YOLOX ofrece variantes significativamente más pequeñas y rápidas, como YOLOXs, que cuenta con un menor número de parámetros y velocidades de inferencia más rápidas en GPUs NVIDIA T4.
Link to this sectionLa ventaja de Ultralytics: llega YOLO26#
Aunque tanto RTDETRv2 como YOLOX ofrecen beneficios únicos, los desarrolladores modernos a menudo requieren una solución unificada que combine lo mejor de ambos mundos: alta precisión, una inferencia increíblemente rápida y un ecosistema accesible. El recién lanzado Ultralytics YOLO26 representa la cúspide de esta evolución.
Link to this sectionInnovaciones clave de YOLO26#
- Diseño de extremo a extremo sin NMS: Basándose en conceptos iniciados en YOLOv10, YOLO26 funciona de forma nativa sin NMS. Esto proporciona la inferencia fluida de RTDETRv2 sin los aplastantes requisitos de memoria de los Transformers.
- Optimizador MuSGD: Inspirado en las innovaciones en el entrenamiento de grandes modelos lingüísticos, el optimizador híbrido MuSGD (que combina SGD y Muon) estabiliza el proceso de entrenamiento y acelera drásticamente la convergencia.
- Inferencia en CPU hasta un 43% más rápida: Al eliminar estratégicamente el módulo de Distribution Focal Loss (DFL), YOLO26 está específicamente optimizado para la computación en el borde y dispositivos de bajo consumo, lo que lo hace sustancialmente más rápido en CPUs que las iteraciones anteriores como YOLO11.
- ProgLoss + STAL: Estas funciones de pérdida avanzadas producen mejoras notables en el reconocimiento de objetos pequeños, abordando un problema común en las imágenes aéreas y aplicaciones de robótica.
Link to this sectionVersatilidad y ecosistema inigualables#
Más allá del rendimiento puro, la plataforma Ultralytics ofrece un ecosistema integral que va desde cero hasta la producción. A diferencia de los repositorios académicos estáticos, los modelos de Ultralytics se mantienen activamente y admiten sin problemas múltiples tareas desde una API única e intuitiva. Tanto si realizas segmentación de instancias, como si sigues poses mediante estimación de pose o manejas objetos rotados con cuadros delimitadores orientados (OBB), el flujo de trabajo sigue siendo idéntico.
Además, los modelos de Ultralytics son famosos por sus bajos requisitos de memoria tanto durante el entrenamiento como en la inferencia, lo que permite a los investigadores ejecutar tamaños de lote mayores en hardware de consumo, un marcado contraste con la gran huella de las arquitecturas basadas en Transformers.
Link to this sectionEjemplo de código de entrenamiento#
El poder del ecosistema de Ultralytics se demuestra mejor a través de su simplicidad. Entrenar un modelo YOLO26 de última generación requiere solo unas pocas líneas de código, abstrayendo por completo las complejidades de la carga de datos y la configuración de hiperparámetros.
from ultralytics import YOLO
# Initialize the natively NMS-free YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16)
# Validate the model's performance seamlessly
metrics = model.val()
print(f"Validation mAP: {metrics.box.map}")
# Export to ONNX or TensorRT for rapid deployment
model.export(format="engine", device=0)Link to this sectionAplicaciones del mundo real y casos de uso ideales#
Elegir la arquitectura correcta depende enteramente de tus restricciones de despliegue y de la disponibilidad de hardware.
Link to this sectionProcesamiento en la nube de alta fidelidad#
Si tu aplicación se ejecuta en GPUs de servidor de alta gama y prioriza la máxima precisión, como al analizar escenas con grandes multitudes o procesar imágenes médicas de alta resolución, los robustos mecanismos de atención de RTDETRv2 pueden ser altamente efectivos.
Link to this sectionImplementación en borde heredado (Legacy Edge)#
Para despliegues en teléfonos móviles antiguos o microcontroladores altamente restringidos donde un mínimo de FLOPs es una necesidad estricta, el ultraligero YOLOX-Nano sigue sirviendo como una alternativa viable, debido a su sencilla arquitectura CNN.
Link to this sectionEl estándar moderno: AIoT y robótica#
Para la gran mayoría de los casos de uso modernos, que abarcan infraestructura de ciudades inteligentes, analítica minorista y navegación autónoma, Ultralytics YOLO26 es la opción definitiva. Su inferencia en CPU un 43% más rápida lo hace incomparable para la computación en el borde, mientras que su diseño sin NMS garantiza una latencia baja y constante. Cuando se combina con la documentación exhaustiva y el soporte activo de la comunidad del ecosistema de Ultralytics, permite a los equipos pasar de la anotación de conjuntos de datos al despliegue global más rápido que nunca.
¿Listo para elevar tus proyectos de visión artificial? Explora las capacidades integrales de la plataforma Ultralytics para gestionar datos sin esfuerzo, entrenar modelos en la nube y desplegar aplicaciones inteligentes a escala.
Para los desarrolladores que buscan explorar otras arquitecturas dentro del ecosistema de Ultralytics, también puedes considerar echar un vistazo a YOLOv8 para integraciones comunitarias profundamente establecidas o YOLOv5 para una estabilidad inigualable en tuberías heredadas. Sin embargo, para superar los límites de lo posible en 2026, YOLO26 sigue siendo el estándar de la industria.