YOLOX frente a RTDETRv2: Comparación técnica para la detección de objetos
En el panorama en rápida evolución de la visión por ordenador, la selección de la arquitectura adecuada para su proyecto a menudo implica navegar por un complejo equilibrio entre la velocidad de inferencia, la precisión y la eficiencia de los recursos computacionales. Esta comparativa explora dos enfoques distintos de la detección de objetos: YOLOX, una CNN sin anclajes de alto rendimiento, y RTDETRv2, un transformador de detección en tiempo real de última generación.
Mientras que YOLOX representó un cambio significativo hacia metodologías sin anclajes en la familia YOLO , RTDETRv2 aprovecha la potencia de los transformadores de visión (ViT) para captar el contexto global, desafiando a las redes neuronales convolucionales (CNN) tradicionales. Esta guía analiza sus arquitecturas, métricas de rendimiento y casos de uso ideales para ayudarle a tomar una decisión informada.
Análisis de rendimiento: Velocidad vs. Precisión
Las métricas de rendimiento que se muestran a continuación ilustran las filosofías de diseño fundamentales de estos dos modelos. RTDETRv2 suele lograr una mayor precisión media (mAP ) utilizando mecanismos de atención para comprender escenas complejas. Sin embargo, esta precisión suele ir acompañada de un mayor coste computacional. YOLOX, especialmente en sus variantes más pequeñas, da prioridad a la baja latencia de inferencia y a la ejecución eficiente en hardware estándar.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Como se muestra en la tabla, RTDETRv2-x alcanza la mayor precisión con un mAP de 54,3, superando a la variante YOLOX de mayor tamaño. Por el contrario, YOLOX-s demuestra una velocidad superior en hardware de GPU , lo que lo hace muy eficaz para aplicaciones sensibles a la latencia.
YOLOX: Eficiencia sin anclajes
YOLOX perfecciona la serie YOLO cambiando a un mecanismo sin anclajes y desacoplando el cabezal de detección. Al eliminar la necesidad de cajas de anclaje predefinidas, YOLOX simplifica el proceso de formación y mejora la generalización entre diferentes formas de objetos.
Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun
Organización:Megvii
Fecha: 2021-07-18
Arxiv:YOLOX: Superación de la serie YOLO en 2021
Puntos fuertes
- Diseño sin anclajes: Elimina el ajuste manual de los hiperparámetros de anclaje, lo que reduce la complejidad del diseño.
- Cabezal desacoplado: separa las tareas de clasificación y regresión, lo que ayuda a que el modelo converja más rápido y logre una mayor precisión.
- SimOTA: Una estrategia avanzada de asignación de etiquetas que asigna dinámicamente muestras positivas, mejorando la estabilidad del entrenamiento.
Debilidades
- Arquitectura anticuada: Lanzada en 2021, carece de algunas de las optimizaciones modernas que se encuentran en iteraciones más recientes como YOLO11.
- Tareas limitadas: Centrada principalmente en la detección, carece de soporte nativo para la segmentación o la estimación de la pose dentro del mismo marco.
RTDETRv2: El motor transformador
RTDETRv2 (Real-Time Detection Transformer versión 2) representa un salto en la aplicación de arquitecturas Transformer a la detección de objetos en tiempo real. Aborda el elevado coste computacional que suele asociarse a los Transformers introduciendo un codificador híbrido eficiente.
Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
Organización:Baidu
Fecha: 2023-04-17 (v1), 2024-07 (v2)
Arxiv:RT-DETRv2: Línea de base mejorada con Bag-of-Freebies
Puntos fuertes
- Contexto global: El mecanismo de autoatención permite al modelo comprender las relaciones entre objetos distantes en una imagen, reduciendo los falsos positivos en escenas complejas.
- Alta precisión: Obtiene sistemáticamente puntuaciones mAP más altas que los modelos basados en CNN de escala similar.
- No requiere NMS : La arquitectura del transformador elimina de forma natural las detecciones duplicadas, eliminando la necesidad de postprocesamiento de Supresión No Máxima (NMS).
Debilidades
- Intensidad de memoria: Requiere mucha más VRAM de GPU durante el entrenamiento en comparación con las CNN, lo que dificulta el entrenamiento en hardware de consumo.
- Latencia deCPU : Aunque están optimizadas para GPU, las operaciones de Transformer pueden ser más lentas en dispositivos de borde que CPU en comparación con CNN ligeras como YOLOX-Nano.
Más información sobre RTDETRv2
Casos de Uso Ideales
La elección entre estos modelos depende a menudo de las limitaciones específicas del entorno de implantación.
- Elija YOLOX si: Está desplegando en dispositivos de borde con recursos limitados como la Raspberry Pi o teléfonos móviles donde cada milisegundo de latencia cuenta. También es excelente para líneas de inspección industrial en las que los objetos son rígidos y predecibles.
- Elija RTDETRv2 si: Tienes acceso a GPU potentes (como NVIDIA T4 o A100) y la precisión es primordial. Destaca en escenas abarrotadas, conducción autónoma o vigilancia aérea, donde el contexto y las relaciones entre objetos son fundamentales.
Optimización de la implantación
Independientemente del modelo elegido, la utilización de marcos de optimización como TensorRT o OpenVINO es esencial para alcanzar velocidades en tiempo real en entornos de producción. Ambos modelos se benefician significativamente de la cuantización a FP16 o INT8.
Por qué los modelosYOLO Ultralytics son la mejor opción
Aunque YOLOX y RTDETRv2 son impresionantes, el ecosistemaYOLO Ultralytics , encabezado por YOLO11ofrece una solución más holística para desarrolladores e investigadores. Ultralytics prioriza la experiencia del usuario, garantizando que la IA de última generación sea accesible, eficiente y versátil.
1. Versatilidad y ecosistema incomparables
A diferencia de YOLOX, que es principalmente un modelo de detección, Ultralytics YOLO11 admite de forma nativa una amplia gama de tareas de visión por ordenador, como la segmentación de instancias, la estimación de poses, la clasificación y la detección de cajas delimitadoras orientadas (OBB). Esto le permite resolver múltiples problemas con una sola API unificada.
2. Facilidad de uso y mantenimiento
El paquete Ultralytics simplifica el complejo mundo de MLOps. Con un código base bien mantenido, actualizaciones frecuentes y una amplia documentación, los usuarios pueden pasar de la instalación a la formación en cuestión de minutos.
from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Train the model on a custom dataset
train_results = model.train(
data="coco8.yaml", # path to dataset YAML
epochs=100, # number of training epochs
imgsz=640, # training image size
device="cpu", # device to run on, i.e. device=0 or device=0,1,2,3 or device="cpu"
)
# Evaluate model performance on the validation set
metrics = model.val()
3. Eficacia del entrenamiento y huella de memoria
Una de las principales ventajas de los modelosYOLO Ultralytics es su eficiencia. Se sabe que los modelos basados en transformadores, como RTDETRv2, consumen muchos datos y memoria, por lo que suelen requerir GPUs de gama alta con VRAM masiva para su entrenamiento. Por el contrario, los modelosYOLO Ultralytics están optimizados para entrenarse con eficacia en una amplia gama de hardware, incluidas las GPU de consumo, utilizando menos memoria CUDA . Esta eficiencia de entrenamiento democratiza el acceso a la IA de alto rendimiento.
4. Balance de resultados
Los modelos Ultralytics están diseñados para alcanzar el "punto óptimo" entre velocidad y precisión. Para la mayoría de las aplicaciones del mundo real -desde análisis de comercios minoristas hasta supervisión de la seguridad-, YOLO11 ofrece una precisión comparable a la de Transformers, al tiempo que mantiene la rapidísima velocidad de inferencia necesaria para las transmisiones de vídeo en directo.
Conclusión
Tanto YOLOX como RTDETRv2 han contribuido significativamente al campo de la visión por ordenador. YOLOX sigue siendo una opción sólida para sistemas integrados heredados con restricciones estrictas, mientras que RTDETRv2 amplía los límites de la precisión para el hardware de gama alta.
Sin embargo, para la mayoría de los desarrolladores que buscan una solución preparada para el futuro, versátil y fácil de usar, Ultralytics YOLO11 es la mejor opción. Su combinación de bajos requisitos de memoria, amplio soporte de tareas y una próspera comunidad garantiza que su proyecto se construya sobre una base de fiabilidad y rendimiento.
Explorar otras comparaciones
Para afinar aún más su selección de modelos, considere la posibilidad de explorar estas comparaciones técnicas relacionadas:
- YOLO11 vs. YOLOv10
- RT-DETR vs. YOLOv8
- YOLO11 vs. EfficientDet
- YOLOv8 vs. YOLOX
- YOLO11 frente a MobileNet SSD