YOLOv10 vs. RTDETRv2: Evaluación de detectores de objetos de extremo a extremo en tiempo real
El panorama de la visión artificial evoluciona a un ritmo vertiginoso, con nuevas arquitecturas que redefinen constantemente el estado del arte en la detección de objetos en tiempo real. Dos hitos significativos en esta evolución son YOLOv10 y RTDETRv2. Ambos modelos buscan resolver un cuello de botella fundamental en los conductos de detección tradicionales al eliminar la necesidad de posprocesamiento de supresión no máxima (NMS), aunque abordan este desafío desde paradigmas arquitectónicos totalmente diferentes.
Esta comparativa técnica proporciona un análisis profundo de sus arquitecturas, metodologías de entrenamiento y escenarios de implementación ideales para ayudar a desarrolladores e investigadores a elegir la herramienta adecuada para su próximo proyecto de IA de visión.
YOLOv10: El pionero sin NMS
Desarrollado por investigadores de la Universidad de Tsinghua, YOLOv10 se centra en gran medida en la eficiencia arquitectónica y la eliminación de los cuellos de botella del posprocesamiento. Al introducir asignaciones duales consistentes para el entrenamiento sin NMS, logra un rendimiento competitivo a la vez que reduce significativamente la latencia de inferencia.
Especificaciones técnicas
- Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organización: Universidad de Tsinghua
- Fecha: 2024-05-23
- ArXiv: Artículo sobre YOLOv10
- GitHub: THU-MIG/yolov10
- Documentación: Documentación de YOLOv10
Arquitectura y metodologías
El principal avance de YOLOv10 es su diseño de modelo basado en una eficiencia y precisión holísticas. Optimiza varios componentes desde ambas perspectivas, reduciendo enormemente la sobrecarga computacional. La estrategia de asignaciones duales consistentes permite al modelo entrenarse sin depender de NMS, lo que se traduce en un conducto de despliegue simplificado de extremo a extremo. Esto es especialmente beneficioso cuando se exportan modelos a formatos de borde como ONNX o TensorRT, donde las operaciones de posprocesamiento pueden introducir una latencia inesperada.
Fortalezas y debilidades
El modelo cuenta con unas compensaciones excepcionales entre velocidad y precisión, especialmente en las variantes más pequeñas (N y S). Su latencia mínima lo hace ideal para entornos de borde de alta velocidad. Sin embargo, aunque YOLOv10 destaca en la velocidad bruta de detección, sigue siendo un modelo especializado únicamente en detección. Los equipos que requieran segmentación de instancias o estimación de poses deberán buscar marcos más versátiles.
RTDETRv2: Refinando el Transformer de detección
Basándose en el Real-Time Detection Transformer original, RTDETRv2 incorpora una "bolsa de obsequios" (bag of freebies) para mejorar su línea base, demostrando que los modelos Transformer pueden competir con las CNN en escenarios en tiempo real.
Especificaciones técnicas
- Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
- Organización: Baidu
- Fecha: 24-07-2024
- ArXiv: Artículo sobre RTDETRv2
- GitHub: lyuwenyu/RT-DETR
- Documentación: Documentación de RTDETRv2
Arquitectura y metodologías
RTDETRv2 utiliza una arquitectura híbrida que combina una red neuronal convolucional (CNN) como columna vertebral para la extracción de características visuales con un codificador-decodificador Transformer para una comprensión integral de la escena. El mecanismo de autoatención del Transformer permite al modelo visualizar la imagen de forma global, lo que lo hace altamente eficaz a la hora de gestionar escenas complejas, objetos superpuestos y multitudes densas.
Fortalezas y debilidades
La arquitectura Transformer ofrece una precisión excelente, especialmente en escalas de parámetros mayores, y genera de forma nativa detecciones finales sin NMS. Sin embargo, esto tiene un coste. Los modelos Transformer requieren tradicionalmente mucha más memoria CUDA durante el entrenamiento y pueden tardar más en converger en comparación con las arquitecturas CNN puras. Aunque RTDETRv2 ha mejorado las velocidades de inferencia, generalmente consume más memoria que las variantes ligeras de YOLO.
Más información sobre RTDETRv2
Comparación de rendimiento
Evaluar las métricas de rendimiento proporciona una imagen más clara de dónde destaca cada modelo. La siguiente tabla destaca sus capacidades en el conjunto de datos COCO:
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Al analizar los datos, YOLOv10 mantiene una ventaja estricta en la eficiencia de los parámetros y en la velocidad de inferencia de TensorRT en tamaños comparables. RTDETRv2-x iguala al enorme YOLOv10x en precisión, pero requiere casi 20 millones de parámetros más y una cantidad de FLOPs significativamente mayor.
Casos de uso y recomendaciones
Elegir entre YOLOv10 y RT-DETR depende de los requisitos específicos de tu proyecto, las restricciones de implementación y tus preferencias de ecosistema.
Cuándo elegir YOLOv10
YOLOv10 es una opción sólida para:
- Detección en tiempo real sin NMS: Aplicaciones que se benefician de la detección de extremo a extremo sin supresión de no máximos, reduciendo la complejidad del despliegue.
- Compensaciones equilibradas entre velocidad y precisión: Proyectos que requieren un sólido equilibrio entre la velocidad de inferencia y la precisión de detección a través de varias escalas de modelo.
- Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.
Cuándo elegir RT-DETR
RT-DETR se recomienda para:
- Investigación en detección basada en Transformer: Proyectos que exploran mecanismos de atención y arquitecturas Transformer para la detección de objetos de extremo a extremo sin NMS.
- Escenarios de alta precisión con latencia flexible: Aplicaciones donde la precisión de detección es la máxima prioridad y se puede aceptar una latencia de inferencia ligeramente superior.
- Detección de objetos grandes: Escenas con objetos principalmente medianos y grandes donde el mecanismo de atención global de los Transformers proporciona una ventaja natural.
Cuándo elegir Ultralytics (YOLO26)
Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia para el desarrollador:
- Despliegue en borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de la supresión de no máximos.
- Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
- Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.
La ventaja de Ultralytics: ecosistema e innovación
Aunque YOLOv10 y RTDETRv2 ofrecen capacidades de detección robustas, la elección de un modelo suele depender del ecosistema de software que lo rodea. La Plataforma Ultralytics proporciona una interfaz unificada y fluida que abstrae las complejidades del aprendizaje profundo.
El nuevo estándar: Ultralytics YOLO26
Para los desarrolladores que buscan el mejor rendimiento absoluto, Ultralytics YOLO26 representa la culminación de los avances arquitectónicos recientes. Lanzado a principios de 2026, YOLO26 hereda el diseño de extremo a extremo sin NMS iniciado por YOLOv10, eliminando por completo el posprocesamiento de NMS para una implementación más rápida y sencilla.
YOLO26 aporta innovaciones en el entrenamiento de LLM a la visión artificial a través del optimizador MuSGD (un híbrido de SGD y Muon), lo que resulta en un entrenamiento más estable y una convergencia más rápida. También cuenta con una inferencia en CPU hasta un 43 % más rápida, lo que lo convierte en la mejor opción para la informática de borde.
Además, YOLO26 introduce ProgLoss + STAL para mejorar notablemente el reconocimiento de objetos pequeños y, a diferencia del especializado YOLOv10, ofrece una versatilidad extrema. Admite de forma nativa detección de objetos, segmentación, poses y cuadros delimitadores orientados (OBB) con mejoras específicas para cada tarea, como la pérdida de segmentación semántica y la estimación residual de log-verosimilitud (RLE) para la estimación de poses. Además, la eliminación de la pérdida focal de distribución (DFL) garantiza una exportación simplificada y una mejor compatibilidad con dispositivos de baja potencia.
Facilidad de uso y eficiencia de entrenamiento
Tanto si experimentas con modelos de generaciones anteriores como Ultralytics YOLO11 o con el vanguardista YOLO26, la API de Python optimizada garantiza un menor uso de memoria durante el entrenamiento y flujos de trabajo extremadamente rápidos.
from ultralytics import RTDETR, YOLO
# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")El ecosistema bien mantenido proporciona herramientas para un fácil ajuste de hiperparámetros y se integra a la perfección con amplias soluciones de seguimiento y opciones de implementación de modelos.
Conclusión
Tanto YOLOv10 como RTDETRv2 representan hitos formidables en la búsqueda de la detección de objetos sin NMS. RTDETRv2 demuestra que los modelos Transformer pueden alcanzar una latencia en tiempo real con una excelente comprensión del contexto global, aunque con mayores requisitos de memoria. YOLOv10 proporciona una alternativa CNN muy eficiente y rápida adaptada a tareas de detección con recursos limitados.
Sin embargo, para obtener un rendimiento equilibrado, versatilidad multitarea y el ecosistema más maduro, animamos encarecidamente a los desarrolladores a aprovechar Ultralytics YOLO26. Combina a la perfección las innovaciones arquitectónicas de sus predecesores con las herramientas robustas y fáciles de usar que hacen que implementar IA de visión sea una realidad fluida.