Link to this sectionYOLOv10 frente a RTDETRv2: Evaluando detectores de objetos de extremo a extremo en tiempo real#
El panorama de la visión artificial avanza a un ritmo vertiginoso, con nuevas arquitecturas que redefinen constantemente el estado del arte en la detección de objetos en tiempo real. Dos hitos significativos en esta evolución son YOLOv10 y RTDETRv2. Ambos modelos aspiran a resolver un cuello de botella fundamental en los flujos de trabajo de detección tradicionales eliminando la necesidad de posprocesamiento mediante la supresión no máxima (NMS), aunque abordan este desafío desde paradigmas arquitectónicos completamente diferentes.
Esta comparación técnica ofrece un análisis exhaustivo de sus arquitecturas, metodologías de entrenamiento y escenarios de despliegue ideales para ayudar a desarrolladores e investigadores a elegir la herramienta adecuada para su próximo proyecto de IA de visión.
Link to this sectionYOLOv10: El pionero sin NMS#
Desarrollado por investigadores de la Universidad de Tsinghua, YOLOv10 se centra intensamente en la eficiencia arquitectónica y en la eliminación de los cuellos de botella del posprocesamiento. Al introducir asignaciones duales consistentes para el entrenamiento sin NMS, logra un rendimiento competitivo a la vez que reduce significativamente la latencia de inferencia.
Link to this sectionEspecificaciones técnicas#
- Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
- Organización: Universidad de Tsinghua
- Fecha: 23-05-2024
- ArXiv: Documento sobre YOLOv10
- GitHub: THU-MIG/yolov10
- Documentación: Documentación de YOLOv10
Link to this sectionArquitectura y metodologías#
El avance principal de YOLOv10 es su diseño de modelo integral impulsado por la eficiencia y la precisión. Optimiza diversos componentes desde ambas perspectivas, lo que reduce en gran medida la carga computacional. La estrategia de asignaciones duales consistentes permite que el modelo se entrene sin depender de NMS, lo que se traduce en un flujo de trabajo de despliegue de extremo a extremo optimizado. Esto resulta especialmente beneficioso al exportar modelos a formatos para el borde como ONNX o TensorRT, donde las operaciones de posprocesamiento pueden introducir una latencia inesperada.
Link to this sectionPuntos fuertes y debilidades#
El modelo presume de excelentes equilibrios entre velocidad y precisión, especialmente en las variantes más pequeñas (N y S). Su latencia mínima lo hace ideal para entornos de borde de alta velocidad. Sin embargo, aunque YOLOv10 destaca en la velocidad de detección bruta, sigue siendo un modelo especializado únicamente en detección. Los equipos que requieran segmentación de instancias o estimación de pose deberán buscar marcos de trabajo más versátiles.
Link to this sectionRTDETRv2: Perfeccionando el Transformer de detección#
Sobre la base del Real-Time Detection Transformer original, RTDETRv2 incorpora un "conjunto de mejoras gratuitas" para perfeccionar su línea base, demostrando que los Transformers pueden competir con las CNN en escenarios de tiempo real.
Link to this sectionEspecificaciones técnicas#
- Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
- Organización: Baidu
- Fecha: 24-07-2024
- ArXiv: Documento sobre RTDETRv2
- GitHub: lyuwenyu/RT-DETR
- Documentación: Documentación de RTDETRv2
Link to this sectionArquitectura y metodologías#
RTDETRv2 utiliza una arquitectura híbrida, combinando una red neuronal convolucional (CNN) como columna vertebral para la extracción de características visuales con un codificador-decodificador basado en Transformer para una comprensión integral de la escena. El mecanismo de autoatención del Transformer permite que el modelo visualice la imagen de forma global, lo que lo hace altamente eficaz para gestionar escenas complejas, objetos superpuestos y multitudes densas.
Link to this sectionPuntos fuertes y debilidades#
La arquitectura del Transformer ofrece una precisión excelente, particularmente en escalas de parámetros mayores, y genera detecciones finales de forma nativa sin NMS. Sin embargo, esto tiene un precio. Los modelos Transformer requieren tradicionalmente mucha más memoria CUDA durante el entrenamiento y pueden tardar más en converger en comparación con las arquitecturas CNN puras. Aunque RTDETRv2 ha mejorado las velocidades de inferencia, generalmente consume más memoria que las variantes ligeras de YOLO.
Más información sobre RTDETRv2
Link to this sectionComparación de rendimiento#
Evaluar las métricas de rendimiento proporciona una imagen más clara de dónde destaca cada modelo. La siguiente tabla destaca sus capacidades en el conjunto de datos COCO:
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Al analizar los datos, YOLOv10 mantiene una ventaja estricta en eficiencia de parámetros y velocidad de inferencia en TensorRT en tamaños comparables. RTDETRv2-x iguala al masivo YOLOv10x en precisión, pero requiere casi 20 millones de parámetros más y una cantidad de FLOPs significativamente mayor.
Link to this sectionCasos de uso y recomendaciones#
Elegir entre YOLOv10 y RT-DETR depende de los requisitos específicos de tu proyecto, las restricciones de despliegue y tus preferencias de ecosistema.
Link to this sectionCuándo elegir YOLOv10#
YOLOv10 es una opción sólida para:
- Detección en tiempo real sin NMS: Aplicaciones que se benefician de una detección integral (end-to-end) sin NMS, lo que reduce la complejidad de la implementación.
- Equilibrio entre velocidad y precisión: Proyectos que requieren un buen equilibrio entre la velocidad de inferencia y la precisión de detección en varias escalas de modelo.
- Aplicaciones de latencia constante: Escenarios de despliegue donde los tiempos de inferencia predecibles son críticos, como en robótica o sistemas autónomos.
Link to this sectionCuándo elegir RT-DETR#
RT-DETR se recomienda para:
- Investigación en detección basada en Transformer: Proyectos que exploran mecanismos de atención y arquitecturas transformer para detección de objetos de extremo a extremo sin NMS.
- Escenarios de alta precisión con latencia flexible: Aplicaciones donde la precisión de detección es la prioridad máxima y una latencia de inferencia ligeramente mayor es aceptable.
- Detección de objetos grandes: Escenas con objetos principalmente medianos a grandes donde el mecanismo de atención global de los transformers proporciona una ventaja natural.
Link to this sectionCuándo elegir Ultralytics (YOLO26)#
Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:
- Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
- Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
- Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.
Link to this sectionLa ventaja de Ultralytics: Ecosistema e innovación#
Si bien YOLOv10 y RTDETRv2 ofrecen capacidades de detección robustas, elegir un modelo a menudo depende del ecosistema de software que lo rodea. La Plataforma Ultralytics proporciona una interfaz unificada y fluida que abstrae las complejidades del aprendizaje profundo.
Link to this sectionEl nuevo estándar: Ultralytics YOLO26#
Para los desarrolladores que buscan el mejor rendimiento absoluto, Ultralytics YOLO26 representa la culminación de los avances arquitectónicos recientes. Lanzado a principios de 2026, YOLO26 hereda el diseño de extremo a extremo sin NMS iniciado por YOLOv10, eliminando por completo el posprocesamiento NMS para un despliegue más rápido y sencillo.
YOLO26 aporta innovaciones en el entrenamiento de LLM a la visión artificial mediante el optimizador MuSGD (un híbrido de SGD y Muon), lo que resulta en un entrenamiento más estable y una convergencia más rápida. Además, cuenta con hasta un 43% de inferencia en CPU más rápida, lo que la convierte en la opción principal para la informática de borde.
Además, YOLO26 introduce ProgLoss + STAL para mejoras notables en el reconocimiento de objetos pequeños y, a diferencia del especializado YOLOv10, ofrece una versatilidad extrema. Admite de forma nativa la detección de objetos, segmentación, pose y cajas delimitadoras orientadas (OBB) con mejoras específicas de la tarea como la pérdida de segmentación semántica y la estimación de log-verosimilitud residual (RLE) para pose. Además, la eliminación de la Distribution Focal Loss (DFL) garantiza una exportación simplificada y una mejor compatibilidad con dispositivos de bajo consumo.
Link to this sectionFacilidad de uso y eficiencia de entrenamiento#
Tanto si experimentas con modelos de generaciones anteriores como Ultralytics YOLO11 o con el vanguardista YOLO26, la API de Python optimizada garantiza un menor uso de memoria durante el entrenamiento y flujos de trabajo extremadamente rápidos.
from ultralytics import RTDETR, YOLO
# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")El ecosistema bien mantenido proporciona herramientas para un fácil ajuste de hiperparámetros y se integra perfectamente con exhaustivas soluciones de seguimiento y opciones de despliegue de modelos.
Link to this sectionConclusión#
Tanto YOLOv10 como RTDETRv2 representan hitos formidables en la búsqueda de la detección de objetos sin NMS. RTDETRv2 demuestra que los Transformers pueden lograr una latencia en tiempo real con una excelente comprensión del contexto global, aunque con mayores requisitos de memoria. YOLOv10 proporciona una alternativa CNN altamente eficiente y rápida, adaptada a tareas de detección con recursos limitados.
Sin embargo, para obtener un rendimiento equilibrado, versatilidad multitarea y el ecosistema más maduro, se recomienda encarecidamente a los desarrolladores que aprovechen Ultralytics YOLO26. Combina maravillosamente las innovaciones arquitectónicas de sus predecesores con las herramientas robustas y fáciles de usar que hacen del despliegue de la IA de visión una realidad fluida.