Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 frente a YOLOv10#

La evolución de la visión artificial ha estado impulsada en gran medida por la búsqueda incesante de un equilibrio entre velocidad y precisión. Tradicionalmente, las canalizaciones de detección de objetos en tiempo real han dependido de la Supresión de No Máximos (NMS) como un paso de posprocesamiento para filtrar los cuadros delimitadores superpuestos. Sin embargo, NMS introduce cuellos de botella de latencia y un complejo ajuste de hiperparámetros. Recientemente, han surgido dos enfoques arquitectónicos distintos para resolver este problema de forma nativa: modelos basados en Transformer como RTDETRv2 y modelos basados en CNN como YOLOv10.

Esta guía proporciona una comparativa técnica exhaustiva de estos dos modelos, analizando sus arquitecturas, métricas de rendimiento y casos de uso ideales, al mismo tiempo que destaca cómo las últimas innovaciones en el ecosistema de Ultralytics ofrecen la solución definitiva para el despliegue moderno.

Link to this sectionRTDETRv2: Transformers de detección en tiempo real#

RTDETRv2 se basa en la arquitectura original de RT-DETR, con el objetivo de combinar la comprensión del contexto global de los Vision Transformers con los requisitos de velocidad en tiempo real tradicionalmente dominados por los modelos YOLO.

Características principales:

Link to this sectionArquitectura y metodologías de entrenamiento#

RTDETRv2 utiliza una arquitectura Transformer de extremo a extremo que evita inherentemente la NMS. Mejora a su predecesor introduciendo un enfoque de "Bag-of-Freebies", optimizando la estrategia de entrenamiento e incorporando capacidades de detección a multiescala. El modelo utiliza una columna vertebral CNN para extraer mapas de características (detalles visuales como bordes y texturas), que luego son procesados por una estructura de codificador-decodificador de Transformer. Esto permite al modelo analizar el contexto de toda la imagen simultáneamente, lo que lo hace muy eficaz para comprender escenas complejas donde los objetos están densamente agrupados o superpuestos.

Link to this sectionPuntos fuertes y debilidades#

Puntos fuertes:

  • Contexto global: El mecanismo de atención permite que el modelo destaque en entornos complejos y desordenados.
  • Sin NMS: Predice directamente las coordenadas de los objetos, simplificando la canalización de despliegue.
  • Alta precisión: Logra una excelente precisión media (mAP) en el conjunto de datos COCO.

Puntos débiles:

  • Intensivo en recursos: Las arquitecturas Transformer suelen requerir significativamente más memoria CUDA durante el entrenamiento en comparación con las CNN, lo que las hace costosas de ajustar en hardware estándar.
  • Variabilidad en la velocidad de inferencia: Aunque es rápido, los pesados cálculos de atención pueden reducir los FPS en visión artificial en dispositivos periféricos que carecen de aceleradores de IA dedicados.

Aprende más sobre RTDETRv2

Link to this sectionYOLOv10: Detección de objetos de extremo a extremo en tiempo real#

YOLOv10 representa un cambio importante en el linaje de detección de objetos YOLO al abordar directamente el cuello de botella de larga data de la NMS dentro de un marco de CNN.

Características principales:

Link to this sectionArquitectura y metodologías de entrenamiento#

La innovación principal de YOLOv10 es su asignación dual consistente para el entrenamiento sin NMS. Emplea dos cabezales de detección durante el entrenamiento: uno con asignación de uno a muchos (como los YOLO tradicionales) para proporcionar señales de supervisión ricas, y otro con asignación de uno a uno para eliminar la necesidad de NMS. Durante la inferencia, solo se utiliza el cabezal de uno a uno, lo que da como resultado un proceso de extremo a extremo. Además, los autores aplicaron una estrategia de diseño de modelo impulsada por la eficiencia y la precisión, optimizando de forma integral varios componentes para reducir la redundancia computacional.

Link to this sectionPuntos fuertes y debilidades#

Puntos fuertes:

  • Velocidad extrema: Al eliminar la NMS y optimizar la arquitectura, YOLOv10 logra una latencia de inferencia increíblemente baja.
  • Eficiencia: Requiere menos parámetros y FLOPs para lograr una precisión comparable a la de otros modelos, lo que lo hace muy adecuado para entornos restringidos.
  • Despliegues sin NMS: Simplifica la integración en aplicaciones periféricas como la vigilancia inteligente.

Puntos débiles:

  • Concepto de primera generación: Como el primer YOLO en implementar esta arquitectura específica sin NMS, sentó las bases, pero dejó espacio para la versatilidad multitarea y la optimización que se observa en modelos posteriores como YOLO11 y YOLO26.

Aprende más sobre YOLOv10

Link to this sectionComparación de rendimiento#

Al evaluar modelos para producción, equilibrar la precisión con el coste computacional es fundamental. La siguiente tabla destaca las compensaciones de rendimiento entre varios tamaños de RTDETRv2 y YOLOv10.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Aunque RTDETRv2 ofrece una precisión robusta, YOLOv10 demuestra una ventaja notable en latencia y eficiencia de parámetros, especialmente en sus variantes más pequeñas (Nano y Small), lo que lo hace muy atractivo para aplicaciones de edge computing y AIoT.

Elegir la escala adecuada

Si realizas el despliegue en GPU de nivel servidor donde el tamaño del lote y la VRAM están menos restringidos, los modelos más grandes (como -x o -l) maximizan la precisión. Para dispositivos periféricos como Raspberry Pi o teléfonos móviles, prioriza las variantes nano (-n) o small (-s) para mantener las velocidades de fotogramas en tiempo real.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre RT-DETR y YOLOv10 depende de los requisitos específicos de tu proyecto, las limitaciones de despliegue y las preferencias de ecosistema.

Link to this sectionCuándo elegir RT-DETR#

RT-DETR es una opción sólida para:

  • Investigación en detección basada en Transformer: Proyectos que exploran mecanismos de atención y arquitecturas transformer para detección de objetos de extremo a extremo sin NMS.
  • Escenarios de alta precisión con latencia flexible: Aplicaciones donde la precisión de detección es la prioridad máxima y una latencia de inferencia ligeramente mayor es aceptable.
  • Detección de objetos grandes: Escenas con objetos principalmente medianos a grandes donde el mecanismo de atención global de los transformers proporciona una ventaja natural.

Link to this sectionCuándo elegir YOLOv10#

YOLOv10 está recomendado para:

  • Detección en tiempo real sin NMS: Aplicaciones que se benefician de una detección integral (end-to-end) sin NMS, lo que reduce la complejidad de la implementación.
  • Equilibrio entre velocidad y precisión: Proyectos que requieren un buen equilibrio entre la velocidad de inferencia y la precisión de detección en varias escalas de modelo.
  • Aplicaciones de latencia constante: Escenarios de despliegue donde los tiempos de inferencia predecibles son críticos, como en robótica o sistemas autónomos.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionLa ventaja de Ultralytics: Presentamos YOLO26#

Aunque tanto RTDETRv2 como YOLOv10 ofrecen avances académicos convincentes, desplegarlos en escenarios del mundo real requiere un ecosistema de software robusto y bien mantenido. La plataforma de Ultralytics proporciona una experiencia de desarrollador inigualable, combinando facilidad de uso, documentación extensa y herramientas potentes para la anotación de datos y el despliegue.

Para los desarrolladores que buscan lo último en tecnología en 2026, Ultralytics YOLO26 es la recomendación definitiva. Sintetiza las mejores ideas de ambas arquitecturas mientras introduce mejoras innovadoras:

  • Diseño sin NMS de extremo a extremo: Basándose en el concepto iniciado por YOLOv10, YOLO26 elimina de forma nativa el posprocesamiento NMS, lo que resulta en una lógica de despliegue más rápida y sencilla y una varianza de latencia cero.
  • Eliminación de DFL: Al eliminar la Distribution Focal Loss, YOLO26 simplifica la exportación del modelo y mejora drásticamente la compatibilidad con dispositivos periféricos y de bajo consumo.
  • Optimizador MuSGD: Un híbrido de SGD y Muon (inspirado en las innovaciones de entrenamiento de LLM), este novedoso optimizador proporciona un entrenamiento más estable y una convergencia significativamente más rápida en comparación con los métodos tradicionales.
  • Inferencia en CPU hasta un 43 % más rápida: Cuidadosamente optimizado para entornos sin GPU dedicadas, democratizando la IA de visión de alto rendimiento.
  • ProgLoss + STAL: Estas funciones de pérdida avanzadas producen mejoras notables en el reconocimiento de objetos pequeños, lo cual es fundamental para aplicaciones que utilizan drones y sensores IoT.
  • Versatilidad inigualable: A diferencia de los modelos limitados a cuadros delimitadores, YOLO26 admite un conjunto completo de tareas que incluyen segmentación de instancias, estimación de poses, clasificación de imágenes y detección OBB, todo ello con mejoras específicas de la tarea, como la Estimación de Probabilidad Logarítmica Residual (RLE) para Pose.

Más información sobre YOLO26

Link to this sectionImplementación fluida con Python#

Entrenar y desplegar estos modelos utilizando la API de Python de Ultralytics está diseñado para no presentar fricciones. Los requisitos de memoria son notablemente menores durante el entrenamiento en comparación con las arquitecturas pesadas en Transformer, lo que te permite entrenar modelos potentes en hardware estándar.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 model (recommended)
# Alternatively, load a YOLOv10 model using YOLO('yolov10n.pt')
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Easily export to various formats for edge deployment
model.export(format="onnx", simplify=True)

Whether you are implementing security alarm systems or conducting medical image analysis, choosing a model backed by the active Ultralytics community ensures you have the tools, hyperparameter tuning guides, and continuous updates needed to succeed. While YOLOv10 and RTDETRv2 paved the way for NMS-free architectures, YOLO26 perfects the formula, offering the best balance of performance, versatility, and production readiness.

Comentarios