Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 frente a YOLO26#

El panorama de la detección de objetos en tiempo real ha evolucionado drásticamente, con investigadores que continuamente superan los límites de velocidad, precisión y eficiencia en la implementación. Dos de las arquitecturas más destacadas que lideran actualmente este avance son RTDETRv2, basada en Transformers, y la red neuronal convolucional (CNN) de última generación, Ultralytics YOLO26. Esta guía ofrece un análisis detallado de sus arquitecturas, métricas de rendimiento y casos de uso ideales para ayudarte a elegir el modelo adecuado para tu próximo proyecto de computer vision.

Link to this sectionRTDETRv2: Transformers de detección en tiempo real#

RTDETRv2 se basa en la arquitectura original RT-DETR y busca combinar la conciencia del contexto global de los Vision Transformers con la velocidad necesaria para aplicaciones en tiempo real.

Características principales:

  • Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
  • Organización: Baidu
  • Fecha: 24-07-2024
  • Enlaces: Arxiv, GitHub, Docs

Link to this sectionArquitectura y puntos fuertes#

A diferencia de los detectores tradicionales basados en anclas, RTDETRv2 aprovecha un enfoque basado en Transformers que elimina de forma nativa la necesidad de Non-Maximum Suppression (NMS) durante el post-procesamiento. Al utilizar un mecanismo de atención flexible, el modelo es altamente eficaz para comprender escenas complejas y objetos superpuestos. Sus mejoras "Bag-of-Freebies" han aumentado significativamente su precisión en el COCO dataset mientras mantiene velocidades de inferencia aceptables en GPUs de gama alta.

Link to this sectionLimitaciones#

Aunque RTDETRv2 logra resultados académicos impresionantes, a menudo presenta desafíos en entornos de producción. Las arquitecturas de Transformers requieren inherentemente un mayor uso de memoria tanto durante el entrenamiento como en la inferencia en comparación con las CNN. Esto puede dificultar la implementación en dispositivos de edge AI con recursos limitados. Además, el entrenamiento de Transformers suele requerir tamaños de lote más grandes y más memoria CUDA, lo que puede ser un cuello de botella para investigadores con hardware limitado.

Aprende más sobre RTDETRv2

Link to this sectionYOLO26: La cúspide de la IA de visión para el borde (Edge)#

Lanzado a principios de 2026, Ultralytics YOLO26 redefine lo que es posible con la detección de objetos basada en CNN. Incorpora optimizaciones de vanguardia diseñadas específicamente para una implementación de producción fluida y una eficiencia de hardware extrema.

Características principales:

  • Autores: Glenn Jocher y Jing Qiu
  • Organización: Ultralytics
  • Fecha: 14 de enero de 2026
  • Enlaces: GitHub, Docs

Link to this sectionAvances arquitectónicos#

YOLO26 introduce varias características revolucionarias que resuelven problemas comunes en la implementación de modelos:

  • Diseño integral sin NMS: Basándose en conceptos iniciados en YOLOv10, YOLO26 es nativamente integral (end-to-end). Al eliminar el post-procesamiento NMS, reduce drásticamente la variabilidad de la latencia, garantizando tiempos de inferencia altamente predecibles en producción.
  • Hasta un 43% más rápido en inferencia de CPU: Gracias a refinamientos arquitectónicos estratégicos y a la eliminación de Distribution Focal Loss (DFL), YOLO26 logra velocidades de CPU sin precedentes, convirtiéndolo en la opción principal para edge computing sin GPUs dedicadas.
  • Optimizador MuSGD: Inspirado en técnicas de entrenamiento de Large Language Models (LLM) como Kimi K2 de Moonshot AI, YOLO26 utiliza el optimizador MuSGD (un híbrido de SGD y Muon). Esto asegura ejecuciones de entrenamiento altamente estables y una convergencia increíblemente rápida.
  • ProgLoss + STAL: Estas funciones de pérdida avanzadas ofrecen mejoras notables en el reconocimiento de objetos pequeños, una actualización esencial para aplicaciones que involucran aerial imagery y vigilancia mediante drones.
Mejoras específicas por tarea en YOLO26

Más allá de la detección estándar, YOLO26 cuenta con mejoras especializadas: pérdida de segmentación semántica y proto multi-escala para segmentation tasks, estimación de verosimilitud residual logarítmica (RLE) para pose estimation, y pérdida de ángulo personalizada para resolver problemas de límites en la detección de Oriented Bounding Box (OBB).

Más información sobre YOLO26

Link to this sectionComparación de rendimiento#

Al evaluar estos modelos, es crucial lograr un equilibrio de rendimiento sólido entre precisión (mAP) y eficiencia computacional. La siguiente tabla demuestra cómo YOLO26 supera sistemáticamente a RTDETRv2 en varias variantes de tamaño.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Como se observa arriba, el modelo YOLO26x alcanza un notable 57.5 mAP, superando significativamente al modelo RTDETRv2-x mientras utiliza menos parámetros y mantiene una velocidad de inferencia TensorRT más rápida. Además, los requisitos de memoria para YOLO26 son notablemente más bajos, lo que lo convierte en la opción óptima para implementaciones de borde en tiempo real.

Link to this sectionEcosistema y facilidad de uso#

Si bien el rendimiento bruto es vital, el ecosistema circundante dicta qué tan rápido se puede pasar un modelo de la investigación a la producción. Aquí es donde la Ultralytics Platform proporciona una ventaja inigualable.

Link to this sectionUn ecosistema unificado y bien mantenido#

RTDETRv2 opera principalmente como un repositorio de nivel de investigación, lo que puede requerir configuraciones de entorno complejas y scripts manuales para tareas personalizadas. Por el contrario, Ultralytics YOLO26 se beneficia de un paquete de Python maduro y ampliamente probado. El ecosistema Ultralytics proporciona una experiencia de usuario increíblemente simplificada, ofreciendo una API sencilla para entrenamiento, validación, predicción y exportación.

Con integraciones integradas para Weights & Biases y Comet ML, el seguimiento de experimentos es fluido. Además, los modelos de Ultralytics son altamente versátiles; mientras que RTDETRv2 se centra en la detección de objetos, YOLO26 admite de forma nativa la segmentación de instancias, la estimación de poses y la clasificación de imágenes dentro del mismo marco.

Link to this sectionEjemplo de código: Simplicidad en acción#

La API de Ultralytics permite a los desarrolladores cargar, entrenar y ejecutar inferencias con solo unas pocas líneas de código. Esto mejora drásticamente la eficiencia del entrenamiento y reduce el tiempo de comercialización.

from ultralytics import RTDETR, YOLO

# Load an RT-DETR model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image seamlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display the YOLO26 results
results_yolo[0].show()

# Export YOLO26 to ONNX format with one click
model_yolo.export(format="onnx")

Link to this sectionCasos de uso y recomendaciones#

Elegir entre RT-DETR y YOLO26 depende de los requisitos específicos de tu proyecto, las restricciones de implementación y las preferencias del ecosistema.

Link to this sectionCuándo elegir RT-DETR#

RT-DETR es una opción sólida para:

  • Investigación en detección basada en Transformer: Proyectos que exploran mecanismos de atención y arquitecturas transformer para detección de objetos de extremo a extremo sin NMS.
  • Escenarios de alta precisión con latencia flexible: Aplicaciones donde la precisión de detección es la prioridad máxima y una latencia de inferencia ligeramente mayor es aceptable.
  • Detección de objetos grandes: Escenas con objetos principalmente medianos a grandes donde el mecanismo de atención global de los transformers proporciona una ventaja natural.

Link to this sectionCuándo elegir YOLO26#

Se recomienda YOLO26 para:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionExplorando otras arquitecturas#

Aunque YOLO26 representa la cúspide actual del rendimiento, los desarrolladores también pueden encontrar valor en explorar iteraciones anteriores. El exitoso YOLO11 sigue siendo un modelo robusto y totalmente compatible para una variedad de sistemas heredados. Puedes profundizar en sus capacidades leyendo nuestra RTDETR vs YOLO11 comparison. Además, si estás analizando arquitecturas más antiguas, echar un vistazo a la EfficientDet vs YOLO26 comparison proporciona un gran contexto histórico sobre cuánto han progresado las object detection architectures.

Link to this sectionReflexiones finales#

Tanto RTDETRv2 como YOLO26 ofrecen avances increíbles en el campo de la IA. Sin embargo, para los equipos que priorizan una transición fluida a la producción, una huella de memoria mínima y una amplia versatilidad de tareas, Ultralytics YOLO26 es la recomendación clara. Su arquitectura sin NMS, sus rápidas velocidades de CPU y el respaldo del robusto ecosistema de Ultralytics garantizan que tus proyectos de IA visual sigan siendo escalables, eficientes y preparados para el futuro. Ya sea que realices la implementación en un servidor en la nube o en un Raspberry Pi con recursos limitados, YOLO26 ofrece un rendimiento sin concesiones desde el primer momento.

Colaboradores

Comentarios