Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv7 vs RTDETRv2: Una comparativa técnica para la detección de objetos en tiempo real#

El panorama de la visión artificial sigue evolucionando rápidamente, fuertemente influenciado por la competencia entre las Redes Neuronales Convolucionales (CNNs) y los Vision Transformers (ViTs). Esta comparativa técnica analiza dos arquitecturas de gran calibre: YOLOv7, un detector de objetos basado en CNN altamente optimizado, y RTDETRv2, un Transformer de detección en tiempo real de última generación.

Al analizar sus diferencias arquitectónicas, métricas de rendimiento y escenarios ideales de despliegue, los desarrolladores pueden tomar decisiones informadas al integrar estos modelos de IA visual en sus flujos de trabajo de producción.

Link to this sectionYOLOv7: La arquitectura CNN con «bolsa de regalos» (bag-of-freebies)#

YOLOv7 introdujo varias optimizaciones estructurales que cambiaron el paradigma de la familia YOLO tradicional, superando los límites de la detección de objetos en tiempo real mediante una serie de «bolsas de regalos entrenables».

Características clave: Autores: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Organización: Institute of Information Science, Academia Sinica
Fecha: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: WongKinYiu/yolov7

Link to this sectionArquitectura y puntos fuertes#

YOLOv7 destaca por su arquitectura E-ELAN (Extended Efficient Layer Aggregation Network). Este diseño estructural permite al modelo aprender características más diversas sin destruir la ruta original del gradiente. Además, incorpora convoluciones re-parametrizadas planificadas, las cuales optimizan la velocidad de inferencia sin degradar la precisión. Su enfoque de «bolsa de regalos» entrenable le permite lograr compromisos impresionantes entre velocidad y precisión, haciéndolo muy adecuado para tareas de detección de objetos en tiempo real en GPUs de clase servidor.

YOLOv7 también es muy versátil. Más allá de la detección estándar de cajas delimitadoras (bounding boxes), el repositorio ofrece ramas para estimación de poses y segmentación de instancias, demostrando su adaptabilidad.

Link to this sectionLimitaciones#

Como muchos modelos CNN heredados, YOLOv7 depende de la Supresión de No Máximos (NMS) para el post-procesamiento. El NMS introduce una latencia variable, especialmente en escenas concurridas, lo que puede complicar las garantías estrictas de tiempo real en dispositivos de borde (edge devices).

Más información sobre YOLOv7

Link to this sectionRTDETRv2: Avanzando con los Transformers en tiempo real#

RTDETRv2 se basa en el framework RT-DETR original, demostrando aún más que los transformers pueden competir con las arquitecturas YOLO en latencia de tiempo real manteniendo una alta precisión espacial.

Características clave: Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
Organización: Baidu
Fecha: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

Link to this sectionArquitectura y puntos fuertes#

RTDETRv2 representa un paso significativo para los Vision Transformers. Aprovecha un proceso de selección de consultas flexible y un codificador híbrido eficiente para procesar características multiescala rápidamente. Al introducir una nueva «bolsa de regalos» diseñada específicamente para los Detection Transformers (DETRs), lleva el razonamiento espacial al límite. Dado que es nativamente libre de NMS, proporciona tiempos de inferencia deterministas, una característica crítica para aplicaciones rigurosas de ciudades inteligentes y conducción autónoma.

Link to this sectionLimitaciones#

A pesar de sus avances, RTDETRv2 conlleva las cargas tradicionales de las arquitecturas basadas en transformers. Exige una memoria CUDA significativamente mayor durante el entrenamiento y la inferencia en comparación con las CNNs. Además, sus tiempos de convergencia en el entrenamiento son notablemente más largos, lo que requiere grandes cantidades de datos anotados de alta calidad (como el dataset COCO) y pesados recursos computacionales.

Aprende más sobre RTDETRv2

Link to this sectionComparación de rendimiento#

Al realizar pruebas comparativas de estos modelos, debemos observar un panorama integral que abarque la precisión, la velocidad de inferencia en bruto y la huella computacional. A continuación se muestra una tabla comparativa directa.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
Interpretación de las pruebas comparativas

Si bien RTDETRv2-x reclama el mAPval más alto absoluto con un 54.3%, requiere unos masivos 259 mil millones de FLOPs. Por el contrario, las arquitecturas YOLOv7 ofrecen una base excelente pero sufren de la sobrecarga del NMS heredado, la cual no se captura completamente en las métricas de latencia de red pura.

Link to this sectionLa ventaja de Ultralytics: Ecosistema y evolución#

Aunque YOLOv7 y RTDETRv2 ofrecen capacidades robustas, desplegarlos en entornos de producción a menudo revela fricciones logísticas. Aquí es donde destaca el ecosistema Ultralytics. Diseñado para una integración perfecta de extremo a extremo, el framework de Ultralytics proporciona a los desarrolladores una API unificada que abstrae las complejidades típicas de los pipelines de visión artificial.

Link to this sectionVersatilidad inigualable y eficiencia de memoria#

A diferencia de los modelos de transformer rígidos que consumen grandes cantidades de VRAM, los modelos YOLO de Ultralytics mantienen una estricta eficiencia de memoria. Esto permite un entrenamiento de modelos rápido en hardware accesible. El ecosistema admite inherentemente múltiples tareas de visión artificial desde una única base de código, incluyendo clasificación de imágenes y detección de cajas delimitadoras orientadas (OBB), ofreciendo una flexibilidad que actualmente a RTDETRv2 le falta.

Link to this sectionDespliegue fluido#

Pasar de la investigación a la producción requiere opciones de despliegue robustas. La API de Ultralytics gestiona de forma nativa la exportación de modelos con un solo clic a formatos estándar de la industria. Ya sea que apuntes a ONNX para compatibilidad multiplataforma o a TensorRT para una aceleración máxima de GPU, el pipeline es totalmente automatizado y fiable.

Link to this sectionLa actualización definitiva: Ultralytics YOLO26#

Para los desarrolladores que debaten entre YOLOv7 y RTDETRv2, el camino óptimo a seguir es, de hecho, el nuevo estándar en IA visual: Ultralytics YOLO26. Lanzado en enero de 2026, YOLO26 cierra la brecha entre la velocidad de las CNNs y el razonamiento sofisticado de los transformers, eliminando por completo sus debilidades respectivas.

Más información sobre YOLO26

YOLO26 introduce innovaciones revolucionarias diseñadas tanto para despliegues en servidores como en el borde:

  • Diseño de extremo a extremo libre de NMS: Pionero en YOLOv10, YOLO26 elimina nativamente el post-procesamiento NMS. Esto garantiza la latencia determinista de RTDETRv2 sin la gravosa carga computacional de un transformer.
  • Optimizador MuSGD: Inspirado en técnicas de entrenamiento de modelos de lenguaje grandes (como Kimi K2 de Moonshot AI), YOLO26 utiliza un híbrido de SGD y Muon. Esto ofrece una estabilidad de entrenamiento sin precedentes y tiempos de convergencia significativamente más rápidos en comparación con las implementaciones estándar de AdamW utilizadas por los ViTs.
  • ProgLoss + STAL: Estas funciones de pérdida avanzadas producen mejoras notables en el reconocimiento de objetos pequeños, compitiendo directamente con las ventajas de características multiescala de RTDETRv2, lo cual es crítico para la automatización robótica.
  • Optimización de borde y eliminación de DFL: Al eliminar Distribution Focal Loss (DFL), YOLO26 simplifica la cabeza de salida, lo que lleva a una inferencia en CPU hasta un 43% más rápida, haciéndolo infinitamente más desplegable en dispositivos de borde que los pesados modelos transformer.

Link to this sectionEjemplo de entrenamiento con Ultralytics#

La simplicidad de la API de Python de Ultralytics te permite entrenar el modelo YOLO26 de última generación con solo unas pocas líneas de código:

from ultralytics import YOLO

# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)

Link to this sectionCasos de uso ideales#

Elegir la arquitectura adecuada depende en gran medida de las restricciones de despliegue y la disponibilidad de hardware:

Cuándo considerar YOLOv7:

  • Proyectos de investigación heredados donde YOLOv7 es una base establecida.
  • Entornos donde la aceleración de GPU en bruto es abundante y la fluctuación de la latencia NMS es aceptable.

Cuándo considerar RTDETRv2:

  • Despliegues en servidores de alta gama que requieren el mAP máximo absoluto.
  • Escenarios donde la latencia de inferencia determinista (libre de NMS) es estrictamente necesaria, siempre que dispongas de la VRAM para soportar su backbone de transformer.

Cuándo elegir Ultralytics YOLO26:

  • Casi siempre. Ofrece el determinismo libre de NMS de RTDETRv2, supera la velocidad y precisión de YOLOv7, utiliza significativamente menos VRAM y está totalmente integrado en la Plataforma Ultralytics para una gestión, entrenamiento y despliegue de datasets sin esfuerzo.
Explora más modelos

¿Te interesa saber cómo se comparan otras arquitecturas? Explora nuestros análisis profundos sobre generaciones anteriores como YOLO11 y YOLOv8, o aprende cómo aprovechar el ajuste de hiperparámetros para maximizar la precisión de tu proyecto.

Comentarios