Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 frente a YOLOv6-3.0#

El panorama de la visión artificial evoluciona constantemente, ofreciendo a los desarrolladores una miríada de opciones arquitectónicas para la detección de objetos. Dos modelos destacados que representan enfoques divergentes son RTDETRv2, un transformer de visión de última generación, y YOLOv6-3.0, una red neuronal convolucional (CNN) altamente optimizada diseñada para aplicaciones industriales.

Esta comparativa técnica integral explora sus respectivas arquitecturas, métricas de rendimiento y escenarios de despliegue ideales. También examinaremos cómo el ecosistema Ultralytics más amplio proporciona una experiencia superior para el desarrollador, observando en última instancia las capacidades de próxima generación de Ultralytics YOLO26.

Link to this sectionRTDETRv2: El enfoque del Transformer de visión#

Desarrollado por investigadores de Baidu, RTDETRv2 se basa en los cimientos del RT-DETR original, representando un avance significativo en la detección de objetos basada en transformers.

Link to this sectionAspectos destacados de la arquitectura#

RTDETRv2 utiliza una arquitectura híbrida que combina un extractor de características CNN con un potente decodificador transformer. La característica más definitoria de este modelo es su diseño nativamente sin NMS. Al eliminar la supresión de no máximos (NMS) durante el postprocesamiento, el modelo predice las cajas delimitadoras directamente, lo que simplifica el despliegue y estabiliza la latencia de inferencia.

El "Bag-of-Freebies" incorporado en RTDETRv2 mejora su capacidad para manejar escenas complejas y objetos superpuestos, ya que los mecanismos de atención global comprenden intrínsecamente las relaciones espaciales mejor que las convoluciones localizadas.

Uso de memoria del Transformer

Aunque los transformers destacan en la comprensión de escenas complejas, normalmente requieren una memoria CUDA significativamente mayor durante el entrenamiento en comparación con las CNN. Esto puede limitar los tamaños de lote en GPUs de consumo estándar y aumentar el tiempo total de entrenamiento.

Más información sobre RTDETR

Link to this sectionYOLOv6-3.0: Maximización del rendimiento industrial#

Originado en el Departamento de IA de Visión de Meituan, YOLOv6-3.0 fue diseñado explícitamente para servir como detector de próxima generación para tuberías industriales donde el rendimiento de la GPU es primordial.

  • Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu y Xiangxiang Chu
  • Organización: Meituan
  • Fecha: 13-01-2023
  • Arxiv: 2301.05586
  • GitHub: meituan/YOLOv6

Link to this sectionEnfoque arquitectónico#

YOLOv6-3.0 se basa en una backbone EfficientRep, diseñada meticulosamente para minimizar los costes de acceso a memoria en aceleradores de hardware como las GPUs de NVIDIA. La arquitectura del cuello cuenta con un módulo de concatenación bidireccional (BiC) para mejorar la fusión de características a través de diferentes escalas.

Durante el entrenamiento, emplea una estrategia de entrenamiento asistido por anclas (AAT) para beneficiarse de los paradigmas basados en anclas, manteniendo al mismo tiempo un modo de inferencia sin anclas para una ejecución más rápida. Aunque logra un rendimiento excepcional en GPUs de grado servidor (p. ej., T4, A100), su arquitectura especializada puede resultar en una latencia subóptima cuando se despliega en dispositivos de borde solo con CPU.

Más información sobre YOLOv6

Link to this sectionComparación de rendimiento#

Al evaluar modelos para producción, es crítico equilibrar la precisión (mAP) con la velocidad de inferencia y el coste computacional (FLOPs). La tabla siguiente ilustra cómo se comparan estos modelos.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Aunque YOLOv6-3.0 domina en velocidad de procesamiento pura en TensorRT, RTDETRv2 captura puntuaciones de mAP más altas, especialmente escalando mejor con variantes de modelos más grandes. Sin embargo, ambos modelos carecen de la amplia versatilidad que se encuentra en los marcos unificados modernos. YOLOv6-3.0 es principalmente un especialista en detección, sin soporte nativo para tareas como la segmentación de instancias y la estimación de poses de fábrica.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre RT-DETR y YOLOv6 depende de los requisitos específicos de tu proyecto, las limitaciones de despliegue y las preferencias de ecosistema.

Link to this sectionCuándo elegir RT-DETR#

RT-DETR es una opción sólida para:

  • Investigación en detección basada en Transformer: Proyectos que exploran mecanismos de atención y arquitecturas transformer para detección de objetos de extremo a extremo sin NMS.
  • Escenarios de alta precisión con latencia flexible: Aplicaciones donde la precisión de detección es la prioridad máxima y una latencia de inferencia ligeramente mayor es aceptable.
  • Detección de objetos grandes: Escenas con objetos principalmente medianos a grandes donde el mecanismo de atención global de los transformers proporciona una ventaja natural.

Link to this sectionCuándo elegir YOLOv6#

YOLOv6 se recomienda para:

  • Despliegue consciente del hardware industrial: Escenarios donde el diseño del modelo consciente del hardware y la reparametrización eficiente proporcionan un rendimiento optimizado en hardware de destino específico.
  • Detección rápida en una sola etapa: Aplicaciones que priorizan la velocidad de inferencia bruta en GPU para el procesamiento de vídeo en tiempo real en entornos controlados.
  • Integración con el ecosistema Meituan: Equipos que ya trabajan dentro de la pila tecnológica y la infraestructura de despliegue de Meituan.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionLa ventaja de Ultralytics#

Elegir el modelo adecuado implica más que solo números de referencia brutos; la experiencia del desarrollador, la flexibilidad de despliegue y el soporte del ecosistema son igualmente cruciales. Al utilizar modelos integrados dentro de la plataforma Ultralytics, los usuarios obtienen ventajas significativas sobre los repositorios de investigación estáticos.

  • Facilidad de uso: El paquete de Python ultralytics ofrece una API fluida. Entrenar, validar y exportar modelos requiere solo unas pocas líneas de código.
  • Ecosistema bien mantenido: A diferencia de los repositorios académicos aislados, la Plataforma Ultralytics se actualiza activamente. Cuenta con integraciones robustas para herramientas como ONNX, OpenVINO y CoreML.
  • Eficiencia de entrenamiento: Los modelos de Ultralytics suelen consumir significativamente menos VRAM durante el entrenamiento en comparación con las arquitecturas de transformer como RTDETRv2, lo que permite tamaños de lote mayores en hardware de grado de consumo.
  • Versatilidad: A diferencia del alcance enfocado de YOLOv6-3.0, los modelos de Ultralytics son multimodales y soportan nativamente clasificación de imágenes, cajas delimitadoras orientadas (OBB) y segmentación dentro de un único marco unificado.
Despliegue optimizado

Usando la CLI de Ultralytics, exportar un modelo entrenado para despliegue en borde es tan simple como ejecutar: yolo export model=yolo11n.pt format=tensorrt.

Link to this sectionLlega YOLO26: La solución definitiva#

Aunque RTDETRv2 y YOLOv6-3.0 ofrecen beneficios específicos, el campo avanza rápidamente. Para los equipos que comienzan nuevos proyectos de visión artificial, recomendamos encarecidamente YOLO26, lanzado por Ultralytics en enero de 2026.

YOLO26 sintetiza las fortalezas de las CNN industriales y los transformers modernos mientras elimina sus debilidades respectivas:

  • Diseño integral sin NMS: Adoptando el avance introducido por primera vez en YOLOv10, YOLO26 elimina el postprocesamiento NMS de forma nativa, asegurando un despliegue estable y predecible similar al de RTDETRv2 pero con mucha menos sobrecarga.
  • Optimizador MuSGD: Inspirado en técnicas avanzadas de entrenamiento de LLM (como Kimi K2 de Moonshot AI), este optimizador híbrido asegura un entrenamiento estable y una convergencia más rápida, superando la notoria inestabilidad de los transformers de visión tradicionales.
  • Optimizado para borde: Con hasta un 43% más de velocidad de inferencia en CPU que las generaciones anteriores y la eliminación estratégica de la pérdida focal de distribución (DFL), YOLO26 se adapta perfectamente a dispositivos móviles e IoT donde la aceleración de GPU no está disponible.
  • ProgLoss + STAL: Estas funciones de pérdida avanzadas producen mejoras notables en el reconocimiento de objetos pequeños, un desafío histórico para las CNN, lo que convierte a YOLO26 en ideal para imágenes aéreas y robótica.

Link to this sectionEjemplo de entrenamiento#

La intuitiva API de Ultralytics te permite entrenar modelos de vanguardia sin problemas. A continuación, un ejemplo ejecutable que demuestra cómo entrenar el modelo YOLO26 Nano en el conjunto de datos COCO8:

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

Link to this sectionResumen#

Al comparar RTDETRv2 y YOLOv6-3.0, la decisión depende en gran medida de tus restricciones específicas de hardware y latencia. RTDETRv2 destaca en entornos de investigación y procesamiento en el lado del servidor donde manejar objetos superpuestos complejos es crítico. YOLOv6-3.0 sigue siendo una opción sólida para líneas de fabricación de alto rendimiento equipadas con potentes GPUs de NVIDIA.

Sin embargo, para los desarrolladores que buscan lo mejor de ambos mundos—combinando la elegancia sin NMS de los transformers con la velocidad cegadora y el bajo consumo de memoria de las CNN—YOLO26 no tiene rival. Respaldado por la documentación integral y la activa comunidad del ecosistema Ultralytics, YOLO26 garantiza que tus proyectos de visión por IA sean robustos, escalables y preparados para el futuro.

Comentarios