Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv10 frente a YOLO26#

El panorama de la visión artificial ha sido testigo de avances notables en los últimos años, pasando de arquitecturas complejas y dependientes de un pesado post-procesamiento a modelos optimizados de extremo a extremo (end-to-end). Esta comparativa técnica profundiza en dos hitos fundamentales de este viaje: el avance académico de YOLOv10 y YOLO26, una solución de vanguardia preparada para entornos empresariales. Al examinar sus arquitecturas, metodologías de entrenamiento y capacidades de despliegue en el mundo real, los desarrolladores pueden tomar decisiones informadas al construir su próxima aplicación de IA visual.

Link to this sectionYOLOv10: Pioneros en detección de objetos de extremo a extremo#

Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
Organización: Tsinghua University
Fecha: 23-05-2024
Enlaces: Artículo arXiv | Repositorio GitHub

Lanzado a mediados de 2024, YOLOv10 representó un salto significativo en la investigación académica de visión artificial al abordar uno de los cuellos de botella más persistentes en la detección de objetos en tiempo real: la supresión no máxima (NMS). Los detectores de objetos tradicionales dependían en gran medida de NMS para filtrar cuadros delimitadores redundantes, lo que añadía una latencia variable durante la inferencia y complicaba el despliegue en dispositivos de borde (edge).

El equipo de la Tsinghua University introdujo una estrategia de asignación dual consistente para el entrenamiento sin NMS. Esto permitió que el modelo predijera cuadros delimitadores con precisión sin necesidad de un paso de filtrado posterior, mejorando directamente la latencia de inferencia y reduciendo la barrera para el despliegue en aceleradores de hardware. Aunque es altamente eficiente para tareas de detección estándar, el modelo se centró principalmente en la predicción de cuadros delimitadores y carecía de soporte nativo para tareas más complejas como la segmentación de instancias o la estimación de poses.

Aprende más sobre YOLOv10

Link to this sectionYOLO26: El nuevo estándar para IA visual en el borde y la nube#

Autores: Glenn Jocher y Jing Qiu
Organización: Ultralytics
Fecha: 14-01-2026
Enlaces: Repositorio GitHub | Plataforma Ultralytics

Basándose en los conceptos sin NMS iniciados anteriormente, el recién lanzado YOLO26 representa la cima del rendimiento y la versatilidad. Diseñado tanto para la investigación académica como para el despliegue a nivel empresarial, incorpora de forma nativa un diseño de extremo a extremo sin NMS, eliminando por completo el post-procesamiento NMS para un despliegue más rápido y sencillo en todo el hardware compatible.

YOLO26 introduce varias mejoras arquitectónicas innovadoras. La eliminación de la pérdida focal de distribución (DFL) simplifica significativamente el proceso de exportación del modelo y mejora la compatibilidad con dispositivos de borde de baja potencia. Junto con estos cambios estructurales, YOLO26 logra una inferencia de CPU hasta un 43% más rápida, lo que lo convierte en una elección excepcional para aplicaciones de IoT y robótica donde la aceleración por GPU puede no estar disponible.

Además, la estabilidad del entrenamiento y la velocidad de convergencia se han revolucionado mediante el uso del optimizador MuSGD, un híbrido de SGD y Muon inspirado en técnicas de entrenamiento de LLM. Combinado con funciones de pérdida avanzadas como ProgLoss + STAL, YOLO26 cuenta con notables mejoras en el reconocimiento de objetos pequeños. También introduce mejoras específicas por tarea, incluyendo prototipado multiescala para segmentación, estimación de log-verosimilitud residual (RLE) para la estimación de poses y una pérdida de ángulo especializada para resolver problemas de límites en la detección de cuadros delimitadores orientados (OBB).

Más información sobre YOLO26

Despliegue empresarial

Para los equipos que buscan escalar sus flujos de trabajo de visión artificial, la Plataforma Ultralytics ofrece una integración perfecta con YOLO26, proporcionando anotación de datos intuitiva, entrenamiento automático en la nube y opciones de despliegue con un solo clic sin necesidad de una infraestructura MLOps extensa.

Link to this sectionComparativa de rendimiento técnico#

Al evaluar estos modelos, el equilibrio entre precisión, tamaño del modelo y velocidad de inferencia es fundamental. La tabla siguiente destaca el rendimiento de ambas familias de modelos en varias escalas, evaluadas en el conjunto de datos COCO estándar.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Los datos demuestran claramente la ventaja evolutiva de la arquitectura más nueva. YOLO26 logra un mAP (precisión media media) más alto en todos los niveles de tamaño mientras mantiene velocidades de inferencia altamente competitivas. La eliminación de DFL en YOLO26 contribuye específicamente a su excepcional rendimiento de CPU ONNX, una métrica en la que las generaciones anteriores a menudo tenían dificultades.

Link to this sectionMetodologías de entrenamiento y ecosistema#

Un modelo es tan útil como el ecosistema que lo respalda. Aunque YOLOv10 proporcionó una excelente implementación académica basada en PyTorch, a menudo requiere una configuración manual para tareas que van más allá de la detección básica.

Por el contrario, YOLO26 está totalmente integrado en el ecosistema de Ultralytics, que cuenta con un buen mantenimiento. Esto garantiza requisitos de memoria significativamente menores durante el entrenamiento en comparación con modelos basados en Transformer como RT-DETR, permitiendo a los investigadores entrenar redes de vanguardia en hardware de consumo. La facilidad de uso no tiene comparación, ofreciendo una API unificada que gestiona automáticamente el aumento de datos, el ajuste de hiperparámetros y el registro de eventos.

Link to this sectionEjemplo de código: Entrenar YOLO26#

Entrenar un modelo versátil y altamente preciso requiere solo unas pocas líneas de código Python:

from ultralytics import YOLO

# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model efficiently with automatic memory management
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
)

# Export natively to TensorRT without NMS complexities
model.export(format="engine")

Link to this sectionAplicaciones y casos de uso en el mundo real#

Elegir la arquitectura correcta depende completamente de las limitaciones de despliegue.

Link to this sectionComputación de borde de alta velocidad#

Para aplicaciones que requieren un despliegue rápido en microcontroladores, robótica o dispositivos móviles antiguos, la inferencia de CPU un 43% más rápida de YOLO26 lo convierte en la opción definitiva. Su arquitectura sin NMS y sin DFL se convierte sin problemas a formatos como OpenVINO y TensorRT, ideal para análisis de vídeo en tiempo real en infraestructuras de ciudades inteligentes.

Link to this sectionVisión multitarea avanzada#

Aunque YOLOv10 destaca en la detección pura de cuadros delimitadores, los proyectos que requieren una comprensión visual rica deben confiar en YOLO26. Desde la segmentación de instancias en imágenes médicas hasta la estimación de poses de precisión para análisis deportivos, YOLO26 proporciona funciones de pérdida específicas para tareas que garantizan una precisión superior en diversos dominios.

Opciones alternativas

Si tu proyecto requiere una detección robusta de vocabulario abierto, considera explorar YOLO-World. Para los usuarios que mantienen canalizaciones antiguas, YOLO11 sigue siendo una alternativa potente y totalmente compatible dentro del marco de Ultralytics.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre YOLOv10 y YOLO26 depende de los requisitos específicos de tu proyecto, las limitaciones de despliegue y las preferencias de ecosistema.

Link to this sectionCuándo elegir YOLOv10#

YOLOv10 es una opción sólida para:

  • Detección en tiempo real sin NMS: Aplicaciones que se benefician de una detección integral (end-to-end) sin NMS, lo que reduce la complejidad de la implementación.
  • Equilibrio entre velocidad y precisión: Proyectos que requieren un buen equilibrio entre la velocidad de inferencia y la precisión de detección en varias escalas de modelo.
  • Aplicaciones de latencia constante: Escenarios de despliegue donde los tiempos de inferencia predecibles son críticos, como en robótica o sistemas autónomos.

Link to this sectionCuándo elegir YOLO26#

Se recomienda YOLO26 para:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionConclusión#

La transición de YOLOv10 a YOLO26 destaca un cambio crucial de la prueba de concepto académica a soluciones empresariales listas para producción. Al adoptar el diseño pionero sin NMS y mejorarlo con el optimizador MuSGD, ProgLoss y una compatibilidad optimizada con el borde, YOLO26 establece un nuevo estándar para lo que es posible en la visión artificial en tiempo real. Para los desarrolladores que buscan lograr el mejor equilibrio entre velocidad, precisión y usabilidad, YOLO26 destaca como la recomendación definitiva.

Colaboradores

Comentarios