Ir al contenido

YOLO11 vs. YOLO26: Evolución de la IA de Visión en Tiempo Real

El campo de la visión por computadora avanza rápidamente, y Ultralytics sigue liderando con modelos de detección de objetos de última generación. Esta comparación explora la evolución arquitectónica, las métricas de rendimiento y las aplicaciones prácticas de YOLO11, lanzado a finales de 2024, y el innovador YOLO26, lanzado en enero de 2026. Aunque ambos modelos representan la cúspide de la IA de visión en sus respectivos momentos de lanzamiento, YOLO26 introduce cambios arquitectónicos significativos que redefinen la eficiencia y la velocidad para el despliegue en el borde.

Descripción general del modelo

YOLO11

Autores: Glenn Jocher y Jing Qiu
Organización:Ultralytics
Fecha: 2024-09-27
GitHub:Repositorio de Ultralytics
Documentación:Documentación de YOLO11

YOLO11 representó un refinamiento significativo en la serie YOLO, ofreciendo una reducción del 22% en los parámetros en comparación con YOLOv8 al tiempo que mejoraba la precisión de detección. Introdujo un diseño arquitectónico mejorado que equilibraba velocidad y precisión, convirtiéndolo en una opción fiable para diversas tareas de visión por computadora, desde la detección de objetos hasta la segmentación de instancias.

Más información sobre YOLO11

YOLO26

Autores: Glenn Jocher y Jing Qiu
Organización:Ultralytics
Fecha: 2026-01-14
GitHub:Repositorio de Ultralytics
Documentación:Documentación de YOLO26

YOLO26 representa un cambio de paradigma con su diseño nativo de extremo a extremo sin NMS, eliminando la necesidad de posprocesamiento de supresión no máxima. Esta innovación, pionera en YOLOv10, simplifica significativamente los pipelines de despliegue y reduce la latencia. YOLO26 está específicamente optimizado para la computación en el borde, ofreciendo hasta un 43% más de velocidad de inferencia en CPU e incorporando nuevas técnicas de entrenamiento como el Optimizador MuSGD—un híbrido de SGD y Muon inspirado en las innovaciones de entrenamiento de LLM.

Más información sobre YOLO26

Ventaja de Latencia de Extremo a Extremo

Al eliminar el paso de NMS, YOLO26 proporciona tiempos de inferencia consistentes independientemente del número de objetos detectados en una escena. Esto es crucial para aplicaciones en tiempo real como la conducción autónoma, donde los picos de posprocesamiento pueden causar retrasos peligrosos.

Comparación de rendimiento

La siguiente tabla destaca las mejoras de rendimiento de YOLO26 sobre YOLO11. Nótese las ganancias sustanciales en la velocidad de CPU, lo que hace que YOLO26 sea excepcionalmente capaz para dispositivos sin GPU dedicadas, como Raspberry Pis o teléfonos móviles.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Análisis Arquitectónico en Profundidad

Arquitectura de YOLO11

YOLO11 se basó en el concepto de backbone CSPNet, refinando las capas de extracción de características para capturar detalles más granulares. Utilizó un cabezal de detección estándar sin anclajes y se basó en la Pérdida Focal de Distribución (DFL) para refinar la regresión de cajas delimitadoras. Aunque altamente efectivo, la dependencia de NMS significaba que la velocidad de inferencia podía fluctuar según la densidad de la escena, un cuello de botella común en la vigilancia de ciudades inteligentes.

Arquitectura de YOLO26

YOLO26 introduce varios cambios radicales diseñados para la eficiencia y la estabilidad:

  1. De extremo a extremo sin NMS: El modelo predice un conjunto fijo de cajas delimitadoras con correspondencia uno a uno durante el entrenamiento, eliminando el paso heurístico de NMS durante la inferencia.
  2. Eliminación de DFL: Se eliminó la Pérdida Focal de Distribución para simplificar el proceso de exportación a formatos como ONNX y TensorRT, mejorando la compatibilidad con dispositivos de borde de baja potencia.
  3. Optimizador MuSGD: Inspirado en Kimi K2 de Moonshot AI y el entrenamiento de Modelos de Lenguaje Grandes (LLM), este optimizador híbrido combina SGD y Muon para asegurar una convergencia más rápida y ejecuciones de entrenamiento más estables, reduciendo los "picos de pérdida" que a menudo se observan en el entrenamiento de visión a gran escala.
  4. ProgLoss + STAL: Nuevas funciones de pérdida (Pérdida Progresiva y Pérdida de Asignación de Objetivo Suave) se dirigen específicamente al reconocimiento de objetos pequeños, proporcionando un impulso masivo para el análisis de imágenes aéreas y sensores IoT.

Versatilidad de Tareas

Ambos modelos soportan una amplia gama de tareas dentro del ecosistema Ultralytics, asegurando que los desarrolladores puedan cambiar de modelo sin reescribir sus pipelines.

  • Detección: Detección estándar de cajas delimitadoras.
  • Segmentación: Máscaras a nivel de píxel. YOLO26 añade una pérdida de segmentación semántica específica y un prototipo multiescala para una mejor calidad de máscara.
  • Clasificación: Categorización de imágenes completas.
  • Estimación de Pose: Detección de puntos clave. YOLO26 utiliza la Estimación de Log-Verosimilitud Residual (RLE) para una mayor precisión en poses complejas, beneficioso para el análisis deportivo.
  • OBB (Caja Delimitadora Orientada): Cajas rotadas para objetos aéreos o angulados. YOLO26 incorpora una pérdida de ángulo especializada para resolver problemas de discontinuidad de límites comunes en imágenes satelitales.

Entrenamiento y Uso

Una de las características distintivas del ecosistema Ultralytics es la API unificada. Ya sea que esté utilizando YOLO11 o actualizando a YOLO26, el código permanece prácticamente idéntico, minimizando la deuda técnica.

Ejemplo de python

Así es como puede entrenar el nuevo modelo YOLO26 utilizando la misma interfaz familiar que se usa para YOLO11. Este ejemplo demuestra el entrenamiento en el conjunto de datos COCO8, un pequeño conjunto de datos de 8 imágenes perfecto para pruebas.

from ultralytics import YOLO

# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model
# The MuSGD optimizer is handled automatically internally for YOLO26 models
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="cpu",  # Use '0' for GPU
)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

Ejemplo de CLI

La interfaz de línea de comandos es igualmente optimizada, permitiendo una experimentación rápida y la evaluación comparativa de modelos.

# Train YOLO26n on the COCO8 dataset
yolo train model=yolo26n.pt data=coco8.yaml epochs=100 imgsz=640

# Export to ONNX for simplified edge deployment
yolo export model=yolo26n.pt format=onnx

Casos de Uso Ideales

Elija YOLO11 si:

  • Tiene una pipeline de producción existente altamente optimizada para YOLO11 y no puede permitirse el tiempo de validación para una nueva arquitectura.
  • Su hardware de despliegue tiene optimizaciones específicas para la estructura de capas de YOLO11 que aún no se han actualizado para YOLO26.

Elija YOLO26 si:

  • El despliegue en el Edge es crítico: La eliminación de NMS y DFL convierte a YOLO26 en la opción superior para aplicaciones Android/iOS y sistemas embebidos donde los ciclos de CPU son valiosos.
  • Detección de objetos pequeños: Las funciones ProgLoss y STAL lo hacen significativamente mejor para identificar plagas en la agricultura u objetos distantes en grabaciones de drones.
  • Estabilidad del entrenamiento: Si está entrenando con conjuntos de datos personalizados masivos y ha experimentado problemas de divergencia, el optimizador MuSGD en YOLO26 ofrece una ruta de entrenamiento más estable.
  • Exportación más sencilla: La arquitectura de extremo a extremo se exporta de forma más limpia a formatos como CoreML y TensorRT sin requerir complejos plugins externos de NMS.

Para los desarrolladores interesados en explorar otras opciones dentro de la familia Ultralytics, modelos como YOLOv10 (el precursor de YOLO de extremo a extremo) o YOLO-World (para detección de vocabulario abierto) también son totalmente compatibles.

Conclusión

Aunque YOLO11 sigue siendo un modelo robusto y altamente capaz, YOLO26 establece un nuevo punto de referencia para lo que es posible en la visión artificial en tiempo real. Al integrar dinámicas de entrenamiento inspiradas en LLM y simplificar la pipeline de inferencia mediante un diseño sin NMS, Ultralytics ha creado un modelo que no solo es más preciso, sino también significativamente más fácil de desplegar en el mundo real.

El ecosistema Ultralytics garantiza que la actualización sea fluida. Con menores requisitos de memoria durante el entrenamiento y velocidades de CPU más rápidas durante la inferencia, YOLO26 es el punto de partida recomendado para todos los nuevos proyectos en 2026.

Comience con Ultralytics


Comentarios