YOLO26 vs. YOLO11: Una Comparación Técnica para Ingenieros de Visión Artificial
El panorama de la detección de objetos en tiempo real y la visión artificial sigue evolucionando rápidamente. Ultralytics se mantiene a la vanguardia de esta evolución, superando constantemente los límites de la velocidad, la precisión y la facilidad de uso. Esta comparación técnica profundiza en los avances arquitectónicos, las métricas de rendimiento y los casos de uso ideales para YOLO26 y YOLO11, ayudando a desarrolladores e investigadores a seleccionar el modelo óptimo para sus necesidades de despliegue.
Resumen Ejecutivo
YOLO26, lanzado en enero de 2026, representa el último estado del arte (SOTA) en la familia YOLO. Introduce una arquitectura nativamente de extremo a extremo (sin NMS), optimizada para despliegues en el borde y para el rendimiento de la CPU. YOLO11, su predecesor de septiembre de 2024, sigue siendo una opción potente y robusta, aunque YOLO26 lo supera en velocidad de inferencia, especialmente en hardware sin GPU, y en simplicidad arquitectónica.
Para la mayoría de los proyectos nuevos, YOLO26 es la opción recomendada debido a su superior equilibrio entre velocidad y precisión y a su pipeline de despliegue simplificado.
Evolución Arquitectónica
La transición de YOLO11 a YOLO26 implica cambios estructurales significativos destinados a reducir la latencia y la complejidad manteniendo una alta precisión.
YOLO26: Optimizado y de Extremo a Extremo
YOLO26 marca un cambio de paradigma al adoptar un diseño nativamente de extremo a extremo. A diferencia de los modelos YOLO tradicionales que dependen de la Supresión No Máxima (NMS) para filtrar las cajas delimitadoras superpuestas, YOLO26 elimina este paso por completo. Este avance, pionero en YOLOv10, simplifica el pipeline de despliegue y reduce la latencia de inferencia, lo que lo hace particularmente ventajoso para aplicaciones en tiempo real.
Las innovaciones arquitectónicas clave en YOLO26 incluyen:
- Eliminación de DFL: Se ha eliminado el módulo Distribution Focal Loss (DFL). Esta simplificación mejora la compatibilidad con dispositivos de borde y acelera la exportación a formatos como ONNX y TensorRT al eliminar operaciones matemáticas complejas que pueden ralentizar los procesadores de baja potencia.
- Optimizador MuSGD: Inspirado en técnicas de entrenamiento de modelos de lenguaje grandes (LLM), YOLO26 utiliza un optimizador híbrido que combina SGD y Muon (de Kimi K2 de Moonshot AI). Esto resulta en dinámicas de entrenamiento más estables y una convergencia más rápida.
- ProgLoss + STAL: El Balanceo Progresivo de Pérdidas (ProgLoss) y la Asignación de Etiquetas Sensible a Objetivos Pequeños (STAL) mejoran significativamente el rendimiento en objetos pequeños, un factor crítico para imágenes de drones y teledetección.
YOLO11: El Predecesor Robusto
YOLO11 se basa en el bloque C3k2 y los módulos SPPF (Spatial Pyramid Pooling - Fast) para ofrecer una alta eficiencia. Emplea un bloque C2PSA refinado con mecanismos de atención para mejorar la extracción de características. Aunque es altamente efectivo, su dependencia del postprocesamiento NMS introduce una ligera sobrecarga computacional durante la inferencia en comparación con el enfoque de extremo a extremo de YOLO26.
Por qué el Enfoque de Extremo a Extremo es Importante
La eliminación de NMS en YOLO26 significa que la salida del modelo requiere menos código de postprocesamiento. Esto reduce el riesgo de errores de despliegue y asegura una latencia consistente, ya que el tiempo de inferencia no fluctúa en función del número de objetos detectados.
Métricas de rendimiento
La siguiente tabla destaca las diferencias de rendimiento entre los dos modelos en el conjunto de datos COCO. YOLO26 demuestra claras ventajas tanto en precisión (mAP) como en velocidad de inferencia en CPU.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Análisis de métricas
- Velocidad de inferencia en CPU: YOLO26n es aproximadamente un 43% más rápido en CPU en comparación con YOLO11n (38.9ms frente a 56.1ms). Esto convierte a YOLO26 en la opción superior para implementaciones en Raspberry Pi, dispositivos móviles y CPUs estándar.
- Precisión (mAP): En todas las escalas, YOLO26 logra consistentemente una mayor Precisión Media Promedio. El modelo 'nano' experimenta un salto significativo de 39.5 a 40.9 mAP, ofreciendo una mejor calidad de detección a velocidades superiores.
- Eficiencia del modelo: YOLO26 generalmente requiere menos parámetros y FLOPs para un mejor rendimiento, lo que ilustra las ganancias de eficiencia derivadas de la poda arquitectónica y la eliminación del cabezal DFL.
Entrenamiento y Optimización
Ambos modelos se benefician del robusto ecosistema de Ultralytics, lo que hace que el entrenamiento sea accesible y eficiente.
- Facilidad de uso: Tanto YOLO26 como YOLO11 comparten la misma API unificada de python y interfaz CLI. Cambiar entre ellos es tan sencillo como modificar la cadena del modelo de
yolo11n.pta datosyolo26n.pt. - Eficiencia de entrenamiento: El optimizador MuSGD de YOLO26 ayuda a estabilizar las ejecuciones de entrenamiento, reduciendo potencialmente el número de épocas necesarias para alcanzar la convergencia. Esto ahorra en costos computacionales y tiempo, especialmente para grandes conjuntos de datos como ImageNet.
- Requisitos de memoria: Los modelos de Ultralytics son reconocidos por su bajo consumo de memoria en comparación con alternativas basadas en transformadores. YOLO26 optimiza aún más esto eliminando cálculos de cabezal redundantes, lo que permite tamaños de lote más grandes en GPUs de consumo.
Ejemplo de Entrenamiento
Así es como puedes entrenar el último modelo YOLO26 utilizando el paquete python de Ultralytics:
from ultralytics import YOLO
# Load the YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Versatilidad de Tareas y Casos de Uso
Ambas familias de modelos soportan una amplia gama de tareas de visión por computadora, incluyendo detection, segmentation, classification, pose estimation y oriented object detection (obb).
Casos de Uso Ideales para YOLO26
- Computación en el borde: Con velocidades de CPU hasta un 43% más rápidas, YOLO26 es perfecto para dispositivos IoT, cámaras inteligentes y aplicaciones móviles donde los recursos de GPU no están disponibles.
- Detección de objetos pequeños: Gracias a ProgLoss y STAL, YOLO26 sobresale en escenarios como la vigilancia aérea, la inspección de calidad y las imágenes médicas, donde detectar detalles minúsculos es crucial.
- Robótica en tiempo real: El diseño sin NMS asegura una latencia determinista, crítica para los bucles de control en la navegación autónoma y la manipulación robótica.
Casos de Uso Ideales para YOLO11
- Sistemas heredados: Para flujos de trabajo ya optimizados para arquitecturas YOLO11 o donde las tuberías de postprocesamiento específicas están codificadas rígidamente en torno a las salidas de NMS, YOLO11 sigue siendo una opción estable y soportada.
- Inferencia en GPU de propósito general: En potentes GPUs de centros de datos (como la T4), YOLO11 rinde de manera competitiva, lo que lo hace adecuado para el procesamiento por lotes del lado del servidor donde la latencia de la CPU es una preocupación menor.
Ecosistema y soporte
Una de las ventajas más sólidas de utilizar los modelos de Ultralytics es el ecosistema que los rodea. Tanto YOLO26 como YOLO11 están totalmente integrados en la Plataforma Ultralytics, lo que permite una gestión, visualización e implementación de modelos sin interrupciones.
- Documentación: Guías completas cubren todo, desde la anotación de datos hasta la exportación de modelos.
- Comunidad: Una comunidad vibrante en GitHub y Discord asegura que los desarrolladores tengan acceso a soporte y conocimiento compartido.
- Integraciones: Ambos modelos soportan la exportación sencilla a formatos como ONNX, OpenVINO y TensorRT, facilitando la implementación en diversos entornos de hardware.
Conclusión
Si bien YOLO11 sigue siendo un modelo altamente capaz, YOLO26 representa un avance significativo en eficiencia y simplicidad arquitectónica. Su diseño de extremo a extremo, latencia de CPU reducida y precisión mejorada en objetos pequeños lo convierten en la opción superior para aplicaciones modernas de visión por computadora. Ya sea que esté implementando en el borde o entrenando en la nube, YOLO26 ofrece el mejor equilibrio entre rendimiento y usabilidad disponible en la actualidad.
Detalles del Modelo
YOLO26
Autor: Glenn Jocher y Jing Qiu
Organización: Ultralytics
Fecha: 2026-01-14
GitHub | Docs
YOLO11
Autor: Glenn Jocher y Jing Qiu
Organización: Ultralytics
Fecha: 2024-09-27
GitHub | Docs
Los desarrolladores que buscan otras opciones también podrían explorar YOLOv10 para conceptos de extremo a extremo anteriores o YOLO-World para tareas de detección de vocabulario abierto.