Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO11 frente a YOLO26#

La rápida evolución de la visión artificial supera constantemente los límites de velocidad, precisión y eficiencia de despliegue. En el panorama de la detección de objetos en tiempo real, Ultralytics marca siempre el estándar. Esta comparativa técnica explora la transición desde el exitoso YOLO11 hasta el avanzado YOLO26, analizando sus arquitecturas, métricas de rendimiento y escenarios de despliegue ideales.

Tanto si estás creando sistemas de entrega con drones como si estás optimizando una cadena de producción inteligente global, entender las diferencias matizadas entre estos dos modelos te ayudará a construir soluciones de IA robustas y preparadas para el futuro.

Link to this sectionLinaje y ecosistema del modelo#

Ambos modelos se benefician del completo ecosistema Ultralytics, caracterizado por su sencilla API, mantenimiento continuo y una comunidad dinámica. Ofrecen una versatilidad inigualable, soportando de forma nativa tareas de detección de objetos, segmentación de instancias, clasificación de imágenes, estimación de poses y cajas delimitadoras orientadas (OBB) listas para usar.

Link to this sectionYOLO11: El estándar establecido#

Lanzado a finales de 2024, YOLO11 refinó los avances de generaciones anteriores, consolidando su lugar como una herramienta fiable para entornos de producción.

Más información sobre YOLO11

Link to this sectionYOLO26: La nueva frontera#

Presentado a principios de 2026, YOLO26 representa un cambio de paradigma en la computación de borde y la arquitectura de extremo a extremo, ofreciendo mejoras significativas en la velocidad de procesamiento y la facilidad de integración.

Más información sobre YOLO26

Gestión de datos y despliegues

Tanto YOLO11 como YOLO26 están totalmente integrados en la plataforma Ultralytics, proporcionando flujos de trabajo sin código para la anotación de conjuntos de datos, entrenamiento en la nube y monitorización de flotas.

Link to this sectionInnovaciones arquitectónicas#

Mientras que YOLO11 depende de métodos tradicionales de postprocesado que han impulsado la visión artificial durante años, YOLO26 introduce varios avances estructurales diseñados para eliminar cuellos de botella.

Link to this sectionDiseño integral sin NMS#

Una de las mejoras más significativas en YOLO26 es su arquitectura nativa de extremo a extremo. Elimina el postprocesado de supresión de no máximos (NMS), un concepto que fue pionero en YOLOv10. Omitir el NMS simplifica drásticamente el proceso de despliegue y garantiza una latencia constante, lo cual es esencial para aplicaciones en tiempo real como algoritmos de conducción autónoma.

Link to this sectionEliminación de DFL para la optimización en el borde#

YOLO26 elimina la pérdida focal de distribución (DFL). Aunque la DFL era útil en YOLO11 para la localización detallada, su eliminación simplifica el grafo de exportación de la red. Esta modificación garantiza una mayor compatibilidad con hardware de bajo consumo, convirtiendo a YOLO26 en una herramienta extremadamente potente en dispositivos de borde como Raspberry Pi o NVIDIA Jetson.

Link to this sectionOptimizador MuSGD#

Inspirado en los mecanismos de entrenamiento de los modelos de lenguaje a gran escala (LLM), específicamente Kimi K2 de Moonshot AI, YOLO26 utiliza el revolucionario optimizador MuSGD. Este híbrido de descenso de gradiente estocástico (SGD) y Muon proporciona ejecuciones de entrenamiento notablemente estables, convergiendo mucho más rápido que los optimizadores AdamW estándar utilizados en arquitecturas anteriores.

Link to this sectionFunciones de pérdida avanzadas#

YOLO26 incorpora ProgLoss + STAL (Aprendizaje de alineación de tareas progresivo y sensible a la escala). Esta combinación mejora drásticamente la detección de objetos pequeños y densamente agrupados. Además, YOLO26 introduce mejoras específicas para cada tarea: un prototipo multiescala dedicado para la segmentación semántica, estimación de log-verosimilitud residual (RLE) para estimaciones complejas de poses humanas y una pérdida de ángulo especializada para mitigar los problemas de contorno en las tareas de detección OBB.

Link to this sectionComparación de rendimiento#

Al evaluar estos modelos, el equilibrio entre el número de parámetros, la complejidad computacional (FLOPs) y la velocidad determina la elección del hardware. YOLO26 se centra específicamente en la velocidad de inferencia de la CPU, logrando una inferencia de CPU hasta un 43% más rápida en comparación con su predecesor.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Como se ha demostrado, el YOLO26 Nano (YOLO26n) da un salto significativo en precisión mientras reduce el tiempo de inferencia de la CPU de 56.1ms a 38.9ms usando ONNX Runtime.

Exportación para una máxima velocidad

Para exprimir hasta la última gota de rendimiento de estos modelos, expórtalos usando TensorRT en hardware NVIDIA u OpenVINO para CPUs Intel. El diseño sin NMS de YOLO26 hace que este proceso de exportación sea más fluido que nunca.

Link to this sectionCasos de uso y aplicaciones en el mundo real#

Elegir entre YOLO11 y YOLO26 depende en gran medida de tu infraestructura y los objetivos de tu proyecto.

Link to this sectionComputación de borde e IoT#

Para aplicaciones limitadas por la energía y el hardware, como la monitorización de la agricultura inteligente mediante drones o sistemas de alarma de seguridad locales, YOLO26 es el campeón indiscutible. La eliminación de la DFL y el aumento del 43% en la velocidad de la CPU significa que puedes ejecutar modelos de visión complejos en dispositivos sin GPUs dedicadas, manteniendo altas frecuencias de fotogramas.

Link to this sectionNube y escala empresarial#

YOLO11 sigue siendo una opción estelar para soluciones empresariales donde los grandes servidores ya están optimizados para sus estructuras de tensores. Es perfecto para análisis de vídeo basado en la nube y canales de procesamiento de medios a gran escala que ya están profundamente integrados con sus formatos de salida específicos.

Link to this sectionMultitarea compleja#

Si tu proyecto requiere una precisión milimétrica en objetos pequeños (como la detección de defectos en una placa de circuito o el seguimiento de vehículos distantes en imágenes aéreas), la implementación de ProgLoss + STAL en YOLO26 proporciona una mejora notable en la recuperación y precisión para esos casos complejos.

Link to this sectionEficiencia de entrenamiento y requisitos de memoria#

Una gran ventaja del framework Ultralytics es su consumo de memoria increíblemente bajo durante el entrenamiento. A diferencia de los enormes transformadores de visión como RT-DETR o el anterior YOLOv8, que pueden consumir grandes cantidades de memoria CUDA, tanto YOLO11 como YOLO26 están optimizados para entrenarse de forma eficiente en hardware de consumo.

La integración del optimizador MuSGD en YOLO26 mejora aún más esto asegurando que el modelo encuentre los pesos óptimos más rápido, reduciendo el total de horas de computación de GPU y los costes de computación en la nube.

Aquí tienes un ejemplo sencillo que demuestra lo fácil que es entrenar el último modelo YOLO26 usando la API nativa de Python:

from ultralytics import YOLO

# Initialize the YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# The MuSGD optimizer and efficient memory management are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Run a quick validation to verify the mAP metrics
metrics = model.val()

# Export the trained model to ONNX for fast CPU inference
model.export(format="onnx")

Link to this sectionExplorando arquitecturas alternativas#

Aunque YOLO26 representa la cima de la detección en tiempo real, explorar otros modelos dentro de la documentación de Ultralytics puede ser beneficioso. Para los usuarios vinculados a entornos heredados, las arquitecturas anteriores como YOLOv5 todavía proporcionan un rendimiento robusto. Para capacidades de aprendizaje zero-shot donde no es posible definir las clases de antemano, YOLO-World ofrece detección de vocabulario abierto basada en avisos de texto.

Link to this sectionConclusión#

El salto de YOLO11 a YOLO26 no es solo una actualización incremental; es una reinvención estructural de cómo operan los modelos de detección de objetos en tiempo real en producción. Al eliminar los pasos de postprocesado complejos y optimizarse para una ejecución centrada en el borde, YOLO26 destaca como la opción principal para los desarrolladores modernos. Respaldado por el robusto ecosistema Ultralytics y su exhaustiva documentación, actualizar a YOLO26 garantiza despliegues más rápidos, entrenamiento estable y precisión SOTA para prácticamente cualquier tarea de visión artificial.

Colaboradores

Comentarios