Ir al contenido

Ultralytics YOLO26

Visión general

Ultralytics YOLO26 es la última evolución en la serie YOLO de detectores de objetos en tiempo real, diseñado desde cero para dispositivos de borde y de bajo consumo. Introduce un diseño optimizado que elimina la complejidad innecesaria al tiempo que integra innovaciones específicas para ofrecer una implementación más rápida, ligera y accesible.

Gráficos de comparación de Ultralytics YOLO26

Prueba Ultralytics

Explora y ejecuta modelos YOLO26 directamente en Ultralytics .

La arquitectura de YOLO26 se guía por tres principios fundamentales:

  • Simplicidad: YOLO26 es un modelo nativo de extremo a extremo, que produce predicciones directamente sin necesidad de supresión no máxima (NMS). Al eliminar este paso de post-procesamiento, la inferencia se vuelve más rápida, ligera y fácil de implementar en sistemas del mundo real. Este enfoque innovador fue iniciado por primera vez en YOLOv10 por Ao Wang en la Universidad de Tsinghua y ha sido perfeccionado en YOLO26.
  • Eficiencia de la Implementación: El diseño de extremo a extremo elimina una etapa completa del pipeline, lo que simplifica drásticamente la integración, reduce la latencia y hace que la implementación sea más robusta en diversos entornos.
  • Innovación en el entrenamiento: YOLO26 introduce el optimizador MuSGD, un híbrido de SGD y Muon — inspirado en los avances de Kimi K2 de Moonshot AI en el entrenamiento de LLM. Este optimizador aporta una estabilidad mejorada y una convergencia más rápida, transfiriendo los avances en optimización de los modelos de lenguaje a la visión por computadora.
  • Optimizaciones Específicas de Tarea: YOLO26 introduce mejoras dirigidas para tareas especializadas, incluyendo la pérdida de segmentación semántica y módulos proto multiescala para la Segmentación, la Estimación de Log-Verosimilitud Residual (RLE) para la estimación de Pose de alta precisión, y la decodificación optimizada con pérdida angular para resolver problemas de límites en OBB.

En conjunto, estas innovaciones ofrecen una familia de modelos que logra una mayor precisión en objetos pequeños, proporciona una implementación perfecta y se ejecuta hasta un 43% más rápido en las CPU, lo que convierte a YOLO26 en uno de los modelos YOLO más prácticos e implementables hasta la fecha para entornos con recursos limitados.

Características clave

  • Eliminación de DFL
    El módulo Distribution Focal Loss (DFL), aunque eficaz, a menudo complicaba la exportación y limitaba la compatibilidad del hardware. YOLO26 elimina DFL por completo, simplificando la inferencia y ampliando el soporte para dispositivos edge y de baja potencia.

  • Inferencia integral sin NMS
    A diferencia de los detectores tradicionales que se basan en NMS como un paso de post-procesamiento separado, YOLO26 es nativamente integral. Las predicciones se generan directamente, lo que reduce la latencia y hace que la integración en los sistemas de producción sea más rápida, ligera y fiable.

  • ProgLoss + STAL
    Las funciones de pérdida mejoradas aumentan la precisión de la detección, con mejoras notables en el reconocimiento de objetos pequeños, un requisito fundamental para IoT, robótica, imágenes aéreas y otras aplicaciones en el borde.

  • Optimizador MuSGD
    Un nuevo optimizador híbrido que combina SGD con Muon. Inspirado en Kimi K2 de Moonshot AI, MuSGD introduce métodos de optimización avanzados del entrenamiento de LLM en la visión artificial, permitiendo un entrenamiento más estable y una convergencia más rápida.

  • Inferencia de CPU hasta un 43% más rápida
    Específicamente optimizado para la computación en el borde, YOLO26 ofrece una inferencia de CPU significativamente más rápida, lo que garantiza un rendimiento en tiempo real en dispositivos sin GPU.

  • Mejoras en la Segmentación de Instancias
    Introduce la pérdida de segmentación semántica para mejorar la convergencia del modelo y un módulo proto actualizado que aprovecha la información multiescala para una calidad de máscara superior.

  • Estimación de Pose de Precisión
    Integra la Estimación de Verosimilitud Logarítmica Residual (RLE) para una localización de puntos clave más precisa y optimiza el proceso de decodificación para una mayor velocidad de inferencia.

  • Decodificación OBB Refinada
    Introduce una pérdida de ángulo especializada para mejorar la precisión de detección de objetos cuadrados y optimiza la decodificación OBB para resolver problemas de discontinuidad de límites.

Gráficos de Comparación Integral de Ultralytics YOLO26


Tareas y modos admitidos

YOLO26 se basa en la versátil gama de modelos establecida por versiones anteriores de Ultralytics YOLO, ofreciendo un soporte mejorado en diversas tareas de visión por computadora:

ModeloNombres de archivoTareaInferenciaValidaciónEntrenamientoExportar
YOLO26yolo26n.pt yolo26s.pt yolo26m.pt yolo26l.pt yolo26x.ptDetección
YOLO26-segyolo26n-seg.pt yolo26s-seg.pt yolo26m-seg.pt yolo26l-seg.pt yolo26x-seg.ptSegmentación de instancias
YOLO26-poseyolo26n-pose.pt yolo26s-pose.pt yolo26m-pose.pt yolo26l-pose.pt yolo26x-pose.ptPose/Keypoints
YOLO26-obbyolo26n-obb.pt yolo26s-obb.pt yolo26m-obb.pt yolo26l-obb.pt yolo26x-obb.ptDetección Orientada
YOLO26-clsyolo26n-cls.pt yolo26s-cls.pt yolo26m-cls.pt yolo26l-cls.pt yolo26x-cls.ptClasificación

Este marco unificado garantiza que YOLO26 sea aplicable a la detección en tiempo real, la segmentación, la clasificación, la estimación de la pose y la detección de objetos orientados, todo ello con soporte para el entrenamiento, la validación, la inferencia y la exportación.


Métricas de rendimiento

Rendimiento

Consulte la Documentación de Detección para ver ejemplos de uso con estos modelos entrenados en COCO, que incluyen 80 clases preentrenadas.

Modelotamaño
(píxeles)
mAPval
50-95
mAPval
50-95(e2e)
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO26n64040.940.138.9 ± 0.71.7 ± 0.02.45.4
YOLO26s64048.647.887.2 ± 0.92.5 ± 0.09.520.7
YOLO26m64053.152.5220.0 ± 1.44.7 ± 0.120.468.2
YOLO26l64055.054.4286.2 ± 2.06.2 ± 0.224.886.4
YOLO26x64057.556.9525.8 ± 4.011.8 ± 0.255.7193.9

Consulte la Documentación de Segmentación para ver ejemplos de uso con estos modelos entrenados en COCO, que incluyen 80 clases preentrenadas.

Modelotamaño
(píxeles)
mAPbox
50-95(e2e)
mAPmask
50(e2e)
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO26n-seg64039.633.953.3 ± 0.52.1 ± 0.02.79.1
YOLO26s-seg64047.340.0118.4 ± 0.93.3 ± 0.010.434.2
YOLO26m-seg64052.544.1328.2 ± 2.46.7 ± 0.123.6121.5
YOLO26l-seg64054.445.5387.0 ± 3.78.0 ± 0.128.0139.8
YOLO26x-seg64056.547.0787.0 ± 6.816.4 ± 0.162.8313.5

Consulte la Documentación de Clasificación para ver ejemplos de uso con estos modelos entrenados en ImageNet, que incluyen 1000 clases preentrenadas.

Modelotamaño
(píxeles)
acc
top1
acc
top5
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B) a 224
YOLO26n-cls22471.490.15.0 ± 0.31.1 ± 0.02.80.5
YOLO26s-cls22476.092.97.9 ± 0.21.3 ± 0.06.71.6
YOLO26m-cls22478.194.217.2 ± 0.42.0 ± 0.011.64.9
YOLO26l-cls22479.094.623.2 ± 0.32.8 ± 0.014.16.2
YOLO26x-cls22479.995.041.4 ± 0.93.8 ± 0.029.613.6

Consulte la Documentación de Estimación de Pose para ver ejemplos de uso con estos modelos entrenados en COCO, que incluyen 1 clase preentrenada, 'person'.

Modelotamaño
(píxeles)
mAPpose
50-95(e2e)
mAPpose
50(e2e)
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO26n-pose64057.283.340.3 ± 0.51.8 ± 0.02.97.5
YOLO26s-pose64063.086.685.3 ± 0.92.7 ± 0.010.423.9
YOLO26m-pose64068.889.6218.0 ± 1.55.0 ± 0.121.573.1
YOLO26l-pose64070.490.5275.4 ± 2.46.5 ± 0.125.991.3
YOLO26x-pose64071.691.6565.4 ± 3.012.2 ± 0.257.6201.7

Consulte la Documentación de Detección Orientada para ver ejemplos de uso con estos modelos entrenados en DOTAv1, que incluyen 15 clases preentrenadas.

Modelotamaño
(píxeles)
mAPtest
50(e2e)
mAPtest
50(e2e)
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO26n-obb102452.478.997.7 ± 0.92.8 ± 0.02.514.0
YOLO26s-obb102454.880.9218.0 ± 1.44.9 ± 0.19.855.1
YOLO26m-obb102455.381.0579.2 ± 3.810.2 ± 0.321.2183.3
YOLO26l-obb102456.281.6735.6 ± 3.113.0 ± 0.225.6230.0
YOLO26x-obb102456.781.71485.7 ± 11.530.5 ± 0.957.6516.5

Ejemplos de uso

Esta sección proporciona ejemplos sencillos de entrenamiento e inferencia de YOLO26. Para obtener la documentación completa sobre estos y otros modos, consulte las páginas de documentación de Predict, Train, Val y Export.

Tenga en cuenta que el ejemplo siguiente es para modelos YOLO26 Detect para detección de objetos. Para otras tareas compatibles, consulte la documentación de Segment, Classify, OBB y Pose.

Ejemplo

PyTorch preentrenados *.pt modelos, así como la configuración *.yaml los archivos se pueden pasar a la YOLO() class para crear una instancia de modelo en Python:

from ultralytics import YOLO

# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the YOLO26n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

Hay comandos de la CLI disponibles para ejecutar directamente los modelos:

# Load a COCO-pretrained YOLO26n model and train it on the COCO8 example dataset for 100 epochs
yolo train model=yolo26n.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained YOLO26n model and run inference on the 'bus.jpg' image
yolo predict model=yolo26n.pt source=path/to/bus.jpg

Arquitectura de doble cabezal

YOLO26 cuenta con una arquitectura de doble cabezal que ofrece flexibilidad para diferentes escenarios de implementación:

  • Cabezal uno a uno (predeterminado): Produce predicciones de extremo a extremo sin NMS, generando (N, 300, 6) con un máximo de 300 detecciones por imagen. Este cabezal está optimizado para una inferencia rápida y una implementación simplificada.
  • Cabezal uno a muchos: Genera YOLO tradicionales que requieren NMS , generando (N, nc + 4, 8400) donde nc es el número de clases. Este cabezal suele alcanzar una precisión ligeramente superior a costa de un procesamiento adicional.

Puede cambiar entre cabezales durante la exportación, la predicción o la validación:

from ultralytics import YOLO

model = YOLO("yolo26n.pt")

# Use one-to-one head (default, no NMS required)
results = model.predict("image.jpg")  # inference
metrics = model.val(data="coco.yaml")  # validation
model.export(format="onnx")  # export

# Use one-to-many head (requires NMS)
results = model.predict("image.jpg", end2end=False)  # inference
metrics = model.val(data="coco.yaml", end2end=False)  # validation
model.export(format="onnx", end2end=False)  # export
# Use one-to-one head (default, no NMS required)
yolo predict model=yolo26n.pt source=image.jpg
yolo val model=yolo26n.pt data=coco.yaml
yolo export model=yolo26n.pt format=onnx

# Use one-to-many head (requires NMS)
yolo predict model=yolo26n.pt source=image.jpg end2end=False
yolo val model=yolo26n.pt data=coco.yaml end2end=False
yolo export model=yolo26n.pt format=onnx end2end=False

La elección depende de sus requisitos de implementación: utilice el cabezal uno a uno para obtener la máxima velocidad y simplicidad, o el cabezal uno a muchos cuando la precisión sea la máxima prioridad.

YOLOE-26: Segmentación de instancias de vocabulario abierto

YOLOE-26 integra la arquitectura YOLO26 de alto rendimiento con las capacidades de vocabulario abierto de la serie YOLOE. Permite la detección y segmentación en tiempo real de cualquier clase de objeto utilizando prompts de texto, prompts visuales o un modo sin prompts para inferencia zero-shot, eliminando eficazmente las limitaciones del entrenamiento de categorías fijas.

Al aprovechar el diseño de extremo a extremo y sin NMS de YOLO26, YOLOE-26 ofrece una inferencia rápida en mundo abierto. Esto lo convierte en una solución potente para aplicaciones de borde en entornos dinámicos donde los objetos de interés representan un vocabulario amplio y en evolución.

Rendimiento

Consulte la documentación de YOLOE para ver ejemplos de uso con estos modelos entrenados en los conjuntos de datos Objects365v1, GQA y Flickr30k.

Modelotamaño
(píxeles)
Tipo de promptmAPminival
50-95(e2e)
mAPminival
50-95
mAPrmAPcmAPfparámetros
(M)
FLOPs
(B)
YOLOE-26n-seg640Texto/Visual23.7 / 20.924.7 / 21.920.5 / 17.624.1 / 22.326.1 / 22.44.86.0
YOLOE-26s-seg640Texto/Visual29.9 / 27.130.8 / 28.623.9 / 25.129.6 / 27.833.0 / 29.913.121.7
YOLOE-26m-seg640Texto/Visual35.4 / 31.335.4 / 33.931.1 / 33.434.7 / 34.036.9 / 33.827.970.1
YOLOE-26l-seg640Texto/Visual36.8 / 33.737.8 / 36.335.1 / 37.637.6 / 36.238.5 / 36.132.388.3
YOLOE-26x-seg640Texto/Visual39.5 / 36.240.6 / 38.537.4 / 35.340.9 / 38.841.0 / 38.869.9196.7

Consulte la documentación de YOLOE para ver ejemplos de uso con estos modelos entrenados en los conjuntos de datos Objects365v1, GQA y Flickr30k.

Modelotamaño
(píxeles)
mAPminival
50-95(e2e)
mAPminival
50(e2e)
parámetros
(M)
FLOPs
(B)
YOLOE-26n-seg-pf64016.622.76.515.8
YOLOE-26s-seg-pf64021.428.616.235.5
YOLOE-26m-seg-pf64025.733.636.2122.1
YOLOE-26l-seg-pf64027.235.440.6140.4
YOLOE-26x-seg-pf64029.938.786.3314.4

Ejemplo de uso

YOLOE-26 admite tanto la incitación basada en texto como la visual. El uso de incitaciones es sencillo: simplemente páselas a través del predict método como se muestra a continuación:

Ejemplo

Las incitaciones de texto le permiten especificar las clases que desea detect mediante descripciones textuales. El siguiente código muestra cómo puede utilizar YOLOE-26 para detect personas y autobuses en una imagen:

from ultralytics import YOLO

# Initialize model
model = YOLO("yoloe-26l-seg.pt")  # or select yoloe-26s/m-seg.pt for different sizes

# Set text prompt to detect person and bus. You only need to do this once after you load the model.
names = ["person", "bus"]
model.set_classes(names, model.get_text_pe(names))

# Run detection on the given image
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

Las indicaciones visuales le permiten guiar el modelo mostrándole ejemplos visuales de las clases objetivo, en lugar de describirlas en texto.

import numpy as np

from ultralytics import YOLO
from ultralytics.models.yolo.yoloe import YOLOEVPSegPredictor

# Initialize model
model = YOLO("yoloe-26l-seg.pt")

# Define visual prompts using bounding boxes and their corresponding class IDs.
# Each box highlights an example of the object you want the model to detect.
visual_prompts = dict(
    bboxes=np.array(
        [
            [221.52, 405.8, 344.98, 857.54],  # Box enclosing person
            [120, 425, 160, 445],  # Box enclosing glasses
        ],
    ),
    cls=np.array(
        [
            0,  # ID to be assigned for person
            1,  # ID to be assigned for glasses
        ]
    ),
)

# Run inference on an image, using the provided visual prompts as guidance
results = model.predict(
    "ultralytics/assets/bus.jpg",
    visual_prompts=visual_prompts,
    predictor=YOLOEVPSegPredictor,
)

# Show results
results[0].show()

YOLOE-26 incluye variantes sin incitación que vienen con un vocabulario incorporado. Estos modelos no requieren incitaciones y funcionan como los modelos YOLO tradicionales. En lugar de depender de etiquetas proporcionadas por el usuario o ejemplos visuales, detect objetos de una lista predefinida de 4.585 clases basada en el conjunto de etiquetas utilizado por el Recognize Anything Model Plus (RAM++).

from ultralytics import YOLO

# Initialize model
model = YOLO("yoloe-26l-seg-pf.pt")

# Run prediction. No prompts required.
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

Para una inmersión profunda en las técnicas de incitación, el entrenamiento desde cero y ejemplos de uso completos, visite la Documentación de YOLOE.

Citas y agradecimientos

Publicación de Ultralytics YOLO26

Ultralytics no ha publicado un artículo de investigación formal para YOLO26 debido a la naturaleza rápidamente cambiante de los modelos. En cambio, nos centramos en ofrecer modelos de vanguardia y hacerlos fáciles de usar. Para obtener las últimas actualizaciones sobre las características, arquitecturas y el uso de YOLO, visite nuestro repositorio de GitHub y nuestra documentación.

Si utiliza YOLO26 u otro software de Ultralytics en su trabajo, por favor, cítelo como:

@software{yolo26_ultralytics,
  author = {Glenn Jocher and Jing Qiu},
  title = {Ultralytics YOLO26},
  version = {26.0.0},
  year = {2026},
  url = {https://github.com/ultralytics/ultralytics},
  orcid = {0000-0001-5950-6979, 0000-0003-3783-7069},
  license = {AGPL-3.0}
}

DOI pendiente. YOLO26 está disponible bajo licencias AGPL-3.0 y Enterprise.


Preguntas frecuentes

¿Cuáles son las mejoras clave en YOLO26 en comparación con YOLO11?

  • Eliminación de DFL: Simplifica la exportación y amplía la compatibilidad con el edge
  • Inferencia integral sin NMS: Elimina NMS para una implementación más rápida y sencilla
  • ProgLoss + STAL: Aumenta la precisión, especialmente en objetos pequeños
  • Optimizador MuSGD: Combina SGD y Muon (inspirado en Kimi K2 de Moonshot) para un entrenamiento más estable y eficiente
  • Inferencia de CPU hasta un 43% más rápida: Importantes ganancias de rendimiento para dispositivos solo con CPU

¿Qué tareas soporta YOLO26?

YOLO26 es una familia de modelos unificada, que proporciona soporte de extremo a extremo para múltiples tareas de visión por computadora:

Cada variante de tamaño (n, s, m, l, x) admite todas las tareas, además de versiones de vocabulario abierto a través de YOLOE-26.

¿Por qué está YOLO26 optimizado para la implementación en el edge?

YOLO26 ofrece un rendimiento de vanguardia en el edge con:

  • Inferencia en CPU hasta un 43% más rápida
  • Tamaño de modelo y huella de memoria reducidos
  • Arquitectura simplificada para compatibilidad (sin DFL, sin NMS)
  • Formatos de exportación flexibles que incluyen TensorRT, ONNX, CoreML, TFLite y OpenVINO

¿Cómo empiezo con YOLO26?

Los modelos YOLO26 fueron lanzados el 14 de enero de 2026 y están disponibles para su descarga. Instale o actualice el ultralytics paquete y cargue un modelo:

from ultralytics import YOLO

# Load a pretrained YOLO26 nano model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("image.jpg")

Consulte la sección de Ejemplos de Uso para obtener instrucciones de entrenamiento, validación y exportación.



📅 Creado hace 3 meses ✏️ Actualizado hace 0 días
glenn-jocherY-T-GLaughing-qraimbekovmfcakyonlmycrosspderrenger

Comentarios