Ir al contenido

Ultralytics YOLO11

Visión general

YOLO11 es la última iteración de la serie YOLO de Ultralytics de detectores de objetos en tiempo real, que redefine lo que es posible con precisión, velocidad y eficiencia de vanguardia. Basándose en los impresionantes avances de las versiones anteriores de YOLO, YOLO11 introduce mejoras significativas en la arquitectura y los métodos de entrenamiento, lo que la convierte en una opción versátil para una amplia gama de tareas de visión artificial.

Gráficos de Comparación de Ultralytics YOLO11

Ultralytics YOLO11 🚀 Podcast generado por NotebookLM



Ver: Cómo utilizar Ultralytics YOLO11 para la detección y el seguimiento de objetos | Cómo realizar pruebas comparativas | YOLO11 LANZADO🚀

Características clave

  • Extracción de características mejorada: YOLO11 emplea una red troncal y una arquitectura de cuello de botella mejoradas, lo que mejora las capacidades de extracción de características para una detección de objetos más precisa y un rendimiento de tareas complejas.
  • Optimizado para la eficiencia y la velocidad: YOLO11 introduce diseños arquitectónicos refinados y canalizaciones de entrenamiento optimizadas, que ofrecen velocidades de procesamiento más rápidas y mantienen un equilibrio óptimo entre precisión y rendimiento.
  • Mayor precisión con menos parámetros: Con los avances en el diseño de modelos, YOLO11m logra una mayor precisión media promedio (mAP) en el conjunto de datos COCO al tiempo que utiliza un 22% menos de parámetros que YOLOv8m, lo que lo hace computacionalmente eficiente sin comprometer la precisión.
  • Adaptabilidad en todos los entornos: YOLO11 se puede implementar sin problemas en varios entornos, incluidos dispositivos de borde, plataformas en la nube y sistemas que admiten GPU de NVIDIA, lo que garantiza la máxima flexibilidad.
  • Amplia gama de tareas admitidas: Ya sea detección de objetos, segmentación de instancias, clasificación de imágenes, estimación de poses o detección de objetos orientados (OBB), YOLO11 está diseñado para satisfacer un conjunto diverso de desafíos de visión artificial.

Tareas y modos admitidos

YOLO11 se basa en la versátil gama de modelos introducida en YOLOv8, que ofrece soporte mejorado para diversas tareas de visión artificial:

Modelo Nombres de archivo Tarea Inferencia Validación Entrenamiento Exportar
YOLO11 yolo11n.pt yolo11s.pt yolo11m.pt yolo11l.pt yolo11x.pt Detección
YOLO11-seg yolo11n-seg.pt yolo11s-seg.pt yolo11m-seg.pt yolo11l-seg.pt yolo11x-seg.pt Segmentación de instancias
YOLO11-pose yolo11n-pose.pt yolo11s-pose.pt yolo11m-pose.pt yolo11l-pose.pt yolo11x-pose.pt Pose/Keypoints
YOLO11-obb yolo11n-obb.pt yolo11s-obb.pt yolo11m-obb.pt yolo11l-obb.pt yolo11x-obb.pt Detección Orientada
YOLO11-cls yolo11n-cls.pt yolo11s-cls.pt yolo11m-cls.pt yolo11l-cls.pt yolo11x-cls.pt Clasificación

Esta tabla proporciona una visión general de las variantes del modelo YOLO11, mostrando su aplicabilidad en tareas específicas y su compatibilidad con modos operativos como Inferencia, Validación, Entrenamiento y Exportación. Esta flexibilidad hace que YOLO11 sea adecuado para una amplia gama de aplicaciones en visión artificial, desde la detección en tiempo real hasta tareas complejas de segmentación.

Métricas de rendimiento

Rendimiento

Consulte la Documentación de detección para ver ejemplos de uso con estos modelos entrenados en COCO, que incluyen 80 clases pre-entrenadas.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO11n 640 39.5 56.1 ± 0.8 1.5 ± 0.0 2.6 6.5
YOLO11s 640 47.0 90.0 ± 1.2 2.5 ± 0.0 9.4 21.5
YOLO11m 640 51.5 183.2 ± 2.0 4.7 ± 0.1 20.1 68.0
YOLO11l 640 53.4 238.6 ± 1.4 6.2 ± 0.1 25.3 86.9
YOLO11x 640 54.7 462.8 ± 6.7 11.3 ± 0.2 56.9 194.9

Consulte la Documentación de segmentación para ver ejemplos de uso con estos modelos entrenados en COCO, que incluyen 80 clases pre-entrenadas.

Modelo tamaño
(píxeles)
mAPbox
50-95
mAPmask
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO11n-seg 640 38.9 32.0 65.9 ± 1.1 1.8 ± 0.0 2.9 10.4
YOLO11s-seg 640 46.6 37.8 117.6 ± 4.9 2.9 ± 0.0 10.1 35.5
YOLO11m-seg 640 51.5 41.5 281.6 ± 1.2 6.3 ± 0.1 22.4 123.3
YOLO11l-seg 640 53.4 42.9 344.2 ± 3.2 7.8 ± 0.2 27.6 142.2
YOLO11x-seg 640 54.7 43.8 664.5 ± 3.2 15.8 ± 0.7 62.1 319.0

Consulte la Documentación de clasificación para ver ejemplos de uso con estos modelos entrenados en ImageNet, que incluyen 1000 clases pre-entrenadas.

Modelo tamaño
(píxeles)
acc
top1
acc
top5
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B) a 224
YOLO11n-cls 224 70.0 89.4 5.0 ± 0.3 1.1 ± 0.0 1.6 0.5
YOLO11s-cls 224 75.4 92.7 7.9 ± 0.2 1.3 ± 0.0 5.5 1.6
YOLO11m-cls 224 77.3 93.9 17.2 ± 0.4 2.0 ± 0.0 10.4 5.0
YOLO11l-cls 224 78.3 94.3 23.2 ± 0.3 2.8 ± 0.0 12.9 6.2
YOLO11x-cls 224 79.5 94.9 41.4 ± 0.9 3.8 ± 0.0 28.4 13.7

Consulte la Documentación de Estimación de Pose para ver ejemplos de uso con estos modelos entrenados en COCO, que incluyen 1 clase pre-entrenada, 'persona'.

Modelo tamaño
(píxeles)
mAPpose
50-95
mAPpose
50
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO11n-pose 640 50.0 81.0 52.4 ± 0.5 1.7 ± 0.0 2.9 7.6
YOLO11s-pose 640 58.9 86.3 90.5 ± 0.6 2.6 ± 0.0 9.9 23.2
YOLO11m-pose 640 64.9 89.4 187.3 ± 0.8 4.9 ± 0.1 20.9 71.7
YOLO11l-pose 640 66.1 89.9 247.7 ± 1.1 6.4 ± 0.1 26.2 90.7
YOLO11x-pose 640 69.5 91.1 488.0 ± 13.9 12.1 ± 0.2 58.8 203.3

Consulte la documentación sobre detección orientada para ver ejemplos de uso con estos modelos entrenados en DOTAv1, que incluye 15 clases preentrenadas.

Modelo tamaño
(píxeles)
mAPtest
50
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO11n-obb 1024 78.4 117.6 ± 0.8 4.4 ± 0.0 2.7 17.2
YOLO11s-obb 1024 79.5 219.4 ± 4.0 5.1 ± 0.0 9.7 57.5
YOLO11m-obb 1024 80.9 562.8 ± 2.9 10.1 ± 0.4 20.9 183.5
YOLO11l-obb 1024 81.0 712.5 ± 5.0 13.5 ± 0.6 26.2 232.0
YOLO11x-obb 1024 81.3 1408.6 ± 7.7 28.6 ± 1.0 58.8 520.2

Ejemplos de uso

Esta sección proporciona ejemplos sencillos de entrenamiento e inferencia de YOLO11. Para obtener documentación completa sobre estos y otros modos, consulte las páginas de documentación de Predict, Train, Val y Export.

Tenga en cuenta que el siguiente ejemplo es para los modelos YOLO11 Detect para la detección de objetos. Para tareas adicionales admitidas, consulte los documentos de Segment, Classify, OBB y Pose.

Ejemplo

PyTorch preentrenados *.pt modelos, así como la configuración *.yaml los archivos se pueden pasar a la YOLO() class para crear una instancia de modelo en Python:

from ultralytics import YOLO

# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the YOLO11n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

Hay comandos de la CLI disponibles para ejecutar directamente los modelos:

# Load a COCO-pretrained YOLO11n model and train it on the COCO8 example dataset for 100 epochs
yolo train model=yolo11n.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained YOLO11n model and run inference on the 'bus.jpg' image
yolo predict model=yolo11n.pt source=path/to/bus.jpg

Citas y agradecimientos

Publicación de Ultralytics YOLO11

Ultralytics no ha publicado un artículo de investigación formal para YOLO11 debido a la naturaleza rápidamente cambiante de los modelos. Nos centramos en avanzar en la tecnología y facilitar su uso, en lugar de producir documentación estática. Para obtener la información más actualizada sobre la arquitectura, las características y el uso de YOLO, consulte nuestro repositorio de GitHub y nuestra documentación.

Si utiliza YOLO11 o cualquier otro software de este repositorio en su trabajo, por favor, cítelo utilizando el siguiente formato:

@software{yolo11_ultralytics,
  author = {Glenn Jocher and Jing Qiu},
  title = {Ultralytics YOLO11},
  version = {11.0.0},
  year = {2024},
  url = {https://github.com/ultralytics/ultralytics},
  orcid = {0000-0001-5950-6979, 0000-0003-3783-7069},
  license = {AGPL-3.0}
}

Tenga en cuenta que el DOI está pendiente y se añadirá a la cita una vez que esté disponible. Los modelos YOLO11 se proporcionan bajo licencias AGPL-3.0 y Enterprise.

Preguntas frecuentes

¿Cuáles son las mejoras clave en Ultralytics YOLO11 en comparación con las versiones anteriores?

Ultralytics YOLO11 introduce varias mejoras significativas con respecto a sus predecesores. Las mejoras clave incluyen:

  • Extracción de Características Mejorada: YOLO11 emplea una arquitectura backbone y neck mejorada, optimizando las capacidades de extracción de características para una detección de objetos más precisa.
  • Eficiencia y Velocidad Optimizadas: Los diseños arquitectónicos refinados y los pipelines de entrenamiento optimizados ofrecen velocidades de procesamiento más rápidas, manteniendo un equilibrio entre precisión y rendimiento.
  • Mayor Precisión con Menos Parámetros: YOLO11m alcanza una mayor Precisión Media (mAP) en el conjunto de datos COCO con un 22% menos de parámetros que YOLOv8m, lo que lo hace computacionalmente eficiente sin comprometer la precisión.
  • Adaptabilidad en Diversos Entornos: YOLO11 se puede implementar en diversos entornos, incluidos dispositivos edge, plataformas en la nube y sistemas que admiten GPU NVIDIA.
  • Amplia Gama de Tareas Compatibles: YOLO11 admite diversas tareas de visión artificial, como la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de la pose y la detección de objetos orientados (OBB).

¿Cómo entreno un modelo YOLO11 para la detección de objetos?

El entrenamiento de un modelo YOLO11 para la detección de objetos se puede realizar utilizando comandos de Python o CLI. A continuación, se muestran ejemplos de ambos métodos:

Ejemplo

from ultralytics import YOLO

# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Load a COCO-pretrained YOLO11n model and train it on the COCO8 example dataset for 100 epochs
yolo train model=yolo11n.pt data=coco8.yaml epochs=100 imgsz=640

Para obtener instrucciones más detalladas, consulte la documentación de Train.

¿Qué tareas pueden realizar los modelos YOLO11?

Los modelos YOLO11 son versátiles y admiten una amplia gama de tareas de visión artificial, incluyendo:

  • Detección de Objetos: Identificación y localización de objetos dentro de una imagen.
  • Segmentación de Instancias: Detección de objetos y delineación de sus límites.
  • Clasificación de Imágenes: Clasificación de imágenes en clases predefinidas.
  • Estimación de la Pose: Detección y seguimiento de puntos clave en cuerpos humanos.
  • Detección de objetos orientados (OBB): Detección de objetos con rotación para mayor precisión.

Para obtener más información sobre cada tarea, consulte la documentación de Detección, Segmentación de instancias, Clasificación, Estimación de pose y Detección orientada.

¿Cómo logra YOLO11 una mayor precisión con menos parámetros?

YOLO11 logra una mayor precisión con menos parámetros gracias a los avances en el diseño de modelos y las técnicas de optimización. La arquitectura mejorada permite una extracción y un procesamiento de características eficientes, lo que da como resultado una mayor precisión media promedio (mAP) en conjuntos de datos como COCO, al tiempo que utiliza un 22% menos de parámetros que YOLOv8m. Esto hace que YOLO11 sea computacionalmente eficiente sin comprometer la precisión, lo que lo hace adecuado para su implementación en dispositivos con recursos limitados.

¿Se puede implementar YOLO11 en dispositivos de borde?

Sí, YOLO11 está diseñado para adaptarse a diversos entornos, incluidos los dispositivos edge. Su arquitectura optimizada y sus capacidades de procesamiento eficiente lo hacen adecuado para su implementación en dispositivos edge, plataformas en la nube y sistemas que admiten GPU NVIDIA. Esta flexibilidad garantiza que YOLO11 pueda utilizarse en diversas aplicaciones, desde la detección en tiempo real en dispositivos móviles hasta tareas complejas de segmentación en entornos de nube. Para obtener más detalles sobre las opciones de implementación, consulte la documentación de Exportación.



📅 Creado hace 11 meses ✏️ Actualizado hace 1 mes

Comentarios