Ultralytics YOLO11
Visión general
YOLO11 es la última iteración de la serie Ultralytics YOLO de detectores de objetos en tiempo real, que redefine lo que es posible con una precisión, velocidad y eficacia de vanguardia. Basándose en los impresionantes avances de las versiones anteriores de YOLO , YOLO11 introduce mejoras significativas en la arquitectura y los métodos de entrenamiento, lo que lo convierte en una opción versátil para una amplia gama de tareas de visión por ordenador.
Ultralytics YOLO11 🚀 Podcast generated by NotebookLM
Observa: Cómo utilizar Ultralytics YOLO11 para la detección y el seguimiento de objetos | Cómo realizar pruebas de rendimiento | YOLO11 RELEASED🚀
Características principales
- Extracción de características mejorada: YOLO11 emplea una arquitectura mejorada de columna vertebral y cuello, que mejora las capacidades de extracción de características para una detección de objetos más precisa y un rendimiento en tareas complejas.
- Optimizado para la eficiencia y la velocidad: YOLO11 introduce diseños arquitectónicos refinados y canales de formación optimizados, lo que proporciona velocidades de procesamiento más rápidas y mantiene un equilibrio óptimo entre precisión y rendimiento.
- Mayor precisión con menos parámetros: Gracias a los avances en el diseño de modelos, YOLO11m consigue una mayor precisión media (mAP) en el conjunto de datos COCO utilizando un 22% menos de parámetros que YOLOv8m, lo que lo hace eficiente desde el punto de vista informático sin comprometer la precisión.
- Adaptabilidad en distintos entornos: YOLO11 puede implementarse sin problemas en distintos entornos, incluidos dispositivos periféricos, plataformas en la nube y sistemas compatibles con GPU NVIDIA , lo que garantiza la máxima flexibilidad.
- Amplia gama de tareas soportadas: Ya se trate de la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de poses o la detección de objetos orientada (OBB), YOLO11 está diseñado para atender a un conjunto diverso de retos de visión por ordenador.
Tareas y modos compatibles
YOLO11 se basa en la versátil gama de modelos introducida en YOLOv8, y ofrece una mayor compatibilidad con diversas tareas de visión por ordenador:
Modelo | Nombres de archivo | Tarea | Inferencia | Validación | Formación | Exportar |
---|---|---|---|---|---|---|
YOLO11 | yolo11n.pt yolo11s.pt yolo11m.pt yolo11l.pt yolo11x.pt |
Detección | ✅ | ✅ | ✅ | ✅ |
YOLO11-seg | yolo11n-seg.pt yolo11s-seg.pt yolo11m-seg.pt yolo11l-seg.pt yolo11x-seg.pt |
Segmentación de instancias | ✅ | ✅ | ✅ | ✅ |
YOLO11-pose | yolo11n-pose.pt yolo11s-pose.pt yolo11m-pose.pt yolo11l-pose.pt yolo11x-pose.pt |
Pose/Puntos clave | ✅ | ✅ | ✅ | ✅ |
YOLO11-obb | yolo11n-obb.pt yolo11s-obb.pt yolo11m-obb.pt yolo11l-obb.pt yolo11x-obb.pt |
Detección orientada | ✅ | ✅ | ✅ | ✅ |
YOLO11-cls | yolo11n-cls.pt yolo11s-cls.pt yolo11m-cls.pt yolo11l-cls.pt yolo11x-cls.pt |
Clasificación | ✅ | ✅ | ✅ | ✅ |
Esta tabla proporciona una visión general de las variantes del modelo YOLO11 , mostrando su aplicabilidad en tareas específicas y su compatibilidad con modos operativos como Inferencia, Validación, Entrenamiento y Exportación. Esta flexibilidad hace que YOLO11 sea adecuado para una amplia gama de aplicaciones en visión por ordenador, desde la detección en tiempo real hasta tareas de segmentación complejas.
Métricas de rendimiento
Rendimiento
Consulte Detection Docs para ver ejemplos de uso con estos modelos entrenados en COCO, que incluyen 80 clases preentrenadas.
Modelo | tamaño (píxeles) |
mAPval 50-95 |
Velocidad CPU ONNX (ms) |
Velocidad T4TensorRT10 (ms) |
parámetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 ± 0.8 | 1.5 ± 0.0 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 ± 1.2 | 2.5 ± 0.0 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 ± 2.0 | 4.7 ± 0.1 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 ± 1.4 | 6.2 ± 0.1 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 ± 6.7 | 11.3 ± 0.2 | 56.9 | 194.9 |
Consulte Segmentation Docs para ver ejemplos de uso con estos modelos entrenados en COCO, que incluyen 80 clases preentrenadas.
Modelo | tamaño (píxeles) |
mAPbox 50-95 |
mAPmask 50-95 |
Velocidad CPU ONNX (ms) |
Velocidad T4TensorRT10 (ms) |
parámetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|---|
YOLO11n-seg | 640 | 38.9 | 32.0 | 65.9 ± 1.1 | 1.8 ± 0.0 | 2.9 | 10.4 |
YOLO11s-seg | 640 | 46.6 | 37.8 | 117.6 ± 4.9 | 2.9 ± 0.0 | 10.1 | 35.5 |
YOLO11m-seg | 640 | 51.5 | 41.5 | 281.6 ± 1.2 | 6.3 ± 0.1 | 22.4 | 123.3 |
YOLO11l-seg | 640 | 53.4 | 42.9 | 344.2 ± 3.2 | 7.8 ± 0.2 | 27.6 | 142.2 |
YOLO11x-seg | 640 | 54.7 | 43.8 | 664.5 ± 3.2 | 15.8 ± 0.7 | 62.1 | 319.0 |
Consulte Documentos de clasificación para ver ejemplos de uso con estos modelos entrenados en ImageNet, que incluyen 1000 clases preentrenadas.
Modelo | tamaño (píxeles) |
acc top1 |
acc top5 |
Velocidad CPU ONNX (ms) |
Velocidad T4TensorRT10 (ms) |
parámetros (M) |
FLOPs (B) a 640 |
---|---|---|---|---|---|---|---|
YOLO11n-cls | 224 | 70.0 | 89.4 | 5.0 ± 0.3 | 1.1 ± 0.0 | 1.6 | 3.3 |
YOLO11s-cls | 224 | 75.4 | 92.7 | 7.9 ± 0.2 | 1.3 ± 0.0 | 5.5 | 12.1 |
YOLO11m-cls | 224 | 77.3 | 93.9 | 17.2 ± 0.4 | 2.0 ± 0.0 | 10.4 | 39.3 |
YOLO11l-cls | 224 | 78.3 | 94.3 | 23.2 ± 0.3 | 2.8 ± 0.0 | 12.9 | 49.4 |
YOLO11x-cls | 224 | 79.5 | 94.9 | 41.4 ± 0.9 | 3.8 ± 0.0 | 28.4 | 110.4 |
Ver Pose Estimation Docs para ejemplos de uso con estos modelos entrenados en COCO, que incluyen 1 clase pre-entrenada, 'persona'.
Modelo | tamaño (píxeles) |
mAPpose 50-95 |
mAPpose 50 |
Velocidad CPU ONNX (ms) |
Velocidad T4TensorRT10 (ms) |
parámetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|---|
YOLO11n-pose | 640 | 50.0 | 81.0 | 52.4 ± 0.5 | 1.7 ± 0.0 | 2.9 | 7.6 |
YOLO11s-pose | 640 | 58.9 | 86.3 | 90.5 ± 0.6 | 2.6 ± 0.0 | 9.9 | 23.2 |
YOLO11m-pose | 640 | 64.9 | 89.4 | 187.3 ± 0.8 | 4.9 ± 0.1 | 20.9 | 71.7 |
YOLO11l-pose | 640 | 66.1 | 89.9 | 247.7 ± 1.1 | 6.4 ± 0.1 | 26.2 | 90.7 |
YOLO11x-pose | 640 | 69.5 | 91.1 | 488.0 ± 13.9 | 12.1 ± 0.2 | 58.8 | 203.3 |
Consulte Oriented Detection Docs para ver ejemplos de uso con estos modelos entrenados en DOTAv1, que incluyen 15 clases preentrenadas.
Modelo | tamaño (píxeles) |
mAPtest 50 |
Velocidad CPU ONNX (ms) |
Velocidad T4TensorRT10 (ms) |
parámetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n-obb | 1024 | 78.4 | 117.6 ± 0.8 | 4.4 ± 0.0 | 2.7 | 17.2 |
YOLO11s-obb | 1024 | 79.5 | 219.4 ± 4.0 | 5.1 ± 0.0 | 9.7 | 57.5 |
YOLO11m-obb | 1024 | 80.9 | 562.8 ± 2.9 | 10.1 ± 0.4 | 20.9 | 183.5 |
YOLO11l-obb | 1024 | 81.0 | 712.5 ± 5.0 | 13.5 ± 0.6 | 26.2 | 232.0 |
YOLO11x-obb | 1024 | 81.3 | 1408.6 ± 7.7 | 28.6 ± 1.0 | 58.8 | 520.2 |
Ejemplos de uso
Esta sección proporciona ejemplos sencillos de entrenamiento e inferencia en YOLO11 . Para obtener documentación completa sobre estos y otros modos, consulte las páginas de documentación de Predecir, Entrenar, Val y Exportar.
Tenga en cuenta que el ejemplo siguiente corresponde a los modelos YOLO11 Detect para la detección de objetos. Para otras tareas compatibles, consulte los documentos Segmentar, Clasificar, OBB y Pose.
Ejemplo
PyTorch preentrenado *.pt
así como la configuración *.yaml
pueden pasarse a la función YOLO()
para crear una instancia del modelo en Python:
from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with the YOLO11n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")
CLI para ejecutar directamente los modelos:
Citas y agradecimientos
Ultralytics YOLO11 Publicación
Ultralytics no ha publicado ningún documento de investigación formal para YOLO11 debido a la rápida evolución de los modelos. Nos centramos en hacer avanzar la tecnología y facilitar su uso, en lugar de producir documentación estática. Para obtener la información más actualizada sobre la arquitectura, las características y el uso de YOLO , consulte nuestro repositorio GitHub y la documentación.
Si utiliza YOLO11 o cualquier otro software de este repositorio en su trabajo, por favor, cítelo utilizando el siguiente formato:
Tenga en cuenta que el DOI está pendiente y se añadirá a la cita una vez que esté disponible. YOLO11 modelos se proporcionan bajo las licencias AGPL-3.0 y Enterprise.
PREGUNTAS FRECUENTES
¿Cuáles son las principales mejoras de Ultralytics YOLO11 con respecto a versiones anteriores?
Ultralytics YOLO11 introduce varios avances significativos con respecto a sus predecesores. Las principales mejoras son:
- Extracción de características mejorada: YOLO11 emplea una arquitectura mejorada de columna vertebral y cuello, que mejora las capacidades de extracción de características para una detección de objetos más precisa.
- Eficiencia y velocidad optimizadas: Los diseños arquitectónicos perfeccionados y los canales de formación optimizados ofrecen velocidades de procesamiento más rápidas, manteniendo el equilibrio entre precisión y rendimiento.
- Mayor precisión con menos parámetros: YOLO11m consigue una mayor precisión media (mAP) en el conjunto de datos COCO con un 22% menos de parámetros que YOLOv8m, lo que lo hace eficiente desde el punto de vista computacional sin comprometer la precisión.
- Adaptabilidad en distintos entornos: YOLO11 puede desplegarse en distintos entornos, incluidos dispositivos periféricos, plataformas en la nube y sistemas compatibles con GPUs NVIDIA .
- Amplia gama de tareas compatibles: YOLO11 admite diversas tareas de visión por ordenador, como la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de poses y la detección de objetos orientada (OBB).
¿Cómo se entrena un modelo YOLO11 para la detección de objetos?
El entrenamiento de un modelo YOLO11 para la detección de objetos puede realizarse mediante los comandos Python o CLI . A continuación se muestran ejemplos de ambos métodos:
Ejemplo
Para obtener instrucciones más detalladas, consulte la documentación del tren.
¿Qué tareas pueden realizar los modelos YOLO11 ?
YOLO11 son versátiles y admiten una amplia gama de tareas de visión por ordenador, entre las que se incluyen:
- Detección de objetos: Identificación y localización de objetos dentro de una imagen.
- Segmentación de instancias: Detección de objetos y delineación de sus límites.
- Clasificación de imágenes: Categorización de imágenes en clases predefinidas.
- Estimación de la pose: Detección y seguimiento de puntos clave en cuerpos humanos.
- Detección de objetos orientados (OBB): Detección de objetos con rotación para mayor precisión.
Para obtener más información sobre cada tarea, consulte la documentación Detección, Segmentación de instancias, Clasificación, Estimación de pose y Detección orientada.
¿Cómo consigue YOLO11 una mayor precisión con menos parámetros?
YOLO11 consigue una mayor precisión con menos parámetros gracias a los avances en el diseño de modelos y las técnicas de optimización. La arquitectura mejorada permite una extracción y un procesamiento eficientes de las características, lo que se traduce en una mayor precisión media (mAP) en conjuntos de datos como COCO, con un 22 % menos de parámetros que YOLOv8m. Esto hace que YOLO11 sea eficiente desde el punto de vista informático sin comprometer la precisión, lo que la hace adecuada para su despliegue en dispositivos con recursos limitados.
¿Puede implantarse YOLO11 en dispositivos periféricos?
Sí, YOLO11 está diseñado para adaptarse a diversos entornos, incluidos los dispositivos periféricos. Su arquitectura optimizada y sus eficientes capacidades de procesamiento lo hacen apto para su implantación en dispositivos periféricos, plataformas en la nube y sistemas compatibles con GPUs NVIDIA . Esta flexibilidad garantiza que YOLO11 pueda utilizarse en diversas aplicaciones, desde la detección en tiempo real en dispositivos móviles hasta complejas tareas de segmentación en entornos de nube. Para más detalles sobre las opciones de despliegue, consulte la documentación de exportación.