Ir al contenido

YOLO11 frente a YOLOv8: evolución arquitectónica y análisis de rendimiento

Seleccionar el modelo óptimo de visión por ordenador es una decisión crítica para desarrolladores e investigadores que buscan un equilibrio entre precisión, velocidad y eficiencia de recursos. Esta página ofrece una comparación técnica exhaustiva entre Ultralytics YOLO11 y Ultralytics YOLOv8dos arquitecturas líderes del sector diseñadas para la detección de objetos y tareas de visión avanzadas. Analizamos sus innovaciones arquitectónicas, métricas de referencia y escenarios de implantación ideales para ayudarle a determinar cuál es la que mejor se adapta a sus aplicaciones de inteligencia artificial.

Ultralytics YOLO11

Autores: Glenn Jocher, Jing Qiu
Organización:Ultralytics
Fecha: 2024-09-27
GitHubultralytics
Docsyolo11

YOLO11 representa la última evolución de la famosa serie YOLO , con mejoras significativas en la extracción de características y la eficiencia del procesamiento. Gracias al perfeccionamiento de las arquitecturas de la columna vertebral y el cuello, YOLO11 logra una mayor precisión media (mAP ) utilizando menos parámetros que sus predecesores. Admite de forma nativa un amplio espectro de tareas, como la segmentación de instancias, la clasificación de imágenes, la estimación de poses y los recuadros delimitadores orientados (OBB).

Arquitectura y Características Clave

La arquitectura YOLO11 introduce el bloque C3k2, una versión optimizada del cuello de botella CSP (Cross Stage Partial), y el módulo C2PSA (Cross Stage Partial with Spatial Attention). Estos componentes mejoran la capacidad del modelo para captar patrones visuales complejos y relaciones espaciales, al tiempo que minimizan la sobrecarga computacional. Esta filosofía de diseño garantiza que YOLO11 sobresalga en escenarios de inferencia en tiempo real, especialmente en dispositivos periféricos donde los recursos computacionales son limitados.

Fortalezas

  • Precisión de vanguardia: Ofrece un rendimiento de detección superior en todas las escalas del modelo, superando sistemáticamente a las iteraciones anteriores en el conjunto de datosCOCO .
  • Eficiencia deCPU : Las opciones arquitectónicas optimizadas dan como resultado velocidades de inferencia significativamente más rápidas en las CPU, lo que la convierte en la mejor opción para implementaciones sin servidor o de borde.
  • Eficiencia de parámetros: Consigue una gran precisión con menos parámetros y FLOPs, reduciendo los requisitos de almacenamiento del modelo.
  • Marco unificado: Maneja a la perfección múltiples tareas de visión dentro de una API única y fácil de usar.

Debilidades

  • Madurez del ecosistema: Al ser una versión más reciente, el volumen de tutoriales de terceros y contenidos generados por la comunidad está creciendo rápidamente, pero puede ser menos extenso que el establecido YOLOv8.
  • Intensidad de recursos para modelos de gran tamaño: Aunque eficientes, las variantes más grandes (por ejemplo, YOLO11x) siguen exigiendo importantes recursos de GPU para el entrenamiento y la inferencia de alto rendimiento.

Casos de uso

YOLO11 es la mejor elección para aplicaciones que requieren la mayor relación precisión-velocidad posible:

  • Edge AI: implantación de la detección de alto rendimiento en dispositivos NVIDIA Jetson o Raspberry Pi.
  • Robótica en tiempo real: Navegación autónoma e interacción con objetos con latencia mínima.
  • Imágenes médicas: Asistencia en el análisis preciso de imágenes médicas para diagnósticos en los que la precisión es primordial.

Más información sobre YOLO11

Ultralytics YOLOv8

Autores: Glenn Jocher, Ayush Chaurasia, Jing Qiu
Organización:Ultralytics
Fecha: 2023-01-10
GitHubultralytics
Docsyolov8

Lanzado a principios de 2023, YOLOv8 redefinió el estándar para la detección de objetos en tiempo real. Introdujo un cabezal de detección sin anclajes y el módulo troncal C2f, lo que supuso un cambio significativo con respecto a los enfoques basados en anclajes. YOLOv8 es famoso por su estabilidad, versatilidad y el enorme ecosistema que se ha desarrollado a su alrededor, lo que lo convierte en uno de los modelos de visión más adoptados en todo el mundo.

Arquitectura y Características Clave

YOLOv8 utiliza una modificación de la red troncal CSPDarknet53, incorporando módulos C2f que permiten un flujo de gradiente más rico. Su diseño sin anclajes simplifica el proceso de supresión no máxima (NMS ) y reduce la complejidad del ajuste de hiperparámetros relacionado con las cajas de anclaje. El modelo es altamente escalable, ofreciendo variantes desde Nano (n) a Extra Large (x) para adaptarse a diversos presupuestos computacionales.

Fortalezas

  • Fiabilidad probada: ampliamente probada en entornos de producción de todo el mundo, lo que garantiza una gran estabilidad.
  • Ecosistema enriquecido: respaldado por miles de tutoriales, integraciones y proyectos de la comunidad.
  • Versatilidad: Al igual que YOLO11, admite detección, segmentación, clasificación y estimación de la pose.
  • Base sólida: sigue ofreciendo un rendimiento competitivo que supera al de muchas arquitecturas no YOLO .

Debilidades

  • Diferencias de rendimiento: generalmente superado por YOLO11 tanto en precisiónmAP) como en velocidad de inferencia, especialmente en hardware de CPU .
  • Mayor coste computacional: Requiere algo más de parámetros y FLOPs para lograr una precisión comparable a YOLO11.

Casos de uso

YOLOv8 sigue siendo una excelente opción para:

  • Sistemas heredados: Proyectos ya integrados con flujos de trabajo YOLOv8 que requieren estabilidad en lugar de un rendimiento de vanguardia.
  • Herramientas educativas: Aprendizaje de conceptos de visión por ordenador mediante un modelo con amplia documentación y ejemplos de la comunidad.
  • Detección de uso general: Rendimiento fiable para aplicaciones estándar de seguridad y vigilancia.

Más información sobre YOLOv8

Cara a cara de rendimiento

La diferencia más significativa entre estos dos modelos radica en su eficacia. YOLOv8logra una "mejora de Pareto" con respecto a YOLOv8una mayor precisión con un menor coste computacional.

Análisis de eficiencia y velocidad

Las optimizaciones arquitectónicas de YOLO11 (C3k2, C2PSA) le permiten procesar imágenes con mayor rapidez y conservar características más precisas. Esto es más evidente en la inferencia deCPU , donde los modelos de YOLO11 muestran aumentos sustanciales de velocidad. Por ejemplo, el modelo YOLO11n es aproximadamente un 30% más rápido en la CPU que YOLOv8n , a la vez que consigue un mAP más alto.

En cuanto a la inferenciaGPU , los modelos YOLO11 también demuestran una menor latencia en la mayoría de los tamaños, lo que los hace muy eficaces para las cadenas de procesamiento de vídeo en tiempo real.

Eficiencia de la memoria

Tanto Ultralytics YOLO11 como YOLOv8 están diseñados para un bajo consumo de memoria durante el entrenamiento y la inferencia en comparación con los modelos basados en transformadores como RT-DETR. Esto los hace mucho más accesibles para los desarrolladores que utilizan hardware de consumo o entornos en la nube con memoria CUDA limitada.

Métricas comparativas

La tabla siguiente ilustra las mejoras de rendimiento. Obsérvese la reducción de parámetros y FLOPs de YOLO11 junto con el aumento de mAP.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

La ventaja del ecosistema Ultralytics

Elegir un modelo Ultralytics significa acceder a un ecosistema integral diseñado para agilizar todo el ciclo de vida de MLOps.

  • Facilidad de uso: Ambos modelos comparten el mismo API de Python y la interfaz de línea de comandosCLI). El cambio de YOLOv8 a YOLO11 a menudo requiere cambiar un solo carácter en su cadena de código (por ejemplo, "yolov8n.pt" a datos "yolo11n.pt").
  • Eficacia de la formación: Los modelos Ultralytics utilizan rutinas de entrenamiento avanzadas que incluyen el aumento del mosaico y la evolución de hiperparámetros. Los pesos preentrenados están fácilmente disponibles, lo que permite un aprendizaje por transferencia eficiente en conjuntos de datos personalizados.
  • Versatilidad: A diferencia de muchos competidores limitados a tareas específicas, los modelos de Ultralytics ofrecen soporte nativo para detección, segmentación, clasificación, pose y OBB dentro de un paquete unificado.
  • Despliegue: Exporte modelos fácilmente a formatos como ONNX, TensorRTCoreML y OpenVINO para un despliegue optimizado en hardware diverso.

Ejemplo de uso unificado

El diseño compartido de la API permite experimentar sin esfuerzo. A continuación se explica cómo cargar y ejecutar predicciones con cualquiera de los dos modelos:

from ultralytics import YOLO

# Load YOLO11 or YOLOv8 by simply changing the model name
model = YOLO("yolo11n.pt")  # or "yolov8n.pt"

# Train on a custom dataset
# model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
results[0].show()

Conclusión: ¿Qué modelo debería elegir?

Para la gran mayoría de los nuevos proyectos, YOLO11 es la opción recomendada. Sus avances arquitectónicos suponen una clara ventaja tanto en precisión como en velocidad, sobre todo para aplicaciones de computación periférica en las que la eficiencia es fundamental. La reducción del número de parámetros también implica menores requisitos de almacenamiento y tiempos de descarga más rápidos para las implantaciones móviles.

YOLOv8 sigue siendo una herramienta potente y relevante, especialmente para los equipos con pipelines existentes profundamente integrados con versiones específicas YOLOv8 o para aquellos que confían en la absoluta madurez de su ecosistema de documentación. Sin embargo, la migración a YOLO11 suele ser sencilla y ofrece ventajas inmediatas en cuanto al rendimiento.

Ambos modelos se publican bajo la AGPL-3.0 que fomenta la colaboración de código abierto, con licencias de empresa disponibles para productos comerciales que requieran funciones propietarias.

Explorar Otros Modelos

Aunque YOLO11 y YOLOv8 son excelentes detectores de uso general, los requisitos específicos podrían beneficiarse de otras arquitecturas de la familia Ultralytics :

  • YOLOv10: se centra en la formación NMS para reducir la latencia.
  • YOLOv9: Hace hincapié en la información de gradiente programable para el entrenamiento de modelos profundos.
  • RT-DETR: un detector basado en transformadores que ofrece una gran precisión, aunque con mayores requisitos de memoria y computación.

Explore nuestra gama completa de comparaciones de modelos para encontrar el que mejor se adapte a su proyecto.


Comentarios