Ir al contenido

YOLOv8 vs YOLO11: Evolución de la detección de objetos en tiempo real

Elegir la arquitectura de visión artificial adecuada es una decisión crítica que afecta la velocidad, la precisión y la escalabilidad de sus proyectos de IA. Esta guía proporciona una comparación técnica en profundidad entre Ultralytics YOLOv8, un estándar de la industria ampliamente adoptado lanzado en 2023, y Ultralytics YOLO11, la última evolución de la serie YOLO diseñada para una eficiencia y un rendimiento superiores. Analizaremos sus diferencias arquitectónicas, métricas de referencia y casos de uso ideales para ayudarle a seleccionar el mejor modelo para sus necesidades.

Ultralytics YOLOv8

Autores: Glenn Jocher, Ayush Chaurasia y Jing Qiu
Organización:Ultralytics
Fecha: 2023-01-10
GitHub:https://github.com/ultralytics/ultralytics
Docs:https://docs.ultralytics.com/models/yolov8/

Lanzado a principios de 2023, YOLOv8 marcó un hito significativo en la historia de la detección de objetos. Introdujo un marco de trabajo unificado que admite múltiples tareas de visión artificial, incluyendo la detección, la segmentación de instancias, la estimación de poses y la clasificación de imágenes, dentro de un único repositorio. YOLOv8 se alejó de la detección basada en anclajes para adoptar un enfoque libre de anclajes, lo que simplifica el diseño y mejora la generalización en diferentes formas de objetos.

Arquitectura y Características Clave

YOLOv8 reemplazó los módulos C3 que se encuentran en YOLOv5 con el módulo C2f (Cuello de botella parcial entre etapas con dos convoluciones). Este cambio mejoró el flujo de gradiente y la integración de características, manteniendo una huella ligera. La arquitectura también presenta un head desacoplado, que separa las tareas de objetividad, clasificación y regresión para aumentar la precisión.

Legado de fiabilidad

YOLOv8 ha sido probado en miles de aplicaciones comerciales, desde la automatización de la fabricación hasta los vehículos autónomos, estableciendo una reputación de estabilidad y facilidad de implementación.

Fortalezas y Debilidades

  • Ventajas:
    • Ecosistema maduro: Respaldado por una amplia gama de tutoriales de la comunidad, integraciones y guías de implementación.
    • Versatilidad: Admite de forma nativa OBB (cuadro delimitador orientado) y la clasificación junto con la detección estándar.
    • Estabilidad comprobada: Una opción segura para entornos de producción que requieren un modelo con una larga trayectoria.
  • Debilidades:
    • Eficiencia de velocidad: Aunque es rápido, YOLO11 lo supera en velocidades de inferencia de CPU y eficiencia de parámetros.
    • Requisitos de Cómputo: Las variantes más grandes (L, X) demandan más VRAM y FLOPs en comparación con los equivalentes YOLO11 optimizados.
from ultralytics import YOLO

# Load a pretrained YOLOv8 model
model = YOLO("yolov8n.pt")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

Más información sobre YOLOv8

Ultralytics YOLO11

Autores: Glenn Jocher y Jing Qiu
Organización:Ultralytics
Fecha: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Docs:https://docs.ultralytics.com/models/yolo11/

YOLO11 representa la vanguardia de la familia de modelos Ultralytics . Diseñado para redefinir la inferencia en tiempo real, se basa en los éxitos de YOLOv8 pero introduce importantes mejoras arquitectónicas. YOLO11 se centra en maximizar la precisión a la vez que minimiza el coste computacional, lo que lo convierte en la primera opción para las aplicaciones modernas de IA, desde dispositivos periféricos hasta servidores en la nube.

Arquitectura y Características Clave

YOLO11 introduce el bloque C3k2 y el módulo C2PSA (Cross-Stage Partial with Spatial Attention). Estos componentes mejoran la capacidad del modelo para extraer características intrincadas y manejar la oclusión de manera más efectiva que las iteraciones anteriores. La arquitectura está optimizada para la velocidad, ofreciendo tiempos de procesamiento significativamente más rápidos en las CPUs, un factor crítico para las implementaciones de edge AI donde los recursos de la GPU pueden no estar disponibles.

El modelo mantiene la interfaz unificada característica de Ultralytics, asegurando que los desarrolladores puedan cambiar entre tareas como OBB o segmentación sin cambiar su flujo de trabajo.

Fortalezas y Debilidades

  • Ventajas:
    • Eficiencia superior: Alcanza un mAP más alto con hasta un 22% menos de parámetros que YOLOv8, reduciendo el tamaño del modelo y las necesidades de almacenamiento.
    • Inferencia más rápida: Optimizado específicamente para hardware moderno, ofreciendo velocidades más rápidas tanto en backends de CPU como de GPU.
    • Extracción de características mejorada: El nuevo backbone mejora la detección de objetos pequeños y el rendimiento en escenas desordenadas.
    • Menor uso de memoria: Requiere menos memoria CUDA durante el entrenamiento en comparación con modelos basados en transformadores como RT-DETR, lo que permite el entrenamiento en hardware más accesible.
  • Debilidades:
    • Lanzamiento Más Reciente: Como un modelo reciente, las herramientas específicas de nicho de terceros pueden tardar en actualizar completamente el soporte, aunque el ecosistema central de Ultralytics lo soporta desde el primer día.
from ultralytics import YOLO

# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

Más información sobre YOLO11

Cara a cara de rendimiento

La siguiente comparación destaca las ganancias de eficiencia de YOLO11. Si bien YOLOv8 sigue siendo un contendiente poderoso, YOLO11 ofrece consistentemente una mayor precisión (mAP) con una complejidad computacional (FLOPs) reducida y velocidades de inferencia más rápidas. Esto es particularmente notable en los modelos "Nano" y "Small", donde YOLO11n alcanza un 39.5 mAP en comparación con el 37.3 de YOLOv8n, todo mientras se ejecuta significativamente más rápido en la CPU.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Análisis de métricas

YOLO11 demuestra una clara ventaja en la compensación velocidad-precisión. Por ejemplo, el modelo YOLO11l supera al YOLOv8l en precisión (+0.5 mAP) mientras utiliza aproximadamente un 42% menos de parámetros y se ejecuta un 36% más rápido en la CPU.

Ecosistema y facilidad de uso

Ambos modelos se benefician del robusto ecosistema Ultralytics, que está diseñado para democratizar la IA haciendo que la tecnología de vanguardia sea accesible para todos.

  • API Unificada: Cambiar entre YOLOv8 y YOLO11 es tan sencillo como cambiar la cadena del modelo de yolov8n.pt a datos yolo11n.pt. No se requiere refactorización del código.
  • Eficiencia en el entrenamiento: Ultralytics proporciona descarga automática de conjuntos de datos y pesos pre-entrenados, lo que agiliza el pipeline desde la recopilación de datos hasta el entrenamiento del modelo.
  • Versatilidad de implementación: Ambos modelos admiten la exportación con un solo clic a formatos como ONNX, TensorRT, CoreML y TFLite, lo que facilita la implementación en diversos hardware, incluidos Raspberry Pi, teléfonos móviles e instancias en la nube.
  • Bien mantenido: Las actualizaciones frecuentes garantizan la compatibilidad con las últimas versiones de PyTorch y CUDA, respaldadas por una comunidad activa en Discord y GitHub.

Conclusión y recomendaciones

Si bien YOLOv8 sigue siendo un modelo fiable y muy capaz, adecuado para el mantenimiento de sistemas heredados, YOLO11 es la recomendación clara para todo nuevo desarrollo.

  • Elige YOLO11 si: Necesitas la mayor precisión posible, velocidades de inferencia más rápidas (especialmente en CPU), o estás implementando en dispositivos edge con recursos limitados donde la memoria y el almacenamiento son premium. Sus mejoras arquitectónicas proporcionan una base a prueba de futuro para aplicaciones comerciales.
  • Elige YOLOv8 si: Tienes una pipeline existente muy ajustada para comportamientos específicos de v8 o estás limitado por requisitos estrictos del proyecto que impiden la actualización a la arquitectura más reciente.

Para aquellos interesados en explorar otras arquitecturas, la documentación de Ultralytics también cubre modelos como YOLOv9, YOLOv10 y RT-DETR. Puede ver comparaciones más amplias en nuestra página de comparación de modelos.


Comentarios