Ir al contenido

YOLO11 vs YOLOv5: Evolución de la detección de objetos de última generación

La evolución de la detección de objetos en tiempo real ha sido moldeada significativamente por la serie YOLO de Ultralytics. YOLOv5, lanzado en 2020, estableció un estándar global de facilidad de uso, velocidad y fiabilidad, convirtiéndose en uno de los modelos de IA de visión más implementados de la historia. YOLO11, la última iteración, se basa en esta base legendaria para ofrecer una precisión, eficiencia y versatilidad sin precedentes.

Esta guía proporciona una comparación técnica detallada entre estas dos potencias, ayudando a los desarrolladores e investigadores a comprender los cambios arquitectónicos, las ganancias de rendimiento y los casos de uso ideales para cada una.

Análisis de rendimiento

La diferencia de rendimiento entre YOLO11 y YOLOv5 destaca los rápidos avances en el diseño de redes neuronales. Si bien YOLOv5 sigue siendo un modelo capaz, YOLO11 lo supera constantemente en todas las escalas de modelo, particularmente en términos de velocidad de inferencia de CPU y precisión de detección.

Métricas clave de rendimiento

La siguiente tabla presenta una comparación directa en el conjunto de datos COCO. Una observación crítica es la eficiencia de YOLO11n, que alcanza un 39.5 mAP, superando significativamente el 28.0 mAP de YOLOv5n, al tiempo que se ejecuta más rápido en hardware de CPU.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Precisión vs. Eficiencia

YOLO11 representa un cambio de paradigma en la compensación entre "eficiencia y precisión".

  • Detección de objetos pequeños: YOLO11 mejora significativamente la detección de objetos pequeños en comparación con YOLOv5, gracias a sus capas de extracción de características perfeccionadas.
  • Eficiencia Computacional: YOLO11l alcanza 53.4 mAP con solo 25.3M parámetros. En contraste, YOLOv5l requiere 53.2M parámetros para alcanzar un mAP inferior de 49.0. Esta reducción del 50% en los parámetros para una mayor precisión se traduce en un menor uso de memoria y tiempos de entrenamiento más rápidos.

Sin anclajes vs. Con anclajes

Una de las diferencias técnicas más significativas es el mecanismo del encabezado de detección. YOLOv5 utiliza un enfoque basado en anclajes, que requiere cuadros de anclaje predefinidos que deben ajustarse para conjuntos de datos específicos para lograr un rendimiento óptimo.

YOLO11 utiliza un diseño sin anclajes. Esto elimina la necesidad de calcular manualmente las cajas de anclaje, simplifica el proceso de formación y mejora la generalización en diversos conjuntos de datos sin necesidad de ajustar los hiperparámetros.

Arquitectura y diseño del modelo

Las diferencias arquitectónicas entre estos dos modelos reflejan la progresión de la investigación en visión artificial a lo largo de varios años.

YOLOv5: El estándar probado

YOLOv5 introdujo una implementación fácil de usar de PyTorch que hizo que la detección de objetos fuera accesible para las masas.

  • Backbone: Utiliza una CSPDarknet53 modificada, que es muy efectiva pero computacionalmente más pesada que las alternativas modernas.
  • Enfoque: Priorizó un equilibrio entre velocidad y precisión que fue revolucionario en su lanzamiento en 2020.
  • Heredado: Sigue siendo una "opción segura" para los sistemas ya profundamente integrados con sus formatos específicos de entrada/salida.

Más información sobre YOLOv5

YOLO11: La vanguardia

YOLO11 integra las últimas técnicas de aprendizaje profundo para maximizar la reutilización de características y minimizar la sobrecarga computacional.

  • Bloque C3k2: Una evolución del cuello de botella CSP, este bloque permite un flujo de gradiente y una fusión de características más eficientes.
  • Módulo C2PSA: Introduce mecanismos de atención espacial, lo que permite que el modelo se centre en áreas críticas de la imagen para una mejor localización de objetos.
  • Cabezal Multi-Tarea: A diferencia de YOLOv5, que requiere forks de modelos separados para diferentes tareas, YOLO11 soporta nativamente Object Detection, Instance Segmentation, Pose Estimation, Oriented Bounding Boxes (OBB) y Clasificación en un framework unificado.

Más información sobre YOLO11

Tabla comparativa: Especificaciones técnicas

CaracterísticaYOLOv5YOLO11
ArquitecturaBackbone CSPDarknetBackbone refinado con C3k2 y C2PSA
Cabezal de detecciónBasado en anclajesSin anclajes
TareasDetectar, Segmentar, ClassifyDetectar, Segmentar, Classify, Pose, OBB, Track
LicenciaAGPL-3.0AGPL-3.0
Fecha de lanzamientoJunio de 2020Septiembre de 2024
Facilidad de usoAlta (Línea de comandos y PyTorch Hub)Muy alto (SDK y CLI unificados de python)

Entrenamiento y ecosistema

Ambos modelos se benefician del robusto ecosistema Ultralytics, que proporciona herramientas fluidas para la gestión de datos, el entrenamiento y la implementación.

Eficiencia del entrenamiento

YOLO11 está diseñado para entrenar más rápido y converger más rápidamente que YOLOv5.

  • Valores predeterminados inteligentes: El motor de Ultralytics configura automáticamente los hiperparámetros según el conjunto de datos y el tamaño del modelo, lo que reduce la necesidad de un ajuste manual de hiperparámetros.
  • Uso de memoria: Gracias al recuento de parámetros reducido, los modelos YOLO11 generalmente consumen menos VRAM de la GPU durante el entrenamiento, lo que permite tamaños de lote más grandes en hardware de consumidor.

Ejemplo de código: Entrenamiento de YOLO11

El entrenamiento de YOLO11 se agiliza utilizando el ultralytics Paquete de python. El siguiente ejemplo demuestra cómo entrenar un modelo YOLO11n en el dataset COCO8.

from ultralytics import YOLO

# Load a pre-trained YOLO11n model
model = YOLO("yolo11n.pt")

# Train the model
# The device argument can be 'cpu', 0 for GPU, or [0, 1] for multi-GPU
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

Integración del ecosistema

Si bien YOLOv5 tiene una vasta colección de tutoriales de terceros debido a su antigüedad, YOLO11 está integrado de forma nativa en el moderno paquete Ultralytics. Esto proporciona acceso inmediato a funciones avanzadas:

  • Exportación con un clic: Exporta a ONNX, OpenVINO, TensorRT y CoreML con un solo comando.
  • Tracking: Soporte integrado para el tracking de objetos (BoT-SORT, ByteTrack) sin repositorios externos.
  • Explorador: Utilice la API Ultralytics Explorer para visualizar y consultar sus conjuntos de datos utilizando SQL y la búsqueda semántica.

Casos de Uso Ideales

La elección del modelo correcto depende de las limitaciones y los requisitos específicos de su proyecto.

Cuándo elegir YOLO11

YOLO11 es la opción recomendada para el 95% de los nuevos proyectos.

  1. Nuevos Desarrollos: Si estás empezando desde cero, YOLO11 ofrece la mejor garantía de futuro, precisión y velocidad.
  2. Implementación en CPU: Para dispositivos edge que se ejecutan en CPU (por ejemplo, Raspberry Pi, teléfonos móviles), YOLO11n es significativamente más rápido y preciso que YOLOv5n.
  3. Tareas Complejas: Los proyectos que requieren Estimación de Pose u OBB (p. ej., imágenes aéreas, análisis de documentos) son compatibles de forma nativa con YOLO11.
  4. Nube y servidor: El alto rendimiento de YOLO11 lo hace ideal para procesar transmisiones de video masivas en tiempo real.

Cuándo seguir con YOLOv5

YOLOv5 sigue siendo una opción viable para escenarios heredados específicos.

  1. Mantenimiento Heredado: Si tiene un sistema de producción fuertemente acoplado con el código base o el formato de salida específico de YOLOv5.
  2. Ajuste de Hardware Específico: Algunos aceleradores integrados más antiguos pueden tener un firmware altamente optimizado específicamente validado para las capas de YOLOv5 (aunque la mayoría de los tiempos de ejecución modernos como OpenVINO ahora favorecen las arquitecturas más nuevas).
  3. Base de referencia académica: Los investigadores que comparan con las bases de referencia históricas a menudo citan YOLOv5 debido a su presencia de larga data en la literatura.

Migración a YOLO11

La migración de YOLOv5 a YOLO11 es sencilla. El formato del conjunto de datos (YOLO TXT) sigue siendo idéntico, lo que significa que puede reutilizar sus conjuntos de datos anotados existentes sin modificaciones. La estructura de la API de python también es muy similar, y a menudo solo requiere un cambio en la cadena del nombre del modelo (por ejemplo, de yolov5su.pt a datos yolo11n.pt dentro de ultralytics package).

Explorando otras opciones

Ultralytics soporta una amplia gama de modelos más allá de solo YOLO11 y YOLOv5. Dependiendo de tus necesidades específicas, podrías considerar:

  • YOLOv8: El predecesor directo de YOLO11, que ofrece un gran equilibrio de características y una amplia adopción en la industria.
  • YOLOv10: Una arquitectura centrada en el entrenamiento sin NMS para una menor latencia en aplicaciones específicas en tiempo real.
  • RT-DETR: Un detector basado en transformadores que destaca en precisión para los casos en los que la velocidad de inferencia es menos crítica que la máxima precisión.
  • YOLOv9: Conocido por su concepto de información de gradiente programable (PGI), que ofrece un sólido rendimiento en tareas de detección difíciles.

Conclusión

La transición de YOLOv5 a YOLO11 marca un hito significativo en la historia de la visión artificial. YOLOv5 democratizó la IA, haciendo que la detección de objetos sea accesible para todos. YOLO11 perfecciona esta visión, ofreciendo un modelo que es más rápido, más ligero y más preciso.

Para los desarrolladores que buscan el mejor rendimiento por vatio y el conjunto de características más versátil, YOLO11 es el claro ganador. Su integración en el ecosistema activo de Ultralytics garantiza que tenga acceso a las últimas herramientas, APIs sencillas y una comunidad próspera para apoyar su recorrido en la IA.

¿Listo para actualizar? Consulte la Documentación de YOLO11 o explore el repositorio de GitHub para empezar hoy mismo.


Comentarios