YOLO11 frente a YOLOv5: evolución del estado del arte de la detección de objetos

La evolución de la detección de objetos en tiempo real ha sido marcada de forma significativa por la serieYOLO Ultralytics . YOLOv5lanzado en 2020, estableció un estándar mundial de facilidad de uso, velocidad y fiabilidad, convirtiéndose en uno de los modelos de IA de visión más desplegados de la historia. YOLO11la última iteración, se basa en esta legendaria base para ofrecer una precisión, eficiencia y versatilidad sin precedentes.

Esta guía ofrece una comparación técnica detallada entre estas dos potencias, ayudando a desarrolladores e investigadores a comprender los cambios arquitectónicos, las mejoras de rendimiento y los casos de uso ideales para cada una de ellas.

Análisis de rendimiento

La diferencia de rendimiento entre YOLO11 y YOLOv5 pone de manifiesto los rápidos avances en el diseño de redes neuronales. Aunque YOLOv5 sigue siendo un modelo capaz, YOLO11 lo supera sistemáticamente en todas las escalas del modelo, sobre todo en términos de velocidad de inferencia de CPU y precisión de detección.

Métricas clave de rendimiento

La tabla siguiente presenta una comparación directa con el conjunto de datosCOCO . Una observación crítica es la eficiencia de YOLO11n, que alcanza un mAP de 39,5, superando significativamente el mAP de 28,0 de YOLOv5n, a la vez que funciona más rápido en el hardware de CPU .

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Precisión frente a eficacia

YOLO11 representa un cambio de paradigma en el equilibrio "eficacia frente a precisión".

Detección de objetos pequeños: YOLO11 mejora significativamente la detección de objetos pequeños en comparación con YOLOv5, gracias a sus refinadas capas de extracción de características.
Eficiencia de cálculo: YOLO11l alcanza 53,4 mAP con sólo 25,3M de parámetros. En cambio, YOLOv5l necesita 53,2 millones de parámetros para alcanzar un mAP inferior de 49,0. Esta reducción del 50% en los parámetros para una mayor precisión se traduce en un menor uso de memoria y tiempos de entrenamiento más rápidos.

Sin anclaje vs. Basado en anclaje

Una de las diferencias técnicas más significativas es el mecanismo del cabezal de detección. YOLOv5 utiliza un enfoque basado en anclajes, que requiere cuadros de anclaje predefinidos que deben ajustarse a conjuntos de datos específicos para lograr un rendimiento óptimo.

YOLO11 utiliza un diseño sin anclajes. Esto elimina la necesidad de calcular manualmente las cajas de anclaje, simplifica el proceso de formación y mejora la generalización en diversos conjuntos de datos sin necesidad de ajustar los hiperparámetros.

Arquitectura y diseño de modelos

Las diferencias arquitectónicas entre estos dos modelos reflejan la progresión de la investigación en visión por ordenador a lo largo de varios años.

YOLOv5: el estándar probado

YOLOv5 introdujo una implementación de PyTorch fácil de usar que puso la detección de objetos al alcance de las masas.

Red troncal: Utiliza una CSPDarknet53 modificada, que es muy eficaz pero más pesada computacionalmente que las alternativas modernas.
Enfoque: Priorizó un equilibrio entre velocidad y precisión que fue revolucionario en su lanzamiento en 2020.
Legado: sigue siendo una "opción segura" para los sistemas ya profundamente integrados con sus formatos específicos de entrada/salida.

Más información sobre YOLOv5

YOLO11: La vanguardia

YOLO11 integra las últimas técnicas de aprendizaje profundo para maximizar la reutilización de características y minimizar la sobrecarga computacional.

Bloque C3k2: Evolución del cuello de botella CSP, este bloque permite un flujo de gradiente y una fusión de características más eficientes.
Módulo C2PSA: Introduce mecanismos de atención espacial, permitiendo al modelo centrarse en áreas críticas de la imagen para una mejor localización del objeto.
Cabezal multitarea: a diferencia de YOLOv5, que requiere bifurcaciones de modelo independientes para las distintas tareas, YOLO11 admite de forma nativa la detección de objetos, la segmentación de instancias, la estimación de poses, las cajas delimitadoras orientadas (OBB) y la clasificación en un marco unificado.

Más información sobre YOLO11

Tabla comparativa: Especificaciones técnicas

Característica	YOLOv5	YOLO11
Arquitectura	Red troncal CSPDarknet	Espina dorsal refinada con C3k2 y C2PSA
Cabezal de detección	Basado en anclajes	Sin anclajes
Tareas	Detectar, segmentar, clasificar	Detectar, Segmentar, Clasificar, Pose, OBB, Rastrear
Licencia	AGPL-3.0	AGPL-3.0
Fecha de publicación	Junio de 2020	Septiembre de 2024
Facilidad de uso	Alto (Línea de comandos y PyTorch Hub)	Muy alto (SDK y CLI Python unificados)

Entrenamiento y ecosistema

Ambos modelos se benefician del sólido ecosistemaUltralytics , que proporciona herramientas integradas para la gestión de datos, la formación y la implantación.

Eficacia de la formación

YOLOv5 está diseñado para entrenarse y converger más rápido que YOLOv5.

Valores predeterminados inteligentes: El motor de Ultralytics configura automáticamente los hiperparámetros en función del conjunto de datos y el tamaño del modelo, lo que reduce la necesidad de ajustar manualmente los hiperparámetros.
Uso de memoria: Gracias a la reducción del número de parámetros, los modelos YOLO11 suelen consumir menos VRAM de GPU durante el entrenamiento, lo que permite tamaños de lote mayores en hardware de consumo.

Ejemplo de código: Formación YOLO11

La formación de YOLO11 se agiliza utilizando el ultralytics paquete Python . El siguiente ejemplo muestra cómo entrenar un modelo YOLO11n en el conjunto de datos COCO8 .

from ultralytics import YOLO

# Load a pre-trained YOLO11n model
model = YOLO("yolo11n.pt")

# Train the model
# The device argument can be 'cpu', 0 for GPU, or [0, 1] for multi-GPU
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

Integración de los ecosistemas

Mientras que YOLOv5 cuenta con una amplia colección de tutoriales de terceros debido a su antigüedad, YOLO11 está integrado de forma nativa en el moderno paquete Ultralytics . Esto proporciona un acceso inmediato a las funciones avanzadas:

Exportación con un solo clic: Exportar a ONNX, OpenVINOTensorRT y CoreML con un solo comando.
Seguimiento: Soporte integrado para el seguimiento de objetos (BoT-SORT, ByteTrack) sin repositorios externos.
Explorador: Utilice la API Ultralytics Explorer para visualizar y consultar sus conjuntos de datos mediante SQL y búsqueda semántica.

Casos de Uso Ideales

La elección del modelo adecuado depende de las limitaciones y requisitos específicos de su proyecto.

Cuándo elegir YOLO11

YOLO11 es la opción recomendada para el 95% de los nuevos proyectos.

Nuevos desarrollos: Si estás empezando desde cero, YOLO11 ofrece la mejor garantía de futuro, precisión y velocidad.
Despliegue enCPU : Para los dispositivos de borde que funcionan con CPU (por ejemplo, Raspberry Pi, teléfonos móviles), YOLO11n es significativamente más rápido y preciso que YOLOv5n.
Tareas complejas: YOLO11 admite de forma nativa proyectos que requieren estimación de poses u OBB (por ejemplo, imágenes aéreas o análisis de documentos).
Nube y servidor: El alto rendimiento de YOLO11 lo hace ideal para procesar flujos masivos de vídeo en tiempo real.

Cuándo seguir con YOLOv5

YOLOv5 sigue siendo una opción viable para determinados escenarios heredados.

Mantenimiento heredado: Si tiene un sistema de producción muy acoplado a la base de código o formato de salida específicos YOLOv5 .
Ajuste específico del hardware: Algunos aceleradores embebidos antiguos pueden tener firmware altamente optimizado validado específicamente para capas YOLOv5 (aunque la mayoría de los tiempos de ejecución modernos como OpenVINO ahora favorecen arquitecturas más nuevas).
Referencia académica: Los investigadores que comparan con líneas de base históricas suelen citar YOLOv5 debido a su larga presencia en la literatura.

Migración a YOLO11

La migración de YOLOv5 a YOLO11 es sencilla. El formato de los conjuntos de datosYOLO TXT) sigue siendo idéntico, lo que significa que puede reutilizar sus conjuntos de datos anotados sin modificarlos. La estructura de la API Python también es muy similar, y a menudo sólo es necesario cambiar la cadena de nombre del modelo (por ejemplo, de yolov5su.pt a datos yolo11n.pt dentro del ultralytics paquete).

Explorar otras opciones

Ultralytics es compatible con una amplia gama de modelos, además de YOLO11 y YOLOv5. Dependiendo de sus necesidades específicas, podría considerar:

YOLOv8: El predecesor directo de YOLO11, que ofrece un gran equilibrio de funciones y una amplia adopción por parte del sector.
YOLOv10: una arquitectura centrada en la formación NMS para reducir la latencia en aplicaciones específicas de tiempo real.
RT-DETR: un detector basado en transformadores que destaca por su precisión en los casos en los que la velocidad de inferencia es menos crítica que la máxima precisión.
YOLOv9: conocido por su concepto de información de gradiente programable (PGI), que ofrece un gran rendimiento en tareas de detección difíciles.

Conclusión

La transición de YOLOv5 a YOLO11 marca un hito importante en la historia de la visión por ordenador. YOLOv5 democratizó la IA, poniendo la detección de objetos al alcance de todos. YOLO11 perfecciona esta visión, ofreciendo un modelo más rápido, ligero y preciso.

Para los desarrolladores que buscan el mejor rendimiento por vatio y el conjunto de funciones más versátil, YOLO11 es el claro ganador. Su integración en el ecosistema activo Ultralytics le garantiza el acceso a las herramientas más recientes, API sencillas y una comunidad floreciente para ayudarle en su viaje hacia la IA.

¿Listo para actualizar? Consulta la documentaciónYOLO11 o explora el repositorio de GitHub para empezar hoy mismo.