YOLO11 vs YOLOv5: Evolución de la detección de objetos de última generación
La evolución de la detección de objetos en tiempo real ha sido moldeada significativamente por la serie YOLO de Ultralytics. YOLOv5, lanzado en 2020, estableció un estándar global de facilidad de uso, velocidad y fiabilidad, convirtiéndose en uno de los modelos de IA de visión más implementados de la historia. YOLO11, la última iteración, se basa en esta base legendaria para ofrecer una precisión, eficiencia y versatilidad sin precedentes.
Esta guía proporciona una comparación técnica detallada entre estas dos potencias, ayudando a los desarrolladores e investigadores a comprender los cambios arquitectónicos, las ganancias de rendimiento y los casos de uso ideales para cada una.
Análisis de rendimiento
La diferencia de rendimiento entre YOLO11 y YOLOv5 destaca los rápidos avances en el diseño de redes neuronales. Si bien YOLOv5 sigue siendo un modelo capaz, YOLO11 lo supera constantemente en todas las escalas de modelo, particularmente en términos de velocidad de inferencia de CPU y precisión de detección.
Métricas clave de rendimiento
La siguiente tabla presenta una comparación directa en el conjunto de datos COCO. Una observación crítica es la eficiencia de YOLO11n, que alcanza un 39.5 mAP, superando significativamente el 28.0 mAP de YOLOv5n, al tiempo que se ejecuta más rápido en hardware de CPU.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Precisión vs. Eficiencia
YOLO11 representa un cambio de paradigma en la compensación entre "eficiencia y precisión".
- Detección de objetos pequeños: YOLO11 mejora significativamente la detección de objetos pequeños en comparación con YOLOv5, gracias a sus capas de extracción de características perfeccionadas.
- Eficiencia Computacional: YOLO11l alcanza 53.4 mAP con solo 25.3M parámetros. En contraste, YOLOv5l requiere 53.2M parámetros para alcanzar un mAP inferior de 49.0. Esta reducción del 50% en los parámetros para una mayor precisión se traduce en un menor uso de memoria y tiempos de entrenamiento más rápidos.
Sin anclajes vs. Con anclajes
Una de las diferencias técnicas más significativas es el mecanismo del encabezado de detección. YOLOv5 utiliza un enfoque basado en anclajes, que requiere cuadros de anclaje predefinidos que deben ajustarse para conjuntos de datos específicos para lograr un rendimiento óptimo.
YOLO11 utiliza un diseño sin anclajes. Esto elimina la necesidad de calcular manualmente las cajas de anclaje, simplifica el proceso de formación y mejora la generalización en diversos conjuntos de datos sin necesidad de ajustar los hiperparámetros.
Arquitectura y diseño del modelo
Las diferencias arquitectónicas entre estos dos modelos reflejan la progresión de la investigación en visión artificial a lo largo de varios años.
YOLOv5: El estándar probado
YOLOv5 introdujo una implementación fácil de usar de PyTorch que hizo que la detección de objetos fuera accesible para las masas.
- Backbone: Utiliza una CSPDarknet53 modificada, que es muy efectiva pero computacionalmente más pesada que las alternativas modernas.
- Enfoque: Priorizó un equilibrio entre velocidad y precisión que fue revolucionario en su lanzamiento en 2020.
- Heredado: Sigue siendo una "opción segura" para los sistemas ya profundamente integrados con sus formatos específicos de entrada/salida.
YOLO11: La vanguardia
YOLO11 integra las últimas técnicas de aprendizaje profundo para maximizar la reutilización de características y minimizar la sobrecarga computacional.
- Bloque C3k2: Una evolución del cuello de botella CSP, este bloque permite un flujo de gradiente y una fusión de características más eficientes.
- Módulo C2PSA: Introduce mecanismos de atención espacial, lo que permite que el modelo se centre en áreas críticas de la imagen para una mejor localización de objetos.
- Cabezal Multi-Tarea: A diferencia de YOLOv5, que requiere forks de modelos separados para diferentes tareas, YOLO11 soporta nativamente Object Detection, Instance Segmentation, Pose Estimation, Oriented Bounding Boxes (OBB) y Clasificación en un framework unificado.
Tabla comparativa: Especificaciones técnicas
| Característica | YOLOv5 | YOLO11 |
|---|---|---|
| Arquitectura | Backbone CSPDarknet | Backbone refinado con C3k2 y C2PSA |
| Cabezal de detección | Basado en anclajes | Sin anclajes |
| Tareas | Detectar, Segmentar, Classify | Detectar, Segmentar, Classify, Pose, OBB, Track |
| Licencia | AGPL-3.0 | AGPL-3.0 |
| Fecha de lanzamiento | Junio de 2020 | Septiembre de 2024 |
| Facilidad de uso | Alta (Línea de comandos y PyTorch Hub) | Muy alto (SDK y CLI unificados de python) |
Entrenamiento y ecosistema
Ambos modelos se benefician del robusto ecosistema Ultralytics, que proporciona herramientas fluidas para la gestión de datos, el entrenamiento y la implementación.
Eficiencia del entrenamiento
YOLO11 está diseñado para entrenar más rápido y converger más rápidamente que YOLOv5.
- Valores predeterminados inteligentes: El motor de Ultralytics configura automáticamente los hiperparámetros según el conjunto de datos y el tamaño del modelo, lo que reduce la necesidad de un ajuste manual de hiperparámetros.
- Uso de memoria: Gracias al recuento de parámetros reducido, los modelos YOLO11 generalmente consumen menos VRAM de la GPU durante el entrenamiento, lo que permite tamaños de lote más grandes en hardware de consumidor.
Ejemplo de código: Entrenamiento de YOLO11
El entrenamiento de YOLO11 se agiliza utilizando el ultralytics Paquete de python. El siguiente ejemplo demuestra cómo entrenar un modelo YOLO11n en el dataset COCO8.
from ultralytics import YOLO
# Load a pre-trained YOLO11n model
model = YOLO("yolo11n.pt")
# Train the model
# The device argument can be 'cpu', 0 for GPU, or [0, 1] for multi-GPU
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
Integración del ecosistema
Si bien YOLOv5 tiene una vasta colección de tutoriales de terceros debido a su antigüedad, YOLO11 está integrado de forma nativa en el moderno paquete Ultralytics. Esto proporciona acceso inmediato a funciones avanzadas:
- Exportación con un clic: Exporta a ONNX, OpenVINO, TensorRT y CoreML con un solo comando.
- Tracking: Soporte integrado para el tracking de objetos (BoT-SORT, ByteTrack) sin repositorios externos.
- Explorador: Utilice la API Ultralytics Explorer para visualizar y consultar sus conjuntos de datos utilizando SQL y la búsqueda semántica.
Casos de Uso Ideales
La elección del modelo correcto depende de las limitaciones y los requisitos específicos de su proyecto.
Cuándo elegir YOLO11
YOLO11 es la opción recomendada para el 95% de los nuevos proyectos.
- Nuevos Desarrollos: Si estás empezando desde cero, YOLO11 ofrece la mejor garantía de futuro, precisión y velocidad.
- Implementación en CPU: Para dispositivos edge que se ejecutan en CPU (por ejemplo, Raspberry Pi, teléfonos móviles), YOLO11n es significativamente más rápido y preciso que YOLOv5n.
- Tareas Complejas: Los proyectos que requieren Estimación de Pose u OBB (p. ej., imágenes aéreas, análisis de documentos) son compatibles de forma nativa con YOLO11.
- Nube y servidor: El alto rendimiento de YOLO11 lo hace ideal para procesar transmisiones de video masivas en tiempo real.
Cuándo seguir con YOLOv5
YOLOv5 sigue siendo una opción viable para escenarios heredados específicos.
- Mantenimiento Heredado: Si tiene un sistema de producción fuertemente acoplado con el código base o el formato de salida específico de YOLOv5.
- Ajuste de Hardware Específico: Algunos aceleradores integrados más antiguos pueden tener un firmware altamente optimizado específicamente validado para las capas de YOLOv5 (aunque la mayoría de los tiempos de ejecución modernos como OpenVINO ahora favorecen las arquitecturas más nuevas).
- Base de referencia académica: Los investigadores que comparan con las bases de referencia históricas a menudo citan YOLOv5 debido a su presencia de larga data en la literatura.
Migración a YOLO11
La migración de YOLOv5 a YOLO11 es sencilla. El formato del conjunto de datos (YOLO TXT) sigue siendo idéntico, lo que significa que puede reutilizar sus conjuntos de datos anotados existentes sin modificaciones. La estructura de la API de python también es muy similar, y a menudo solo requiere un cambio en la cadena del nombre del modelo (por ejemplo, de yolov5su.pt a datos yolo11n.pt dentro de ultralytics package).
Explorando otras opciones
Ultralytics soporta una amplia gama de modelos más allá de solo YOLO11 y YOLOv5. Dependiendo de tus necesidades específicas, podrías considerar:
- YOLOv8: El predecesor directo de YOLO11, que ofrece un gran equilibrio de características y una amplia adopción en la industria.
- YOLOv10: Una arquitectura centrada en el entrenamiento sin NMS para una menor latencia en aplicaciones específicas en tiempo real.
- RT-DETR: Un detector basado en transformadores que destaca en precisión para los casos en los que la velocidad de inferencia es menos crítica que la máxima precisión.
- YOLOv9: Conocido por su concepto de información de gradiente programable (PGI), que ofrece un sólido rendimiento en tareas de detección difíciles.
Conclusión
La transición de YOLOv5 a YOLO11 marca un hito significativo en la historia de la visión artificial. YOLOv5 democratizó la IA, haciendo que la detección de objetos sea accesible para todos. YOLO11 perfecciona esta visión, ofreciendo un modelo que es más rápido, más ligero y más preciso.
Para los desarrolladores que buscan el mejor rendimiento por vatio y el conjunto de características más versátil, YOLO11 es el claro ganador. Su integración en el ecosistema activo de Ultralytics garantiza que tenga acceso a las últimas herramientas, APIs sencillas y una comunidad próspera para apoyar su recorrido en la IA.
¿Listo para actualizar? Consulte la Documentación de YOLO11 o explore el repositorio de GitHub para empezar hoy mismo.