YOLOv5 vs YOLO11: Una comparación técnica exhaustiva
En el panorama de la visión artificial, que evoluciona rápidamente, elegir el modelo de detección de objetos adecuado es fundamental para el éxito del proyecto. Dos de los hitos más importantes en este campo son YOLOv5 y el recientemente lanzado YOLO11. Mientras que YOLOv5 estableció un estándar legendario de facilidad de uso y velocidad, YOLO11 supera los límites de la precisión y la eficiencia, aprovechando años de investigación y desarrollo.
Esta guía proporciona un análisis técnico detallado de estas dos arquitecturas, ayudando a los desarrolladores, investigadores e ingenieros a tomar decisiones informadas para sus aplicaciones de IA.
Ultralytics YOLOv5: El caballo de batalla fiable
Lanzado en 2020, YOLOv5 revolucionó la accesibilidad de la detección de objetos. Fue el primer modelo "You Only Look Once" implementado de forma nativa en PyTorch, lo que facilitó enormemente el entrenamiento y la implementación para los desarrolladores. Su equilibrio entre velocidad y precisión lo convirtió en la opción preferida para todo, desde la inspección industrial hasta los vehículos autónomos.
Detalles técnicos:
- Autores: Glenn Jocher
- Organización:Ultralytics
- Fecha: 2020-06-26
- GitHub:https://github.com/ultralytics/yolov5
- Documentación:https://docs.ultralytics.com/models/yolov5/
Características clave y arquitectura
YOLOv5 utiliza una arquitectura basada en anclajes. Introdujo un backbone CSPDarknet, que mejoró significativamente el flujo de gradiente y redujo el coste computacional en comparación con iteraciones anteriores. El modelo emplea un neck de red de agregación de rutas (PANet) para impulsar el flujo de información e integra el aumento de datos Mosaic durante el entrenamiento, una técnica que se ha convertido en un estándar para mejorar la robustez del modelo contra objetos más pequeños.
Fortalezas
YOLOv5 es reconocido por su estabilidad y madurez. Con años de pruebas comunitarias, el ecosistema de tutoriales, integraciones de terceros y guías de implementación es vasto. Es una excelente opción para sistemas heredados o dispositivos de borde donde ya existen optimizaciones de hardware específicas para su arquitectura.
Ultralytics YOLO11: La Evolución del Estado del Arte
Lanzado a finales de 2024, YOLO11 representa la vanguardia de la IA de visión. Se basa en las lecciones aprendidas de YOLOv5 y YOLOv8 para ofrecer un modelo que es más rápido, más preciso y más eficiente desde el punto de vista computacional.
Detalles técnicos:
- Autores: Glenn Jocher, Jing Qiu
- Organización:Ultralytics
- Fecha: 2024-09-27
- GitHub:https://github.com/ultralytics/ultralytics
- Documentación:https://docs.ultralytics.com/models/yolo11/
Arquitectura y Características Clave
YOLO11 introduce refinamientos arquitectónicos significativos, incluyendo los módulos C3k2 block y C2PSA (Cross-Stage Partial with Spatial Attention). A diferencia de YOLOv5, YOLO11 utiliza un encabezado de detección sin anclajes, lo que simplifica el proceso de entrenamiento al eliminar la necesidad de calcular manualmente los cuadros delimitadores. Este cambio de diseño mejora la generalización y permite que el modelo se adapte mejor a diversos conjuntos de datos.
Versatilidad Inigualable
Una de las características definitorias de YOLO11 es su soporte nativo para múltiples tareas de visión artificial dentro de un único marco. Mientras que YOLOv5 se centró principalmente en la detección (con soporte posterior para la segmentación), YOLO11 se construyó desde cero para gestionar:
- Detección de objetos
- Segmentación de instancias
- Clasificación de imágenes
- Estimación de pose
- Cajas delimitadoras orientadas (OBB)
Esta versatilidad permite a los desarrolladores abordar problemas complejos de robótica y análisis sin cambiar de marco.
Comparación de rendimiento
La transición de YOLOv5 a YOLO11 produce ganancias de rendimiento sustanciales. Las métricas demuestran que YOLO11 ofrece una compensación superior entre velocidad y precisión.
Precisión vs. Eficiencia
YOLO11 logra consistentemente una mayor Precisión Media Promedio (mAP) en el conjunto de datos COCO en comparación con los modelos YOLOv5 de tamaño similar. Por ejemplo, el modelo YOLO11m supera al mucho más grande YOLOv5x en precisión (51.5 vs 50.7 mAP) mientras opera con una fracción de los parámetros (20.1M vs 97.2M). Esta drástica reducción en el tamaño del modelo se traduce en menores requisitos de memoria tanto durante el entrenamiento como en la inferencia, un factor crítico para la implementación en hardware edge AI con recursos limitados.
Velocidad de Inferencia
Gracias a las opciones arquitectónicas optimizadas, YOLO11 destaca en las velocidades de inferencia de la CPU. El modelo YOLO11n crea un nuevo punto de referencia para las aplicaciones en tiempo real, registrando solo 56.1ms en la CPU con ONNX, significativamente más rápido que su predecesor.
Eficiencia de Memoria
Los modelos Ultralytics YOLO11 están diseñados para un uso óptimo de la memoria. En comparación con los detectores basados en transformadores como RT-DETR, YOLO11 requiere significativamente menos memoria CUDA durante el entrenamiento, lo que lo hace accesible a los desarrolladores con GPU de consumo estándar.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Entrenamiento y experiencia del desarrollador
Ambos modelos se benefician del completo ecosistema Ultralytics, conocido por su "Facilidad de Uso".
Integración Perfecta
YOLO11 está integrado en el moderno ultralytics Paquete de python, que unifica todas las tareas bajo una API simple. Esto permite el entrenamiento, la validación y el despliegue en tan solo unas pocas líneas de código.
from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Si bien YOLOv5 tiene su propio repositorio dedicado, también se puede cargar fácilmente a través de PyTorch Hub o utilizar dentro del ecosistema más nuevo para ciertas tareas. La sólida documentación de ambos modelos garantiza que, tanto si está realizando un ajuste de hiperparámetros como si está exportando a OpenVINO, el proceso se simplifica.
Beneficios del ecosistema
Elegir un modelo de Ultralytics significa obtener acceso a un conjunto de herramientas bien mantenido. Desde la integración con Comet para el seguimiento de experimentos hasta la gestión perfecta de conjuntos de datos, el ecosistema admite todo el ciclo de vida de MLOps. Este desarrollo activo garantiza que se entreguen parches de seguridad y mejoras de rendimiento de forma regular.
Casos de Uso Ideales
Cuándo elegir YOLOv5
- Hardware Heredado: Si tiene dispositivos edge existentes (como Raspberry Pis más antiguas) con pipelines específicamente optimizados para la arquitectura YOLOv5.
- Flujos de trabajo establecidos: Para proyectos en modo de mantenimiento profundo en los que la actualización de la arquitectura del modelo central supondría importantes costes de refactorización.
- Optimizaciones Específicas de GPU: En casos raros en los que los motores TensorRT específicos están muy ajustados para la estructura de capas exacta de YOLOv5.
Cuándo elegir YOLO11
- Nuevos Desarrollos: Para prácticamente todos los proyectos nuevos, YOLO11 es el punto de partida recomendado debido a su superior relación precisión-cálculo.
- Aplicaciones de CPU en tiempo real: Las aplicaciones que se ejecutan en procesadores estándar, como ordenadores portátiles o instancias en la nube, se benefician enormemente de las optimizaciones de velocidad de la CPU de YOLO11.
- Tareas Complejas: Proyectos que requieren segmentación de instancias o estimación de pose junto con la detection.
- Requisitos de alta precisión: Dominios como el imágenes médicas o el análisis de imágenes satelitales, donde la detección de objetos pequeños con alta precisión es primordial.
Conclusión
YOLOv5 sigue siendo un testimonio del diseño de IA eficiente y accesible, habiendo impulsado innumerables innovaciones en los últimos años. Sin embargo, YOLO11 representa el futuro. Con su arquitectura avanzada sin anclajes, puntuaciones mAP superiores y versatilidad mejorada, proporciona a los desarrolladores un conjunto de herramientas más potente para resolver los desafíos modernos de la visión artificial.
Al adoptar YOLO11, no solo obtiene un mejor rendimiento, sino que también asegura el futuro de sus aplicaciones dentro del próspero ecosistema de Ultralytics.
Explorar Otros Modelos
Si está interesado en comparar estas arquitecturas con otros modelos líderes, explore nuestras comparaciones detalladas: