YOLO11 vs YOLOv5: Una Evolución Técnica en la Detección de Objetos
Elegir el modelo de detección de objetos adecuado es una decisión crítica que equilibra la necesidad de precisión, velocidad y facilidad de implementación. Esta página ofrece una comparación técnica exhaustiva entre dos modelos emblemáticos de Ultralytics: el Ultralytics YOLO11 de última generación y el ampliamente adoptado Ultralytics YOLOv5. Si bien YOLOv5 estableció un estándar del sector por su rendimiento y facilidad de uso, YOLO11 representa el siguiente paso evolutivo, ofreciendo una precisión superior, una versatilidad mejorada y las últimas innovaciones arquitectónicas, todo ello dentro del sólido y fácil de usar ecosistema de Ultralytics.
Ultralytics YOLO11: Lo nuevo en tecnología de punta
YOLO11, creado por Glenn Jocher y Jing Qiu, es el modelo más reciente y avanzado de la serie Ultralytics YOLO. Lanzado en 2024, se basa en la sólida base de sus predecesores como YOLOv8 para establecer un nuevo punto de referencia en rendimiento y eficiencia. Está diseñado no solo para la detección de objetos, sino como un marco integral para una multitud de tareas de visión artificial.
- Autores: Glenn Jocher, Jing Qiu
- Organización: Ultralytics
- Fecha: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- Documentación: https://docs.ultralytics.com/models/yolo11/
Arquitectura y Características Clave
YOLO11 introduce refinamientos arquitectónicos significativos, incluyendo un head de detección sin anclajes y una estructura de red optimizada. Esta moderna elección de diseño simplifica el proceso de entrenamiento al eliminar la necesidad de predefinir cuadros delimitadores, lo que conduce a una mejor generalización en diversos conjuntos de datos. El modelo alcanza una mayor Precisión Media Promedio (mAP) que YOLOv5 con menos parámetros y requisitos computacionales (FLOPs) en muchos casos, lo que demuestra una eficiencia superior.
Una característica destacada de YOLO11 es su versatilidad. Es un framework unificado que soporta de forma nativa la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de poses y los bounding boxes orientados (OBB). Esta capacidad multi-tarea la convierte en una herramienta increíblemente potente y flexible para sistemas complejos de IA.
Fortalezas
- Precisión de última generación: Ofrece puntuaciones de mAP significativamente más altas en comparación con YOLOv5, estableciendo un nuevo estándar de rendimiento.
- Alta eficiencia: Logra una mejor precisión con una arquitectura más eficiente, que a menudo requiere menos parámetros y FLOPs.
- Diseño sin anclajes: Simplifica el entrenamiento y mejora el rendimiento al eliminar la dependencia de la configuración del cuadro delimitador de anclaje.
- Versatilidad Multi-Tarea: Un único marco de trabajo para una amplia gama de tareas de visión, agilizando el desarrollo de aplicaciones multifacéticas.
- Ecosistema bien mantenido: Se beneficia del desarrollo continuo, una extensa documentación, un sólido apoyo de la comunidad y una integración perfecta con herramientas como Ultralytics HUB para MLOps.
- Eficiencia en el entrenamiento: Ofrece procesos de entrenamiento eficientes con pesos pre-entrenados disponibles y, por lo general, requiere un menor uso de memoria que las arquitecturas más complejas, como los transformers.
Debilidades
- Como modelo de vanguardia, las variantes más grandes de YOLO11 pueden ser computacionalmente intensivas, requiriendo hardware GPU moderno para un rendimiento óptimo.
Casos de Uso Ideales
YOLO11 es la opción ideal para proyectos nuevos que demandan la máxima precisión y flexibilidad:
- Robótica Avanzada: Para la interacción y navegación precisas de objetos en entornos dinámicos.
- Automatización industrial: Control de calidad y detección de defectos de alta precisión.
- Atención Sanitaria: Asistencia en el análisis de imágenes médicas para tareas como la detección de tumores.
- Ciudades inteligentes: Impulsa sistemas complejos para la gestión del tráfico y la seguridad pública.
YOLOv5: El caballo de batalla establecido y versátil
Lanzado en 2020 por Glenn Jocher en Ultralytics, YOLOv5 se convirtió rápidamente en uno de los modelos de detección de objetos más populares del mundo. Es reconocido por su excepcional equilibrio entre velocidad y precisión, su facilidad de uso y su implementación robusta y bien documentada en PyTorch.
- Autor: Glenn Jocher
- Organización: Ultralytics
- Fecha: 2020-06-26
- GitHub: https://github.com/ultralytics/yolov5
- Documentación: https://docs.ultralytics.com/models/yolov5/
Arquitectura y Características Clave
YOLOv5 utiliza una arquitectura basada en una backbone CSPDarknet53 y un cuello de botella PANet para una agregación de características eficaz. Su encabezado de detección está basado en anclajes, lo que era un enfoque estándar y eficaz en el momento de su lanzamiento. Una de las mayores fortalezas de YOLOv5 es su escalabilidad, que ofrece una gama de modelos desde la diminuta versión 'n' (nano) hasta la gran versión 'x' (extragrande), lo que permite a los desarrolladores intercambiar fácilmente entre velocidad y precisión.
Fortalezas
- Velocidad de Inferencia Excepcional: Altamente optimizado para rendimiento en tiempo real, lo que lo convierte en una opción ideal para aplicaciones en dispositivos edge como NVIDIA Jetson.
- Facilidad de uso: Reconocido por su API sencilla, tutoriales extensos y flujos de trabajo optimizados de entrenamiento e implementación.
- Ecosistema Maduro: Respaldado por una comunidad masiva, años de desarrollo activo e innumerables implementaciones en el mundo real, lo que garantiza estabilidad y confiabilidad.
- Flexibilidad: La amplia gama de tamaños de modelo lo hace adaptable a casi cualquier restricción de hardware.
Debilidades
- Menor Precisión: Aunque sigue siendo potente, su precisión es superada por modelos más nuevos como YOLO11.
- Detección Basada en Anclas: Se basa en cuadros de anclaje predefinidos, lo que a veces puede requerir un ajuste manual para un rendimiento óptimo en conjuntos de datos personalizados en comparación con los detectores sin anclaje modernos.
Casos de Uso Ideales
YOLOv5 sigue siendo una excelente opción para escenarios específicos:
- Edge Computing: Implementación en dispositivos con recursos limitados como una Raspberry Pi donde la velocidad de inferencia es la máxima prioridad.
- Prototipado Rápido: Su simplicidad y velocidad lo hacen perfecto para construir y probar rápidamente aplicaciones de prueba de concepto.
- Sistemas heredados: Mantenimiento o actualización de proyectos existentes construidos sobre el framework YOLOv5.
- Vigilancia en tiempo real: Impulsa sistemas de seguridad donde un alto FPS es crucial.
Rendimiento y benchmarks: YOLO11 vs. YOLOv5
Las métricas de rendimiento ilustran claramente la evolución de YOLOv5 a YOLO11. En el conjunto de datos COCO, los modelos YOLO11 alcanzan consistentemente puntuaciones mAP más altas que sus contrapartes YOLOv5 de tamaño similar. Por ejemplo, YOLO11m alcanza 51.5 mAP, superando significativamente los 45.4 mAP de YOLOv5m. Además, YOLO11 a menudo lo hace con una mayor eficiencia computacional. En particular, el modelo más pequeño, YOLO11n, es más rápido en la CPU que YOLOv5n, al tiempo que ofrece un aumento masivo de 11.5 puntos en mAP.
Modelo | tamaño (píxeles) |
mAPval 50-95 |
Velocidad CPU ONNX (ms) |
Velocidad T4 TensorRT10 (ms) |
parámetros (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Conclusión: ¿Qué modelo debería elegir?
La elección entre YOLO11 y YOLOv5 depende de las necesidades específicas de tu proyecto.
YOLOv5 es un modelo probado, fiable e increíblemente rápido. Sigue siendo una opción fantástica para las aplicaciones en las que la velocidad es la prioridad absoluta, especialmente en hardware antiguo o con recursos limitados. Su madurez y su vasto soporte comunitario proporcionan una base estable para muchos proyectos.
Sin embargo, para casi todos los proyectos nuevos, YOLO11 es la opción clara y recomendada. Representa un avance significativo, que ofrece una precisión de última generación, una eficiencia superior y una versatilidad sin igual. Su arquitectura sin anclajes y su soporte nativo para múltiples tareas de visión la convierten en una solución más potente, flexible y preparada para el futuro. Al elegir YOLO11, los desarrolladores están aprovechando los últimos avances en IA para construir aplicaciones de visión artificial más capaces y precisas, todo ello beneficiándose del ecosistema optimizado y bien mantenido de Ultralytics.
Explore otras comparaciones de modelos
Si te interesa saber cómo se comparan estos modelos con otras arquitecturas líderes, consulta nuestras otras páginas de comparación: