Ir al contenido

YOLO11 vs YOLOv5: Una Evolución Técnica en la Detección de Objetos

Elegir el modelo de detección de objetos adecuado es una decisión crítica que equilibra la necesidad de precisión, velocidad y facilidad de implementación. Esta página ofrece una comparación técnica exhaustiva entre dos modelos emblemáticos de Ultralytics: el Ultralytics YOLO11 de última generación y el ampliamente adoptado Ultralytics YOLOv5. Si bien YOLOv5 estableció un estándar del sector por su rendimiento y facilidad de uso, YOLO11 representa el siguiente paso evolutivo, ofreciendo una precisión superior, una versatilidad mejorada y las últimas innovaciones arquitectónicas, todo ello dentro del sólido y fácil de usar ecosistema de Ultralytics.

Ultralytics YOLO11: Lo nuevo en tecnología de punta

YOLO11, creado por Glenn Jocher y Jing Qiu, es el modelo más reciente y avanzado de la serie Ultralytics YOLO. Lanzado en 2024, se basa en la sólida base de sus predecesores como YOLOv8 para establecer un nuevo punto de referencia en rendimiento y eficiencia. Está diseñado no solo para la detección de objetos, sino como un marco integral para una multitud de tareas de visión artificial.

Arquitectura y Características Clave

YOLO11 introduce refinamientos arquitectónicos significativos, incluyendo un head de detección sin anclajes y una estructura de red optimizada. Esta moderna elección de diseño simplifica el proceso de entrenamiento al eliminar la necesidad de predefinir cuadros delimitadores, lo que conduce a una mejor generalización en diversos conjuntos de datos. El modelo alcanza una mayor Precisión Media Promedio (mAP) que YOLOv5 con menos parámetros y requisitos computacionales (FLOPs) en muchos casos, lo que demuestra una eficiencia superior.

Una característica destacada de YOLO11 es su versatilidad. Es un framework unificado que soporta de forma nativa la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de poses y los bounding boxes orientados (OBB). Esta capacidad multi-tarea la convierte en una herramienta increíblemente potente y flexible para sistemas complejos de IA.

Fortalezas

  • Precisión de última generación: Ofrece puntuaciones de mAP significativamente más altas en comparación con YOLOv5, estableciendo un nuevo estándar de rendimiento.
  • Alta eficiencia: Logra una mejor precisión con una arquitectura más eficiente, que a menudo requiere menos parámetros y FLOPs.
  • Diseño sin anclajes: Simplifica el entrenamiento y mejora el rendimiento al eliminar la dependencia de la configuración del cuadro delimitador de anclaje.
  • Versatilidad Multi-Tarea: Un único marco de trabajo para una amplia gama de tareas de visión, agilizando el desarrollo de aplicaciones multifacéticas.
  • Ecosistema bien mantenido: Se beneficia del desarrollo continuo, una extensa documentación, un sólido apoyo de la comunidad y una integración perfecta con herramientas como Ultralytics HUB para MLOps.
  • Eficiencia en el entrenamiento: Ofrece procesos de entrenamiento eficientes con pesos pre-entrenados disponibles y, por lo general, requiere un menor uso de memoria que las arquitecturas más complejas, como los transformers.

Debilidades

  • Como modelo de vanguardia, las variantes más grandes de YOLO11 pueden ser computacionalmente intensivas, requiriendo hardware GPU moderno para un rendimiento óptimo.

Casos de Uso Ideales

YOLO11 es la opción ideal para proyectos nuevos que demandan la máxima precisión y flexibilidad:

  • Robótica Avanzada: Para la interacción y navegación precisas de objetos en entornos dinámicos.
  • Automatización industrial: Control de calidad y detección de defectos de alta precisión.
  • Atención Sanitaria: Asistencia en el análisis de imágenes médicas para tareas como la detección de tumores.
  • Ciudades inteligentes: Impulsa sistemas complejos para la gestión del tráfico y la seguridad pública.

Más información sobre YOLO11

YOLOv5: El caballo de batalla establecido y versátil

Lanzado en 2020 por Glenn Jocher en Ultralytics, YOLOv5 se convirtió rápidamente en uno de los modelos de detección de objetos más populares del mundo. Es reconocido por su excepcional equilibrio entre velocidad y precisión, su facilidad de uso y su implementación robusta y bien documentada en PyTorch.

Arquitectura y Características Clave

YOLOv5 utiliza una arquitectura basada en una backbone CSPDarknet53 y un cuello de botella PANet para una agregación de características eficaz. Su encabezado de detección está basado en anclajes, lo que era un enfoque estándar y eficaz en el momento de su lanzamiento. Una de las mayores fortalezas de YOLOv5 es su escalabilidad, que ofrece una gama de modelos desde la diminuta versión 'n' (nano) hasta la gran versión 'x' (extragrande), lo que permite a los desarrolladores intercambiar fácilmente entre velocidad y precisión.

Fortalezas

  • Velocidad de Inferencia Excepcional: Altamente optimizado para rendimiento en tiempo real, lo que lo convierte en una opción ideal para aplicaciones en dispositivos edge como NVIDIA Jetson.
  • Facilidad de uso: Reconocido por su API sencilla, tutoriales extensos y flujos de trabajo optimizados de entrenamiento e implementación.
  • Ecosistema Maduro: Respaldado por una comunidad masiva, años de desarrollo activo e innumerables implementaciones en el mundo real, lo que garantiza estabilidad y confiabilidad.
  • Flexibilidad: La amplia gama de tamaños de modelo lo hace adaptable a casi cualquier restricción de hardware.

Debilidades

  • Menor Precisión: Aunque sigue siendo potente, su precisión es superada por modelos más nuevos como YOLO11.
  • Detección Basada en Anclas: Se basa en cuadros de anclaje predefinidos, lo que a veces puede requerir un ajuste manual para un rendimiento óptimo en conjuntos de datos personalizados en comparación con los detectores sin anclaje modernos.

Casos de Uso Ideales

YOLOv5 sigue siendo una excelente opción para escenarios específicos:

  • Edge Computing: Implementación en dispositivos con recursos limitados como una Raspberry Pi donde la velocidad de inferencia es la máxima prioridad.
  • Prototipado Rápido: Su simplicidad y velocidad lo hacen perfecto para construir y probar rápidamente aplicaciones de prueba de concepto.
  • Sistemas heredados: Mantenimiento o actualización de proyectos existentes construidos sobre el framework YOLOv5.
  • Vigilancia en tiempo real: Impulsa sistemas de seguridad donde un alto FPS es crucial.

Más información sobre YOLOv5

Rendimiento y benchmarks: YOLO11 vs. YOLOv5

Las métricas de rendimiento ilustran claramente la evolución de YOLOv5 a YOLO11. En el conjunto de datos COCO, los modelos YOLO11 alcanzan consistentemente puntuaciones mAP más altas que sus contrapartes YOLOv5 de tamaño similar. Por ejemplo, YOLO11m alcanza 51.5 mAP, superando significativamente los 45.4 mAP de YOLOv5m. Además, YOLO11 a menudo lo hace con una mayor eficiencia computacional. En particular, el modelo más pequeño, YOLO11n, es más rápido en la CPU que YOLOv5n, al tiempo que ofrece un aumento masivo de 11.5 puntos en mAP.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO11n 640 39.5 56.1 1.5 2.6 6.5
YOLO11s 640 47.0 90.0 2.5 9.4 21.5
YOLO11m 640 51.5 183.2 4.7 20.1 68.0
YOLO11l 640 53.4 238.6 6.2 25.3 86.9
YOLO11x 640 54.7 462.8 11.3 56.9 194.9
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4

Conclusión: ¿Qué modelo debería elegir?

La elección entre YOLO11 y YOLOv5 depende de las necesidades específicas de tu proyecto.

YOLOv5 es un modelo probado, fiable e increíblemente rápido. Sigue siendo una opción fantástica para las aplicaciones en las que la velocidad es la prioridad absoluta, especialmente en hardware antiguo o con recursos limitados. Su madurez y su vasto soporte comunitario proporcionan una base estable para muchos proyectos.

Sin embargo, para casi todos los proyectos nuevos, YOLO11 es la opción clara y recomendada. Representa un avance significativo, que ofrece una precisión de última generación, una eficiencia superior y una versatilidad sin igual. Su arquitectura sin anclajes y su soporte nativo para múltiples tareas de visión la convierten en una solución más potente, flexible y preparada para el futuro. Al elegir YOLO11, los desarrolladores están aprovechando los últimos avances en IA para construir aplicaciones de visión artificial más capaces y precisas, todo ello beneficiándose del ecosistema optimizado y bien mantenido de Ultralytics.

Explore otras comparaciones de modelos

Si te interesa saber cómo se comparan estos modelos con otras arquitecturas líderes, consulta nuestras otras páginas de comparación:



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios