Ir al contenido

YOLO11 vs YOLOv7: Una Comparación Técnica Detallada

Seleccionar el modelo de detección de objetos óptimo requiere comprender las capacidades específicas y las concesiones de las diferentes arquitecturas. Esta página proporciona una comparación técnica entre Ultralytics YOLO11 y YOLOv7, dos modelos potentes en el linaje YOLO. Profundizamos en sus diferencias arquitectónicas, puntos de referencia de rendimiento y casos de uso ideales para ayudarle a elegir el que mejor se adapte a sus proyectos de visión artificial. Si bien YOLOv7 fue un importante paso adelante en la detección en tiempo real, Ultralytics YOLO11 representa el estado actual de la técnica, ofreciendo un rendimiento superior, una mayor versatilidad y una experiencia de desarrollador más ágil.

YOLOv7: Detección de Objetos Eficiente y Precisa

YOLOv7 se introdujo como un avance importante en la detección de objetos en tiempo real, centrándose en la optimización de la eficiencia y la precisión del entrenamiento sin aumentar los costes de inferencia.

Arquitectura y Características Clave

YOLOv7 se basa en arquitecturas YOLO anteriores introduciendo varias innovaciones clave. Emplea técnicas como las redes de agregación de capas eficientes extendidas (E-ELAN) y métodos de escalado de modelos optimizados para modelos basados en concatenación. Una contribución importante es el concepto de "bag-of-freebies entrenable", que implica estrategias de optimización aplicadas durante el entrenamiento (como cabezales auxiliares y guía de lo general a lo particular) para aumentar la precisión final del modelo sin añadir sobrecarga computacional durante la inferencia. YOLOv7 se centra principalmente en la detección de objetos, pero tiene extensiones de la comunidad para tareas como la estimación de la pose.

Métricas de rendimiento y casos de uso

Tras su lanzamiento, YOLOv7 demostró un rendimiento de última generación, ofreciendo un equilibrio convincente entre velocidad y precisión. Por ejemplo, el modelo YOLOv7x alcanza un 53,1% de mAPtest en el conjunto de datos MS COCO con un tamaño de imagen de 640. Su eficiencia lo hace adecuado para aplicaciones en tiempo real, como sistemas de seguridad avanzados y sistemas autónomos que requieren una detección rápida y precisa.

Fortalezas

  • Equilibrio entre Alta Precisión y Velocidad: Ofrece una sólida combinación de mAP y velocidad de inferencia para tareas en tiempo real.
  • Entrenamiento eficiente: Utiliza técnicas de entrenamiento avanzadas ("bag-of-freebies") para mejorar la precisión sin aumentar el coste de la inferencia.
  • Rendimiento Establecido: Resultados probados en benchmarks estándar como MS COCO.

Debilidades

  • Complejidad: La arquitectura y las técnicas de entrenamiento pueden ser complejas de comprender y optimizar completamente.
  • Uso intensivo de recursos: Los modelos YOLOv7 más grandes requieren importantes recursos de GPU para el entrenamiento.
  • Versatilidad de tareas limitada: Se centra principalmente en la detección de objetos, lo que requiere implementaciones separadas para otras tareas como la segmentación o la clasificación en comparación con los modelos integrados como YOLO11.
  • Ecosistema fragmentado: Carece del framework unificado, la documentación extensa y el mantenimiento activo que se encuentran en el ecosistema de Ultralytics.

Más información sobre YOLOv7

Ultralytics YOLO11: Eficiencia y versatilidad de última generación

Ultralytics YOLO11, creado por Glenn Jocher y Jing Qiu de Ultralytics, representa la última evolución de la serie YOLO. Lanzado el 27 de septiembre de 2024, está diseñado para una precisión superior, una eficiencia mejorada y una mayor versatilidad de tareas dentro de un marco fácil de usar.

Arquitectura y Características Clave

La arquitectura de YOLO11 incorpora técnicas avanzadas de extracción de características y un diseño de red optimizado, lo que resulta en una mayor precisión, a menudo con un recuento de parámetros reducido en comparación con sus predecesores como YOLOv8 y YOLOv7. Esta optimización conlleva velocidades de inferencia más rápidas y menores demandas computacionales, crucial para su implementación en diversas plataformas, desde dispositivos periféricos hasta infraestructura en la nube.

Una ventaja clave de YOLO11 es su versatilidad. Es un modelo multi-tarea que soporta de forma nativa la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de poses y las cajas delimitadoras orientadas (OBB). Se integra perfectamente en el ecosistema Ultralytics, ofreciendo una experiencia de usuario optimizada a través de interfaces simples de Python y CLI, una extensa documentación y pesos pre-entrenados disponibles para un entrenamiento eficiente.

Fortalezas

  • Rendimiento de última generación: Logra puntuaciones de mAP más altas con una arquitectura más eficiente.
  • Eficiencia Superior: Excelente velocidad tanto en CPU como en GPU, con significativamente menos parámetros y FLOPs que YOLOv7 para una precisión comparable.
  • Versatilidad incomparable: Soporta de forma nativa detección, segmentación, clasificación, pose y OBB en un único framework unificado.
  • Facilidad de uso: Cuenta con una API sencilla, documentación completa e integración perfecta con herramientas como Ultralytics HUB para el entrenamiento e implementación sin código.
  • Ecosistema bien mantenido: Se beneficia del desarrollo activo, una comunidad sólida, actualizaciones frecuentes y una gran cantidad de recursos.
  • Eficiencia de memoria: Diseñado para un menor uso de memoria durante el entrenamiento y la inferencia, lo que lo hace más accesible que otras arquitecturas.

Debilidades

  • Como modelo más nuevo, algunas integraciones de herramientas de terceros especializadas aún pueden estar en desarrollo en comparación con los modelos más antiguos y establecidos.
  • Los modelos más grandes, aunque son muy precisos, aún pueden requerir recursos computacionales sustanciales para el entrenamiento y la implementación.

Más información sobre YOLO11

Comparación directa de rendimiento: YOLO11 vs. YOLOv7

Al comparar las métricas de rendimiento directamente, las ventajas de Ultralytics YOLO11 se hacen evidentes. Los modelos ofrecen una mejor compensación entre precisión y eficiencia en todos los ámbitos.

Modelo tamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO11n 640 39.5 56.1 1.5 2.6 6.5
YOLO11s 640 47.0 90.0 2.5 9.4 21.5
YOLO11m 640 51.5 183.2 4.7 20.1 68.0
YOLO11l 640 53.4 238.6 6.2 25.3 86.9
YOLO11x 640 54.7 462.8 11.3 56.9 194.9
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9

De la tabla, emergen varias ideas clave:

  • Precisión y eficiencia: YOLO11l alcanza un mAP más alto (53,4) que YOLOv7x (53,1) utilizando drásticamente menos parámetros (25,3M frente a 71,3M) y FLOPs (86,9B frente a 189,9B).
  • Velocidad de Inferencia: Los modelos YOLO11 son significativamente más rápidos, especialmente en GPU con TensorRT. YOLO11l es casi dos veces más rápido que YOLOv7x en una GPU T4. Además, YOLO11 proporciona benchmarks robustos de rendimiento de la CPU a través de ONNX, una métrica crítica para muchas implementaciones del mundo real donde los datos de YOLOv7 no están disponibles.
  • Escalabilidad: La familia YOLO11 ofrece una gama de modelos más amplia y eficiente, desde el ligero YOLO11n (latencia de 1,5 ms) hasta el YOLO11x de alta precisión (54,7 mAP), lo que permite a los desarrolladores encontrar el equilibrio perfecto para sus necesidades específicas.

¿Por qué elegir Ultralytics YOLO11?

Si bien YOLOv7 fue un modelo potente para su época, Ultralytics YOLO11 es la opción clara para los proyectos modernos de visión artificial. No solo supera a YOLOv7 en métricas centrales como la precisión y la velocidad, sino que también ofrece una experiencia de usuario muy superior y un conjunto de características más completo.

Las principales ventajas de elegir YOLO11 incluyen:

  • Framework Unificado: Un paquete único y fácil de usar para múltiples tareas de visión, lo que elimina la necesidad de hacer malabarismos con diferentes repositorios y entornos.
  • Desarrollo y soporte activos: Como parte del ecosistema Ultralytics mantenido activamente, YOLO11 recibe actualizaciones continuas, correcciones de errores y soporte de una gran comunidad y del equipo de desarrollo central.
  • Listo para Producción: Con su enfoque en la eficiencia, la facilidad de implementación y las herramientas robustas, YOLO11 está construido para aplicaciones del mundo real, desde el prototipado hasta la producción a gran escala.
  • Preparado para el futuro: Al adoptar YOLO11, los desarrolladores se alinean con la vanguardia de la investigación en detección de objetos y se benefician de las innovaciones continuas de Ultralytics.

Para los desarrolladores que buscan un modelo moderno, versátil y de alto rendimiento respaldado por un ecosistema robusto, Ultralytics YOLO11 es la elección definitiva.

Otras comparaciones de modelos

Para una exploración más exhaustiva, considere estas comparaciones que involucran a YOLOv7, YOLO11 y otros modelos relevantes:



📅 Creado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios