Ir al contenido

YOLO11 frente a YOLOv7: comparación técnica detallada

Elegir el modelo de detección de objetos adecuado es una decisión crítica que repercute en la velocidad, la precisión y la escalabilidad de las aplicaciones de visión por ordenador. Esta guía ofrece una comparación técnica en profundidad entre Ultralytics YOLO11 y YOLOv7dos hitos significativos en el linaje de YOLO (You Only Look Once). Mientras que YOLOv7 representó un gran salto adelante en 2022, el recién lanzado YOLO11 introduce refinamientos arquitectónicos que redefinen el rendimiento de vanguardia para el desarrollo moderno de IA.

Ultralytics YOLO11: el nuevo estándar para la IA de visión

Lanzamiento a finales de 2024, Ultralytics YOLO11 se basa en los sólidos cimientos de sus predecesores para ofrecer una eficiencia y versatilidad inigualables. Está diseñado para gestionar una amplia gama de tareas de visión por ordenador dentro de un marco único y unificado.

Arquitectura e Innovaciones

YOLO11 introduce una arquitectura perfeccionada con el bloque C3k2 y los mecanismos C2PSA (Cross-Stage Partial with Spatial Attention). Estas mejoras permiten al modelo extraer características con mayor granularidad, manteniendo al mismo tiempo un menor número de parámetros en comparación con las generaciones anteriores. La arquitectura se ha optimizado para aumentar la velocidad, garantizando que incluso las variantes más grandes del modelo mantengan las capacidades de inferencia en tiempo real en hardware estándar.

Una característica definitoria de YOLO11 es su compatibilidad nativa con múltiples tareas que van más allá de la detección de objetos, como la segmentación de instancias, la estimación de poses, la detección de recuadros delimitadores orientados (OBB) y la clasificación de imágenes.

Integración del ecosistema Ultralytics

YOLO11 está totalmente integrado en el ecosistema Ultralytics , proporcionando a los desarrolladores un acceso sin fisuras a las herramientas de gestión de datos, formación de modelos y despliegue. Esta integración reduce significativamente la complejidad de las canalizaciones de MLOps, lo que permite a los equipos pasar del prototipo a la producción con mayor rapidez.

Más información sobre YOLO11

YOLOv7: una referencia en formación eficiente

YOLOv7, lanzado a mediados de 2022, se centró en gran medida en la optimización del proceso de entrenamiento para lograr una alta precisión sin aumentar los costes de inferencia. Introdujo varios conceptos novedosos que influyeron en la investigación posterior en este campo.

Arquitectura e Innovaciones

El núcleo de YOLOv7 es la red E-ELAN (Extended Efficient Layer Aggregation Network), que mejora la capacidad de aprendizaje del modelo sin destruir la trayectoria del gradiente original. Los autores también introdujeron el "bag-of-freebies entrenable", una colección de estrategias de optimización -como la re-parametrización del modelo y las cabezas de detección auxiliares- queaumentan la precisión durante el entrenamiento pero se simplifican durante la inferencia.

Aunque YOLOv7 marcó unos hitos impresionantes en su lanzamiento, se trata principalmente de una arquitectura de detección de objetos. Adaptarla a otras tareas, como la segmentación o la estimación de la pose, suele requerir ramas o bifurcaciones específicas del código base, lo que contrasta con el enfoque unificado de los modelos más recientes.

Arquitectura heredada

YOLOv7 se basa en métodos de detección basados en anclajes y en complejos cabezales auxiliares. Aunque eficaces, estas opciones arquitectónicas pueden hacer que el modelo sea más difícil de personalizar y optimizar para su despliegue en los bordes, en comparación con los diseños simplificados y sin anclajes de los modelos Ultralytics modernos.

Más información sobre YOLOv7

Análisis de rendimiento: Velocidad, precisión y eficiencia

Al comparar las métricas técnicas, los avances en la arquitectura de YOLO11 se hacen evidentes. El nuevo modelo logra una precisión comparable o superior con un número significativamente menor de parámetros y una mayor velocidad de inferencia.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Puntos clave

  1. Eficiencia de los parámetros: YOLO11 reduce drásticamente el tamaño del modelo. Por ejemplo, YOLO11l supera la precisión de YOLOv7x (53,4% frente a 53,1% mAP) utilizando casi un 65% menos de parámetros (25,3M frente a 71,3M). Esta reducción es fundamental para implantar modelos en dispositivos con almacenamiento y memoria limitados.
  2. Velocidad de inferencia: Las optimizaciones arquitectónicas de YOLO11 se traducen directamente en velocidad. En una GPU T4 utilizando TensorRTYOLO11l es casi dos veces más rápido que YOLOv7x. Para aplicaciones CPU, el ligero YOLO11n ofrece velocidades increíbles (56,1 ms), permitiendo la detección en tiempo real en hardware de borde donde las variantes de YOLOv7 tendrían dificultades.
  3. Requisitos de cálculo: El número de operaciones en coma flotante (FLOPs ) es significativamente menor en los modelos YOLO11 . Esta menor carga computacional se traduce en un menor consumo de energía y una menor generación de calor, lo que hace que YOLO11 sea muy adecuado para dispositivos de IA de borde alimentados por batería.

Ecosistema y experiencia de los desarrolladores

Más allá de las métricas en bruto, la experiencia del desarrollador es un factor diferenciador importante. Los modelosYOLO Ultralytics son famosos por su facilidad de uso y su sólido ecosistema.

Flujo de trabajo optimizado

YOLOv7 suele requerir la clonación de un repositorio y la interacción con complejos scripts de shell para la formación y las pruebas. En cambio, YOLO11 se distribuye a través de un paquete estándar de Python (ultralytics). Esto permite a los desarrolladores integrar funciones avanzadas de visión por ordenador en su software con sólo unas pocas líneas de código.

from ultralytics import YOLO

# Load a model (YOLO11n recommended for speed)
model = YOLO("yolo11n.pt")

# Train the model with a single command
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Versatilidad y eficacia del entrenamiento

YOLO11 admite una amplia gama de tareas desde el primer momento. Si los requisitos de un proyecto cambian de simples cuadros delimitadores a segmentación de instancias o estimación de la pose, los desarrolladores pueden simplemente cambiar el archivo de peso del modelo (por ejemplo, yolo11n-seg.pt) sin cambiar todo el código base o el pipeline. YOLOv7 generalmente requiere encontrar y configurar bifurcaciones específicas para estas tareas.

Además, YOLO11 se beneficia de la eficiencia del entrenamiento. Los modelos utilizan modernas técnicas de optimización y vienen con pesos preentrenados de alta calidad, por lo que a menudo convergen más rápido que las arquitecturas más antiguas. Esta eficiencia se extiende a los requisitos de memoria; los modelos Ultralytics están optimizados para minimizar el uso de memoria CUDA durante el entrenamiento, lo que evita los errores comunes de memoria insuficiente (OOM) que afectan a los detectores más antiguos o basados en Transformer.

Documentación y asistencia

Ultralytics mantiene una amplia documentación y una comunidad activa. Los usuarios se benefician de actualizaciones frecuentes, correcciones de errores y una ruta clara para el soporte empresarial. Por el contrario, el repositorio de YOLOv7 , aunque históricamente importante, se mantiene de forma menos activa, lo que puede plantear riesgos para las implantaciones de producción a largo plazo.

Aplicaciones en el mundo real

  • Análisis del comercio minorista: La gran precisión y velocidad de YOLO11 permiten realizar un seguimiento en tiempo real del comportamiento de los clientes y supervisar el inventario en el hardware estándar de las tiendas.
  • Robótica autónoma: La baja latencia de YOLO11n lo hace ideal para la navegación y la evitación de obstáculos en drones y robots donde cada milisegundo cuenta.
  • Imágenes médicas: Con soporte nativo para segmentación, YOLO11 puede adaptarse rápidamente para identificar y delinear anomalías en escaneos médicos con alta precisión.
  • Inspección industrial: La capacidad de manejar OBB (Oriented Bounding Boxes) hace que YOLO11 sea superior para detectar piezas giradas o texto en líneas de montaje, una función no disponible de forma nativa en YOLOv7 estándar.

Conclusión

Aunque YOLOv7 sigue siendo un modelo capaz y un testimonio del rápido progreso de la visión por ordenador en 2022, Ultralytics YOLO11 representa la elección definitiva para el desarrollo de la IA moderna. Ofrece un equilibrio superior entre rendimiento, eficiencia y facilidad de uso.

Para desarrolladores e investigadores, la transición a YOLO11 proporciona beneficios inmediatos: tiempos de inferencia más rápidos, costes de hardware reducidos y un flujo de trabajo unificado para diversas tareas de visión. Respaldado por el activo ecosistema Ultralytics , YOLO11 no es solo un modelo, sino una solución integral para implantar la visión por ordenador más avanzada en el mundo real.

Exploración adicional

Explore más comparaciones para encontrar el mejor modelo para sus necesidades específicas:


Comentarios