Ir al contenido

YOLO11 YOLOv7: comparación técnica de arquitectura y rendimiento

A medida que avanza el campo de la visión artificial, elegir la arquitectura adecuada para la detección de objetos se vuelve fundamental para el éxito. Dos de los principales competidores de la YOLO son YOLO11, desarrollado por Ultralytics, y YOLOv7, un modelo impulsado por la investigación de Academia Sinica. Si bien ambos modelos han contribuido de manera significativa al estado actual de la técnica, satisfacen diferentes necesidades en cuanto a velocidad, flexibilidad y facilidad de implementación.

Esta guía ofrece un análisis técnico detallado de sus arquitecturas, métricas de rendimiento y casos de uso ideales para ayudar a los desarrolladores e investigadores a seleccionar la mejor herramienta para sus proyectos.

Visión General y Orígenes del Modelo

Comprender el linaje de estos modelos proporciona un contexto para sus decisiones arquitectónicas.

YOLO11

Publicado en septiembre de 2024 por Ultralytics, YOLO11 un refinamiento de la filosofía centrada en la producción de la empresa. Se diseñó para maximizar la eficiencia en el hardware moderno, equilibrando un alto rendimiento con una precisión competitiva.

  • Autores: Glenn Jocher y Jing Qiu
  • Organización:Ultralytics
  • Fecha: septiembre de 2024
  • Enfoque clave: facilidad de uso en tiempo real, amplia compatibilidad con tareas (detección, segmentación, pose, OBB, clasificación) e implementación optimizada a través del Ultralytics .

Más información sobre YOLO11

YOLOv7

Lanzado en julio de 2022, YOLOv7 un importante hito académico presentado por el equipo responsable de YOLOv4. Introdujo varios «bag-of-freebies» para mejorar la precisión sin aumentar el coste de inferencia, centrándose en gran medida en optimizaciones arquitectónicas entrenables.

  • Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
  • Organización: Institute of Information Science, Academia Sinica
  • Fecha: julio de 2022
  • Enfoque principal: Análisis de la trayectoria del gradiente, reparametrización del modelo y asignación dinámica de etiquetas.

Más información sobre YOLOv7

Análisis de rendimiento

Al comparar estas arquitecturas, métricas como la precisión media (mAP) y la latencia de inferencia son fundamentales. La tabla siguiente destaca cómo la nueva ingeniería de YOLO11 en ganancias de eficiencia con respecto a la YOLOv7 anterior YOLOv7 .

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Puntos clave

  • Eficiencia: El modelo YOLO11m alcanza una precisión ligeramente superior (51,5 % mAP) a la YOLOv7 estándar YOLOv7 51,4 %), al tiempo que utiliza aproximadamente un 45 % menos de parámetros (20,1 millones frente a 36,9 millones) y un número significativamente menor de FLOP.
  • Velocidad: en las GPU T4, YOLO11 superan sistemáticamente a sus YOLOv7 en cuanto a latencia de inferencia, un factor crítico para aplicaciones en tiempo real como la conducción autónoma o el análisis de vídeo.
  • Escalabilidad: YOLO11 una gama más amplia de escalas de modelos (desde Nano hasta X-Large), lo que facilita su implementación en hardware con recursos limitados, como Raspberry Pi o dispositivos móviles.

Diferencias Arquitectónicas

Ultralytics YOLO11

YOLO11 en los conceptos fundamentales de CSPNet (Cross-Stage Partial Network), pero perfecciona el diseño de bloques para mejorar el flujo de gradientes y la extracción de características.

  • Backbone refinado: utiliza un bloque C3k2 mejorado (una implementación más rápida de los cuellos de botella CSP) que mejora la reutilización de características y reduce el cálculo.
  • Detección sin anclajes: al igual que sus predecesores inmediatos, YOLO11 un cabezal sin anclajes, lo que simplifica el proceso de entrenamiento al eliminar la necesidad de agrupar manualmente los cuadros de anclaje.
  • Cabezas multitarea: La arquitectura está diseñada de forma nativa para admitir múltiples tareas utilizando una estructura de cabeza unificada, lo que permite cambiar sin problemas entre la detección de objetos, la segmentación de instancias y la estimación de poses.

YOLOv7

YOLOv7 «Extended-ELAN» (E-ELAN) para controlar eficazmente las rutas de gradiente más cortas y más largas.

  • E-ELAN: un bloque computacional diseñado para permitir que la red aprenda características más diversas sin destruir la ruta del gradiente.
  • Reparametrización del modelo: utiliza técnicas de reparametrización (RepConv) para fusionar capas convolucionales separadas en una sola capa durante la inferencia, lo que aumenta la velocidad sin perder precisión en el entrenamiento.
  • Cabezal auxiliar de grueso a fino: introduce un cabezal auxiliar para la supervisión del entrenamiento, lo que ayuda a la supervisión profunda del modelo, pero añade complejidad al proceso de entrenamiento.

La evolución hacia YOLO26

Aunque YOLO11 mejoras significativas, la última versión YOLO26 amplía aún más los límites. Lanzado en enero de 2026, YOLO26 presenta un diseño integral NMS, lo que elimina la necesidad de posprocesamiento y acelera CPU hasta en un 43 %. También adopta el optimizador MuSGD, inspirado en el entrenamiento LLM, para una convergencia más rápida.

Entrenamiento y facilidad de uso

Para los desarrolladores, la «experiencia del usuario» de un modelo —lo fácil que resulta entrenarlo, validarlo e implementarlo— suele ser tan importante como las métricas brutas.

La ventaja del ecosistema de Ultralytics

YOLO11 totalmente integrado en el Python Ultralytics , lo que ofrece un flujo de trabajo «de cero a héroe».

  1. API unificada: puede cambiar entre YOLO11, YOLOv8o YOLO26 cambiando una sola cadena.
  2. Eficiencia de memoria: Ultralytics están optimizados para utilizar menos CUDA durante el entrenamiento en comparación con muchos repositorios de investigación. Esto permite tamaños de lotes más grandes en las GPU de consumo.
  3. Exportación con un solo clic: exportación a formatos como ONNX, TensorRT, CoreML o TFLite gestiona mediante un único comando.
from ultralytics import YOLO

# Load a YOLO11 model (or YOLO26 for best results)
model = YOLO("yolo11n.pt")

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX for deployment
path = model.export(format="onnx")

YOLOv7

YOLOv7 basarse en un repositorio independiente. Aunque es potente, a menudo requiere:

  • Configuración manual de .yaml archivos para anclajes (si no se utiliza la versión sin anclajes).
  • Scripts específicos de «implementación» para fusionar los pesos reparametrizados antes de la exportación.
  • Argumentos de línea de comandos más complejos para gestionar cabezales auxiliares durante el entrenamiento.

Aplicaciones en el mundo real

Cuándo elegir YOLO11

YOLO11 la opción preferida para aplicaciones comerciales e industriales en las que la fiabilidad y el mantenimiento son fundamentales.

  • IA periférica: la disponibilidad de modelos «Nano» y «Small» hace que YOLO11 sea YOLO11 para cámaras inteligentes y dispositivos IoT que supervisan líneas de fabricación.
  • Proyectos multitarea: si su aplicación requiere el seguimiento de objetos y, al mismo tiempo, la estimación de puntos clave (por ejemplo, análisis deportivos), el marco unificado YOLO11 simplifica el código base.
  • Prototipado rápido: la facilidad de uso permite a los equipos iterar rápidamente en conjuntos de datos personalizados utilizando la Ultralytics , lo que reduce el tiempo de comercialización.

Cuándo elegir YOLOv7

  • Evaluación comparativa académica: si está replicando resultados de la bibliografía de 2022-2023 o estudiando los efectos específicos de las arquitecturas E-ELAN.
  • Sistemas heredados: Para sistemas ya profundamente integrados con la estructura específica de entrada/salida de las YOLO originales YOLO al estilo Darknet.

Conclusión

Mientras YOLOv7 sigue siendo un hito respetado en la historia de la detección de objetos, YOLO11 ofrece una solución más moderna, eficiente y fácil de usar para los desarrolladores. Con una relación velocidad-precisión superior, menores requisitos de memoria y el respaldo del robusto Ultralytics , YOLO11 una vía más clara para su implementación en el mundo real.

Para aquellos que buscan lo último en tecnología, recomendamos explorar YOLO26, que se basa en estos fundamentos con inferencia NMS y optimizadores de última generación.

Recursos Adicionales


Comentarios