YOLOv7 vs YOLO11: Del legado en tiempo real a la eficiencia de última generación

Navegar por el panorama de los modelos de visión artificial implica comprender los matices entre las arquitecturas establecidas y las últimas innovaciones de vanguardia (SOTA). Esta guía proporciona una comparación técnica exhaustiva entre YOLOv7, un hito significativo en la serie YOLO, y Ultralytics YOLO11, el modelo de última generación diseñado para un rendimiento y una versatilidad superiores.

Exploraremos sus diferencias arquitectónicas, métricas de referencia y aplicaciones prácticas para ayudar a los desarrolladores e investigadores a seleccionar la herramienta óptima para tareas que van desde la detección de objetos hasta la segmentación de instancias compleja.

YOLOv7: Un punto de referencia en arquitectura eficiente

Lanzado en julio de 2022, YOLOv7 representó un gran avance en el equilibrio entre la eficiencia del entrenamiento y la velocidad de inferencia. Fue diseñado para superar a los detectores anteriores centrándose en optimizaciones arquitectónicas que reducen el número de parámetros sin sacrificar la precisión.

Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización:Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docs:https://docs.ultralytics.com/models/yolov7/

Aspectos Arquitectónicos Destacados

YOLOv7 introdujo la Extended Efficient Layer Aggregation Network (E-ELAN). Esta arquitectura permite al modelo aprender características más diversas controlando las rutas de gradiente más cortas y más largas, mejorando la convergencia durante el entrenamiento. Además, utilizó "trainable bag-of-freebies", un conjunto de estrategias de optimización como la re-parametrización del modelo y la asignación dinámica de etiquetas, que mejoran la precisión sin aumentar el coste de inferencia.

Si bien es principalmente un modelo de detección de objetos, la comunidad de código abierto ha explorado la extensión de YOLOv7 para la estimación de pose. Sin embargo, estas implementaciones a menudo carecen de la integración perfecta que se encuentra en los frameworks unificados.

Fortalezas y Limitaciones

YOLOv7 es respetado por su:

Rendimiento Sólido: Estableció una nueva base para los detectores en tiempo real tras su lanzamiento, con un buen rendimiento en el conjunto de datos COCO.
Innovación Arquitectónica: La introducción de E-ELAN influyó en la investigación posterior en el diseño de redes.

Sin embargo, se enfrenta a desafíos en los flujos de trabajo modernos:

Complejidad: El pipeline de entrenamiento puede ser intrincado, requiriendo una configuración manual significativa en comparación con los estándares modernos.
Versatilidad limitada: No admite de forma nativa tareas como la clasificación o las cajas delimitadoras orientadas (OBB) de fábrica.
Uso de recursos: El entrenamiento de variantes más grandes, como YOLOv7x, exige una cantidad considerable de memoria de GPU, lo que puede ser un cuello de botella para los investigadores con hardware limitado.

Más información sobre YOLOv7

Ultralytics YOLO11: Redefiniendo la velocidad, la precisión y la facilidad de uso

Ultralytics YOLO11 es la última evolución en el renombrado linaje YOLO, diseñado para ofrecer un rendimiento SOTA en una amplia gama de tareas de visión artificial. Construido sobre un legado de mejora continua, YOLO11 ofrece una arquitectura refinada que maximiza la eficiencia para la implementación en el mundo real.

Autores: Glenn Jocher y Jing Qiu
Organización:Ultralytics
Fecha: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Docs:https://docs.ultralytics.com/models/yolo11/

Arquitectura Avanzada y Versatilidad

YOLO11 emplea un backbone modernizado que utiliza bloques C3k2 y un módulo SPPF mejorado para capturar características a varias escalas de forma más eficaz. Este diseño da como resultado un modelo que no solo es más preciso, sino también significativamente más ligero en términos de parámetros y FLOPs en comparación con sus predecesores y competidores.

Una característica definitoria de YOLO11 es su soporte nativo multi-tarea. Dentro de un único marco, los usuarios pueden realizar:

Detección: Identificación de objetos con cuadros delimitadores.
Segmentación: Enmascaramiento a nivel de píxel para un análisis de forma preciso.
Clasificación: Asignación de etiquetas de clase a imágenes completas.
Estimación de Pose: Detección de puntos clave en cuerpos humanos.
OBB: Detectando objetos rotados, crucial para imágenes aéreas.

Ecosistema Unificado

Ultralytics YOLO11 se integra perfectamente con Ultralytics HUB, una plataforma para la gestión de conjuntos de datos, el entrenamiento sin código y el despliegue con un solo clic. Esta integración acelera significativamente el ciclo de vida de MLOps.

Por qué los desarrolladores eligen YOLO11

Facilidad de uso: Con un diseño centrado en el usuario, YOLO11 se puede implementar en tan solo unas pocas líneas de código python o mediante una simple CLI.
Ecosistema bien mantenido: Respaldado por una comunidad activa y el equipo de Ultralytics, el modelo recibe actualizaciones frecuentes, lo que garantiza la compatibilidad con las últimas versiones de PyTorch y aceleradores de hardware.
Equilibrio de rendimiento: Logra un equilibrio excepcional entre la velocidad de inferencia y la precisión media promedio (mAP), lo que lo hace ideal tanto para dispositivos de borde como para servidores en la nube.
Eficiencia de memoria: Los modelos YOLO11 suelen requerir menos memoria CUDA durante el entrenamiento en comparación con arquitecturas más antiguas o modelos basados en transformadores, lo que permite tamaños de lote más grandes o el entrenamiento en hardware modesto.

Más información sobre YOLO11

Comparación del rendimiento: Puntos de referencia técnicos

La siguiente tabla ilustra las diferencias de rendimiento entre YOLOv7 y YOLO11. Los datos destacan cómo las optimizaciones modernas permiten a YOLO11 lograr una precisión superior con una fracción del coste computacional.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Análisis:

Eficiencia: YOLO11m coincide con la precisión de YOLOv7l (51.5 vs 51.4 mAP) mientras usa casi la mitad de los parámetros (20.1M vs 36.9M) y significativamente menos FLOP.
Velocidad: Para aplicaciones en tiempo real, YOLO11n es drásticamente más rápido, registrando 1.5ms en una GPU T4, lo que lo hace perfecto para el procesamiento de video de alta velocidad de fotogramas.
Precisión: El modelo más grande, YOLO11x, supera a YOLOv7x en precisión (54.7 vs 53.1 mAP) manteniendo un conteo de parámetros competitivo.

Casos de uso en el mundo real

Agricultura y Monitorización Ambiental

En la agricultura de precisión, la detección de enfermedades de los cultivos o el seguimiento del crecimiento requiere modelos que puedan ejecutarse en dispositivos con energía limitada, como drones o sensores de campo.

YOLO11: Su arquitectura ligera (específicamente YOLO11n/s) permite la implementación en dispositivos Raspberry Pi o NVIDIA Jetson, lo que permite la monitorización de la salud de los cultivos en tiempo real.
YOLOv7: Aunque es preciso, su mayor demanda computacional restringe su utilidad en dispositivos de borde alimentados por batería.

Fabricación Inteligente y Control de Calidad

Los sistemas automatizados de inspección visual requieren alta precisión para detectar defectos diminutos en las líneas de fabricación.

YOLO11: la capacidad del modelo para realizar segmentación y OBB es crucial en este caso. Por ejemplo, el OBB es esencial para detectar componentes girados en una cinta transportadora, una función que YOLO11 admite de forma nativa pero que requiere implementaciones personalizadas en YOLOv7.
YOLOv7: Adecuado para la detección estándar de cuadros delimitadores, pero menos adaptable para defectos geométricos complejos sin una modificación significativa.

Vigilancia y Seguridad

Los sistemas de seguridad a menudo procesan múltiples flujos de video simultáneamente.

YOLO11: La alta velocidad de inferencia permite que un solo servidor procese más flujos en paralelo, lo que reduce los costes de infraestructura.
YOLOv7: Eficaz, pero una mayor latencia por fotograma reduce el número total de canales que una sola unidad puede manejar.

Implementación y eficiencia del entrenamiento

Una de las características más destacadas del ecosistema de Ultralytics es la experiencia optimizada para el desarrollador. A continuación, se muestra una comparación de cómo empezar.

Simplicidad en el código

Ultralytics YOLO11 está diseñado para ser "con todo incluido", abstrayendo el código boilerplate complejo.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

En contraste, los repositorios más antiguos a menudo requieren clonar el repositorio, ajustar manualmente los archivos de configuración y ejecutar scripts de shell complejos para el entrenamiento y la inferencia.

Flexibilidad de exportación

YOLO11 admite la exportación con un solo clic a varios formatos para su implementación, incluidos ONNX, TensorRT, CoreML y TFLite. Esta flexibilidad garantiza que su modelo esté listo para la producción en cualquier entorno.

Conclusión: El claro ganador

Si bien YOLOv7 sigue siendo un modelo respetable en la historia de la visión artificial, Ultralytics YOLO11 representa el futuro. Para los desarrolladores e investigadores, YOLO11 ofrece un paquete atractivo:

Métricas superiores: Mayor mAP y velocidades de inferencia más rápidas.
Ecosistema enriquecido: Acceso a Ultralytics HUB, documentación extensa y soporte de la comunidad.
Versatilidad: Un único framework para detección, segmentación, pose, clasificación y OBB.
Preparado para el futuro: Las actualizaciones y el mantenimiento continuos garantizan la compatibilidad con las nuevas bibliotecas de hardware y software.

Para cualquier proyecto nuevo, aprovechar la eficiencia y la facilidad de uso de YOLO11 es el camino recomendado para lograr resultados de última generación con la mínima fricción.

Explorar Otros Modelos

Si le interesan más comparaciones, explore estas páginas relacionadas en la documentación: