YOLOv7 frente a YOLO11: del legado en tiempo real a la eficiencia más avanzada
Navegar por el panorama de los modelos de visión por ordenador implica comprender los matices entre las arquitecturas establecidas y las últimas innovaciones de última generación (SOTA). Esta guía ofrece una comparación técnica exhaustiva entre YOLOv7, un hito significativo en la serie YOLO , y Ultralytics YOLO11el modelo de vanguardia diseñado para ofrecer un rendimiento y una versatilidad superiores.
Exploraremos sus diferencias arquitectónicas, métricas de referencia y aplicaciones prácticas para ayudar a desarrolladores e investigadores a seleccionar la herramienta óptima para tareas que van desde la detección de objetos a la segmentación de instancias complejas.
YOLOv7: una referencia en arquitectura eficiente
Lanzado en julio de 2022, YOLOv7 supuso un gran salto adelante en el equilibrio entre la eficacia del entrenamiento y la velocidad de inferencia. Se diseñó para superar a los detectores anteriores centrándose en optimizaciones arquitectónicas que reducen el número de parámetros sin sacrificar la precisión.
Autores: Chien-Yao Wang, Alexey Bochkovskiy, y Hong-Yuan Mark Liao
Organización:Institute of Information Science, Academia Sinica, Taiwan
Fecha: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics
Aspectos arquitectónicos destacados
YOLOv7 introdujo la Red de Agregación de Capas Eficiente Ampliada (E-ELAN). Esta arquitectura permite al modelo aprender características más diversas mediante el control de las rutas de gradiente más corta y más larga, lo que mejora la convergencia durante el entrenamiento. Además, utilizó "bag-of-freebies entrenables", un conjunto de estrategias de optimización como la re-parametrización del modelo y la asignación dinámica de etiquetas, que mejoran la precisión sin aumentar el coste de inferencia.
Aunque se trata principalmente de un modelo de detección de objetos, la comunidad de código abierto ha explorado la posibilidad de ampliar YOLOv7 para la estimación de la pose. Sin embargo, estas implementaciones a menudo carecen de la integración perfecta que se encuentra en los marcos unificados.
Puntos fuertes y limitaciones
YOLOv7 es respetado por su:
- Rendimiento sólido: Estableció una nueva línea de base para los detectores en tiempo real desde su lanzamiento, con un buen rendimiento en el conjunto de datosCOCO .
- Innovación arquitectónica: La introducción de E-ELAN influyó en la investigación posterior sobre diseño de redes.
Sin embargo, se enfrenta a retos en los flujos de trabajo modernos:
- Complejidad: El proceso de formación puede ser complejo y requerir una configuración manual significativa en comparación con los estándares modernos.
- Versatilidad limitada: No admite de forma nativa tareas como la clasificación o los cuadros delimitadores orientados (OBB).
- Uso de recursos: El entrenamiento de variantes más grandes, como YOLOv7x, exige un uso sustancial de recursos de la GPU lo que puede suponer un cuello de botella para los investigadores con un hardware limitado.
Ultralytics YOLO11: velocidad, precisión y facilidad de uso redefinidas
Ultralytics YOLO11 es la última evolución del famoso linaje YOLO , diseñado para ofrecer un rendimiento SOTA en una amplia gama de tareas de visión por ordenador. Basado en un legado de mejoras continuas, YOLO11 ofrece una arquitectura refinada que maximiza la eficiencia para el despliegue en el mundo real.
Autores: Glenn Jocher y Jing Qiu
Organización:Ultralytics
Fecha: 2024-09-27
GitHubultralytics
Docsyolo11
Arquitectura avanzada y versatilidad
YOLO11 emplea una columna vertebral modernizada que utiliza bloques C3k2 y un módulo SPPF mejorado para capturar características a varias escalas con mayor eficacia. Este diseño da como resultado un modelo no solo más preciso, sino también significativamente más ligero en términos de parámetros y FLOPs en comparación con sus predecesores y competidores.
Una característica definitoria de YOLO11 es su soporte multitarea nativo. Dentro de un único marco, los usuarios pueden realizar:
- Detección: Identificación de objetos con cajas delimitadoras.
- Segmentación: Enmascaramiento a nivel de píxel para un análisis preciso de la forma.
- Clasificación: asignación de etiquetas de clase a imágenes enteras.
- Estimación de la pose: Detección de puntos clave en cuerpos humanos.
- OBB: Detección de objetos girados, crucial para las imágenes aéreas.
Ecosistema unificado
Ultralytics YOLO11 se integra perfectamente con Ultralytics HUB, una plataforma para la gestión de conjuntos de datos, la formación sin código y el despliegue con un solo clic. Esta integración acelera significativamente el ciclo de vida de MLOps.
Por qué los promotores eligen YOLO11
- Facilidad de uso: Con un diseño centrado en el usuario, YOLO11 puede implementarse en unas pocas líneas de código Python o a través de una sencilla CLI.
- Ecosistema bien mantenido: Respaldado por una comunidad activa y por el equipo de Ultralytics , el modelo recibe actualizaciones frecuentes, lo que garantiza su compatibilidad con las últimas versiones de PyTorch y los aceleradores de hardware.
- Equilibrio de rendimiento: Consigue un equilibrio excepcional entre velocidad de inferencia y precisión media media (mAP), lo que la hace ideal tanto para dispositivos periféricos como para servidores en la nube.
- Eficiencia de memoria: Los modelos YOLO11 suelen requerir menos memoria CUDA durante el entrenamiento en comparación con arquitecturas más antiguas o modelos basados en transformadores, lo que permite tamaños de lote mayores o el entrenamiento en hardware modesto.
Comparación de prestaciones: Puntos de referencia técnicos
La siguiente tabla ilustra las diferencias de rendimiento entre YOLOv7 y YOLO11. Los datos ponen de relieve cómo las modernas optimizaciones permiten a YOLO11 alcanzar una precisión superior con una fracción del coste computacional.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Análisis:
- Eficacia: YOLO11m iguala la precisión de YOLOv7l (51,5 frente a 51,4 mAP) utilizando casi la mitad de parámetros (20,1M frente a 36,9M) y un número significativamente menor de FLOPs.
- Velocidad: Para aplicaciones en tiempo real, YOLO11n es drásticamente más rápido, con una velocidad de 1,5 ms en una GPU T4, lo que lo hace perfecto para el procesamiento de vídeo a alta velocidad (FPS).
- Precisión: El modelo de mayor tamaño, YOLO11x, supera a YOLOv7x en precisión (54,7 frente a 53,1 mAP) al tiempo que mantiene un recuento de parámetros competitivo.
Casos de uso en el mundo real
Agricultura y vigilancia medioambiental
En la agricultura de precisión, la detección de enfermedades de los cultivos o la supervisión del crecimiento requieren modelos que puedan funcionar en dispositivos con potencia limitada, como drones o sensores de campo.
- YOLO11: Su arquitectura ligera (en concreto, YOLO11n/s) permite su despliegue en dispositivos Raspberry Pi o NVIDIA Jetson, lo que posibilita la supervisión de la salud de los cultivos en tiempo real.
- YOLOv7: Aunque es preciso, su mayor demanda computacional restringe su utilidad en dispositivos periféricos alimentados por batería.
Fabricación inteligente y control de calidad
Los sistemas automatizados de inspección visual requieren una gran precisión para detect defectos minúsculos en las líneas de fabricación.
- YOLO11: la capacidad del modelo para realizar segmentación y OBB es crucial en este caso. Por ejemplo, el OBB es esencial para detectar componentes girados en una cinta transportadora, una función que YOLO11 admite de forma nativa pero que requiere implementaciones personalizadas en YOLOv7.
- YOLOv7: Adecuado para la detección estándar de recuadros delimitadores, pero menos adaptable para defectos geométricos complejos sin modificaciones significativas.
Vigilancia y seguridad
Los sistemas de seguridad suelen procesar varios flujos de vídeo simultáneamente.
- YOLO11: La alta velocidad de inferencia permite que un solo servidor procese más flujos en paralelo, lo que reduce los costes de infraestructura.
- YOLOv7: Eficaz, pero la mayor latencia por fotograma reduce el número total de canales que puede manejar una sola unidad.
Aplicación y eficacia de la formación
Una de las características más destacadas del ecosistema Ultralytics es la experiencia simplificada para desarrolladores. A continuación se muestra una comparación de cómo empezar.
Simplicidad en el código
Ultralytics YOLO11 está diseñado para "pilas incluidas", abstrayéndose del complejo código repetitivo.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
En cambio, los repositorios más antiguos a menudo requieren clonar el repositorio, ajustar manualmente los archivos de configuración y ejecutar complejos scripts de shell para el entrenamiento y la inferencia.
Flexibilidad de exportación
YOLO11 permite exportar con un solo clic a varios formatos para su despliegue, entre ellos ONNX, TensorRTCoreML y TFLite. Esta flexibilidad garantiza que su modelo esté listo para la producción en cualquier entorno.
Conclusión: El claro vencedor
En YOLOv7 sigue siendo un modelo respetable en la historia de la visión por ordenador, Ultralytics YOLO11 representa el futuro. Para desarrolladores e investigadores, YOLO11 ofrece un paquete irresistible:
- Métricas superiores: Mayor mAP y mayor velocidad de inferencia.
- Ecosistema enriquecido: Acceso a Ultralytics HUB, amplia documentación y apoyo de la comunidad.
- Versatilidad: Un único marco para la detección, segmentación, pose, clasificación y OBB.
- A prueba de futuro: Las actualizaciones y el mantenimiento continuos garantizan la compatibilidad con las nuevas bibliotecas de hardware y software.
Para cualquier proyecto nuevo, aprovechar la eficacia y facilidad de uso de YOLO11 es el camino recomendado para lograr resultados de vanguardia con un mínimo de fricción.
Explorar Otros Modelos
Si le interesan más comparaciones, explore estas páginas relacionadas en la documentación:
- YOLO11 vs YOLOv8
- YOLO11 vs YOLOv10
- YOLOv7 vs RT-DETR
- YOLOv5 vs YOLOv5
- Explora el YOLOv9 arquitectura.