YOLOv7 frente a YOLOv7: equilibrio entre ecosistema y arquitectura
Elegir el modelo de detección de objetos adecuado es una decisión crítica tanto para desarrolladores como para investigadores. En la evolución de la familia YOLO (You Only Look Once), YOLOv5 y YOLOv7 destacan como arquitecturas fundamentales que han configurado el panorama de la visión por ordenador. Mientras que YOLOv7 introdujo importantes innovaciones arquitectónicas en materia de precisión, Ultralytics YOLOv5 revolucionó la experiencia de los desarrolladores centrándose en la facilidad de uso, la implantación y un ecosistema sólido.
Esta guía ofrece una comparación técnica en profundidad de estos dos modelos, analizando sus arquitecturas, métricas de rendimiento en el conjunto de datosCOCO e idoneidad para aplicaciones del mundo real.
Ultralytics YOLOv5: el estándar de ingeniería
Lanzado en 2020, YOLOv5 redefinió las expectativas del software de detección de objetos de código abierto. A diferencia de las iteraciones anteriores, que existían principalmente como código de investigación, YOLOv5 se diseñó como un marco listo para el producto. Se dio prioridad a la facilidad de uso, la exportabilidad y la velocidad, por lo que es la opción preferida para las empresas que crean aplicaciones de inferencia en tiempo real.
Autores: Glenn Jocher
Organización:Ultralytics
Fecha: 2020-06-26
GitHubyolov5
Docsyolov5
Principales ventajas de YOLOv5
- Diseño centrado en el usuario: YOLOv5 introdujo una API simplificada y un flujo de trabajo de formación sin fisuras que redujo la barrera de entrada para la formación de modelos de detección de objetos personalizados.
- Flexibilidad de despliegue: Gracias a la compatibilidad nativa con los modos de exportación, los modelos YOLOv5 pueden convertirse fácilmente a formatos como ONNXCoreML, TFLite y TensorRT para su despliegue en hardware diverso.
- Uso eficiente de los recursos: La arquitectura está optimizada para un bajo consumo de memoria, lo que la hace ideal para dispositivos edge AI como NVIDIA Jetson o Raspberry Pi.
Apoyo al ecosistema
YOLOv5 está respaldado por el completo ecosistema de Ultralytics . Esto incluye una integración perfecta con herramientas de seguimiento de experimentos como Comet y MLflow, así como con plataformas de gestión de conjuntos de datos.
YOLOv7: La "bolsa de regalos
Lanzado en 2022, YOLOv7 se centró en gran medida en ampliar los límites de la precisión mediante la optimización de la arquitectura. Los autores introdujeron varios conceptos novedosos destinados a mejorar el aprendizaje de características sin aumentar el coste de inferencia, una estrategia que denominaron "bag-of-freebies entrenable".
Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics
Innovaciones arquitectónicas
YOLOv7 incorpora Redes de Agregación de Capas Eficientes Ampliadas (E-ELAN) para mejorar la capacidad de aprendizaje de la red. También utiliza técnicas de escalado del modelo que modifican simultáneamente la profundidad y la anchura de la arquitectura. Aunque son eficaces para aumentar las puntuacionesmAP , estos complejos cambios arquitectónicos pueden hacer que el modelo sea más difícil de modificar o desplegar en comparación con la red troncal CSP-Darknet más sencilla de YOLOv5.
Comparación de prestaciones técnicas
Al comparar los dos modelos, el equilibrio suele estar entre la precisión bruta y la velocidad de despliegue práctico. Los modelos YOLOv7 (en concreto, las variantes más grandes) suelen lograr una mayor mAP en el conjunto de datos COCO val2017. Sin embargo, Ultralytics YOLOv5 sigue dominando en velocidad de inferencia y eficiencia de parámetros, especialmente con sus variantes más pequeñas (Nano y Small), que son cruciales para el despliegue móvil.
En la tabla siguiente se destacan las métricas de rendimiento. Observe la excepcional velocidad de YOLOv5n, que sigue siendo una de las opciones más rápidas para entornos con recursos extremadamente limitados.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Análisis de métricas
- Velocidad frente a precisión: YOLOv7x alcanza un 53,1 % de mAP, lo que lo hace adecuado para análisis médicos o de seguridad de alto nivel en los que cada píxel cuenta. Sin embargo, para aplicaciones como el análisis de vídeo o la navegación autónoma, el tiempo de inferencia de 1,12 ms de YOLOv5n en TensorRT ofrece una capacidad de velocidad de fotogramas que los modelos más pesados no pueden igualar.
- Eficiencia del entrenamiento: Ultralytics YOLOv5 utiliza estrategias de "AutoAnchor" y evolución avanzada de hiperparámetros, lo que a menudo resulta en una convergencia más rápida durante el entrenamiento en comparación con los complejos esquemas de re-parametrización requeridos por YOLOv7.
- Huella de memoria: El entrenamiento de transformadores o arquitecturas complejas como YOLOv7 suele requerir GPU de gama alta (por ejemplo, A100). En cambio, el eficiente diseño de YOLOv5 permite entrenar con hardware de consumo, lo que democratiza el acceso al desarrollo de IA.
Aplicación del código
Uno de los argumentos más sólidos a favor de Ultralytics YOLOv5 es la sencillez de su API Python . Cargar un modelo preentrenado y ejecutar la inferencia solo requiere unas pocas líneas de código, lo que demuestra la madurez del framework.
import torch
# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)
# Define an image (url, local path, or numpy array)
img = "https://ultralytics.com/images/zidane.jpg"
# Run inference
results = model(img)
# Print results and show the image with bounding boxes
results.print()
results.show()
Este nivel de abstracción permite a los desarrolladores centrarse en construir sus soluciones empresariales en lugar de depurar arquitecturas de modelos.
Casos de Uso Ideales
Cuándo elegir YOLOv7
YOLOv7 es una opción excelente para la investigación académica y los escenarios en los que las limitaciones de hardware son secundarias con respecto al rendimiento bruto de la detección.
- Investigación académica: Para la evaluación comparativa de las técnicas de detección más avanzadas.
- Inspección de alta precisión: Como el control de calidad en la fabricación, donde la detección de defectos minúsculos es fundamental y la latencia es menos preocupante.
Cuándo elegir Ultralytics YOLOv5
YOLOv5 sigue siendo el estándar del sector para el desarrollo rápido y la implantación en producción.
- Despliegue Edge: Perfecto para ejecutar en dispositivos iOS y Android mediante exportaciones TFLite o CoreML .
- Robótica: Su baja latencia es crucial para los bucles de retroalimentación necesarios en la robótica autónoma.
- Versatilidad: Más allá de la detección, el repositorio YOLOv5 soporta segmentación de instancias y clasificación de imágenes, proporcionando una base de código unificada para múltiples tareas de visión.
Conclusiones: El camino hacia la modernidad
Mientras que YOLOv7 demostró el poder del ajuste arquitectónico, Ultralytics YOLOv5 sigue siendo la mejor opción para los desarrolladores que necesitan una solución fiable, bien documentada y fácil de implantar. Su equilibrio entre velocidad, precisión y compatibilidad con el ecosistema garantiza que siga siendo relevante en los entornos de producción de todo el mundo.
Sin embargo, el campo de la visión por ordenador avanza rápidamente. Para quienes buscan el máximo rendimiento YOLO11 representa la última evolución de Ultralytics. YOLO11 se basa en la facilidad de uso de YOLOv5 , pero incorpora módulos basados en transformadores de última generación y diseños sin anclajes, superando tanto a YOLOv5 como a YOLOv7 en precisión y eficiencia.
Para obtener una solución preparada para el futuro que admita la detección de objetos, la estimación de poses y las cajas delimitadoras orientadas (OBB), se recomienda encarecidamente migrar al marcoYOLO11 Ultralytics .
Descubra más comparaciones
Descubra cómo se comparan otros modelos con la familia Ultralytics YOLO :