YOLOv7 vs YOLOv5: comparación técnica detallada
Elegir la arquitectura de detección de objetos adecuada es una decisión crítica que influye en la velocidad, precisión y viabilidad de implantación de sus proyectos de visión por ordenador. Esta página ofrece una comparación técnica exhaustiva entre YOLOv7 y Ultralytics YOLOv5dos modelos influyentes en el linaje YOLO . Profundizamos en sus innovaciones arquitectónicas, referencias de rendimiento y casos de uso ideales para ayudarle a seleccionar el más adecuado para su aplicación.
Mientras que YOLOv7 introdujo importantes avances académicos en 2022, Ultralytics YOLOv5 sigue siendo una fuerza dominante en el sector debido a su incomparable facilidad de uso, robustez y flexibilidad de despliegue. Para aquellos que buscan lo último en rendimiento, también exploramos cómo estos modelos allanan el camino para la vanguardia de Ultralytics YOLO11.
Comparación de métricas de rendimiento
La siguiente tabla muestra las diferencias de rendimiento entre las dos arquitecturas. Mientras que YOLOv5 aspira a una mayor precisión media (mAP), YOLOv5 ofrece claras ventajas en velocidad de inferencia y menor número de parámetros para determinados tamaños de modelo.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
YOLOv7: superando los límites de la precisión
Lanzado en julio de 2022, YOLOv7 fue diseñado para establecer un nuevo estado del arte para los detectores de objetos en tiempo real. Se centra en gran medida en la optimización arquitectónica para mejorar la precisión sin aumentar significativamente el coste de inferencia.
Autores: Chien-Yao Wang, Alexey Bochkovskiy, y Hong-Yuan Mark Liao
Organización:Institute of Information Science, Academia Sinica, Taiwan
Fecha: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics
Arquitectura e Innovaciones Clave
YOLOv7 introduce varios cambios arquitectónicos complejos destinados a mejorar el aprendizaje de características:
- E-ELAN (Red de Agregación de Capas Eficiente Ampliada): Una estructura troncal avanzada que mejora la capacidad de aprendizaje de la red mediante el control de los caminos de gradiente más corto y más largo. Esto permite al modelo aprender características más diversas.
- Escalado de modelos basados en concatenación: A diferencia del escalado estándar, YOLOv7 escala la profundidad y la anchura simultáneamente para arquitecturas basadas en concatenación, lo que garantiza una utilización óptima de los recursos.
- Bolsa de trabajo entrenable: Incluye la convolución re-parametrizada planificada (RepConv) y el entrenamiento de cabezas auxiliares. Las cabezas auxiliares generan etiquetas jerárquicas de grueso a fino, que ayudan a guiar el proceso de aprendizaje durante el entrenamiento pero se eliminan durante la inferencia para mantener la velocidad.
¿Qué es una "Bolsa de regalos"?
"Bolsa de regalos" se refiere a una colección de métodos de entrenamiento y técnicas de aumento de datos que mejoran la precisión de un modelo de detección de objetos sin aumentar el coste de inferencia. En YOLOv7, esto incluye estrategias sofisticadas como la asignación de etiquetas guiada por plomo de grueso a fino.
Casos de uso ideales para YOLOv7
Gracias a su gran precisión, YOLOv7 es especialmente adecuado para:
- Investigación académica: Comparación con modelos SOTA en los que cada fracción de mAP importa.
- Implementación de GPU de gama alta: Aplicaciones en las que se dispone de hardware potente (como las NVIDIA A100) para manejar los tamaños de modelo más grandes y los requisitos de memoria.
- Análisis estático: Escenarios en los que la latencia en tiempo real es menos crítica que la precisión, como el análisis de imágenes de satélite de alta resolución o exploraciones médicas.
Ultralytics YOLOv5: el estándar del sector
Ultralytics YOLOv5 está ampliamente considerado como uno de los modelos de detección de objetos más prácticos y fáciles de usar que existen. Desde su lanzamiento en 2020, se ha convertido en la columna vertebral de innumerables aplicaciones comerciales gracias a su equilibrio entre velocidad, precisión y excelencia en ingeniería.
Autores: Glenn Jocher
Organización:Ultralytics
Fecha: 2020-06-26
GitHubyolov5
Docsyolov5
Arquitectura y beneficios para el ecosistema
YOLOv5 utiliza una red troncal CSP-Darknet53 con un cuello PANet y una cabeza YOLOv3, optimizada para diversos objetivos de despliegue. Sin embargo, su verdadera fuerza reside en el ecosistemaUltralytics :
- Facilidad de uso: Conocido por su filosofía de "instalar y ejecutar", YOLOv5 permite a los desarrolladores empezar a entrenar en conjuntos de datos personalizados en cuestión de minutos. La API es intuitiva y la documentación exhaustiva.
- Eficiencia de entrenamiento: YOLOv5 suele requerir menos memoria CUDA durante el entrenamiento en comparación con arquitecturas más nuevas y complejas, lo que lo hace accesible a desarrolladores con GPU de gama media.
- Flexibilidad de despliegue: Permite exportar con un solo clic a ONNX, TensorRTCoreML, TFLite, etc., lo que facilita el despliegue en todo tipo de dispositivos, desde servidores en la nube hasta teléfonos móviles.
- Ecosistema bien mantenido: Con actualizaciones frecuentes, correcciones de errores y una comunidad masiva, Ultralytics garantiza que el modelo permanezca estable y seguro para entornos de producción.
Casos de uso ideales para YOLOv5
YOLOv5 destaca en situaciones reales que requieren fiabilidad y velocidad:
- Edge AI: Funcionando en dispositivos como el NVIDIA Jetson o Raspberry Pi gracias a la ligereza de Nano (
yolov5n) y Pequeño (yolov5s). - Aplicaciones móviles: Integración en aplicaciones iOS y Android mediante CoreML y TFLite para la inferencia en el dispositivo.
- Creación rápida de prototipos: Las startups y los desarrolladores que necesitan pasar rápidamente del concepto al MVP se benefician del flujo de trabajo optimizado.
- Automatización industrial: Detección fiable para líneas de fabricación en las que la latencia y la estabilidad son primordiales.
Análisis comparativo detallado
A la hora de decidir entre YOLOv7 y YOLOv5, entran en juego varios factores técnicos además de la puntuación mAP .
1. Compromiso entre velocidad y precisión
YOLOv7 alcanza una mayor precisión máxima en el conjunto de datosCOCO . Por ejemplo, YOLOv7x alcanza un 53,1% de mAP frente al 50,7% de YOLOv5x. Sin embargo, esto se consigue a costa de la complejidad. YOLOv5 ofrece un gradiente de modelos más suave; el modelo YOLOv5n (Nano) es increíblemente rápido (73,6 ms de velocidad de CPU ) y ligero (2,6 millones de parámetros), lo que crea un nicho para entornos de recursos ultrabajos a los que YOLOv7 no se dirige explícitamente con la misma granularidad.
2. Arquitectura y complejidad
YOLOv7 emplea una arquitectura basada en la concatenación con E-ELAN, lo que aumenta el ancho de banda de memoria necesario durante el entrenamiento. Esto puede hacer que el entrenamiento sea más lento y que consuma más memoria que YOLOv5. Por el contrario, Ultralytics YOLOv5 utiliza una arquitectura racionalizada que está altamente optimizada para la eficiencia del entrenamiento, lo que permite una convergencia más rápida y un menor uso de la memoria, lo que supone una ventaja significativa para los ingenieros con presupuestos computacionales limitados.
3. Usabilidad y experiencia del desarrollador
Aquí es donde Ultralytics YOLOv5 realmente brilla. El marco de Ultralytics proporciona una experiencia unificada con herramientas sólidas para el aumento de datos, la evolución de hiperparámetros y el seguimiento de experimentos.
import torch
# Example: Loading YOLOv5s from PyTorch Hub for inference
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)
# Inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")
# Print results
results.print()
Aunque YOLOv7 cuenta con un repositorio, carece de las canalizaciones CI/CD pulidas y listas para la producción, las extensas guías de integración y el apoyo de la comunidad que respaldan el ecosistema de Ultralytics .
4. Versatilidad
Aunque ambos modelos son principalmente arquitecturas de detección de objetos, el ecosistema Ultralytics que rodea YOLOv5 ha evolucionado para soportar sin problemas la segmentación de instancias y la clasificación de imágenes. YOLOv7 también admite estas tareas, pero a menudo requiere diferentes ramas o bifurcaciones del código, mientras que Ultralytics ofrece un enfoque más unificado.
Fácil implantación
Los modelos de Ultralytics admiten una amplia gama de formatos de exportación. Puede convertir fácilmente su modelo entrenado a TFLite para Android, CoreML para iOS, o TensorRT para una inferencia optimizada GPU mediante un simple comando CLI o script Python .
Conclusión: ¿Qué modelo debería elegir?
La elección entre YOLOv7 y YOLOv5 depende de las prioridades de su proyecto:
- Elija YOLOv7 si su principal restricción es la máxima precisión y trabaja en un entorno de investigación o en hardware de gama alta en el que la velocidad de inferencia y el espacio de memoria son preocupaciones secundarias.
- Elija Ultralytics YOLOv5 si necesita una solución fiable y lista para la producción. Su facilidad de uso, formación eficaz, baja latencia en dispositivos periféricos y amplio ecosistema de asistencia lo convierten en la mejor opción para la mayoría de aplicaciones comerciales y desarrolladores que comienzan su andadura en el campo de la visión por computador.
Mirando al futuro: YOLO11
Aunque YOLOv5 y YOLOv7 son modelos excelentes, el campo de la visión por ordenador avanza rápidamente. A los desarrolladores que busquen lo mejor de ambos mundos -superar la precisión de YOLOv7 y la velocidad/utilidad de YOLOv5les recomendamos encarecidamente que exploren Ultralytics YOLO11.
YOLO11 representa la última evolución, con una arquitectura sin anclajes que simplifica el proceso de formación y mejora el rendimiento en todas las tareas, incluidas la detección, la segmentación, la estimación de la pose y los recuadros delimitadores orientados (OBB).
Explorar Otros Modelos
Si está interesado en comparar otros modelos de la familia YOLO , consulte estas páginas relacionadas: