Ir al contenido

YOLOv5 YOLOv7: evolución de los detectores de objetos en tiempo real

Seleccionar la arquitectura adecuada para la detección de objetos implica encontrar el equilibrio entre precisión, velocidad de inferencia y facilidad de implementación. Esta guía ofrece una comparación técnica detallada entre Ultralytics YOLOv5 y YOLOv7, dos modelos influyentes en el panorama de la visión artificial. Analizamos sus diferencias arquitectónicas, sus benchmarks de rendimiento y sus casos de uso ideales para ayudarle a tomar una decisión informada para sus proyectos de visión artificial.

Resumen Ejecutivo

Aunque ambos modelos son competentes, YOLOv5 sigue siendo el estándar del sector en cuanto a facilidad de uso, versatilidad de implementación y soporte de la comunidad. Su ecosistema maduro y su perfecta integración con la Ultralytics lo convierten en una excelente opción para entornos de producción. YOLOv7, lanzado más tarde, introdujo innovaciones arquitectónicas como E-ELAN para una mayor precisión máxima en GPU , pero carece del amplio soporte multitarea y las herramientas optimizadas que se encuentran en el Ultralytics .

Para los desarrolladores que comiencen nuevos proyectos en 2026, recomendamos encarecidamente evaluar YOLO26, que supera a ambos modelos en velocidad y precisión con un diseño nativo de extremo a extremo y NMS.

Ultralytics YOLOv5: el estándar de producción

YOLOv5 revolucionó el campo no solo a través de métricas brutas, sino también al priorizar la experiencia del desarrollador. Fue el primer YOLO implementado de forma nativa en PyTorch, lo que lo hizo accesible a una amplia comunidad de investigadores e ingenieros. Su filosofía de «fácil de entrenar, fácil de implementar» lo consolidó como la solución ideal para aplicaciones del mundo real, desde vehículos autónomos hasta inspección industrial.

Autor: Glenn Jocher
Organización:Ultralytics
Fecha: 2020-06-26
GitHub:ultralytics/yolov5
Docs:Documentación de YOLOv5

Más información sobre YOLOv5

Arquitectura y Diseño

YOLOv5 una columna vertebral CSP-Darknet53 con una capa Focus (posteriormente sustituida por una convolución 6x6) para reducir el cálculo y conservar la información. Utiliza un cuello Path Aggregation Network (PANet) para la fusión de características y la predicción multiescala. Las características arquitectónicas clave incluyen:

  • Aumento de datos mosaico: una técnica de entrenamiento que combina cuatro imágenes en una, mejorando la capacidad del modelo para detect objetos detect y reduciendo la necesidad de grandes minilotes.
  • Anclajes de cuadro delimitador de autoaprendizaje: el modelo adapta automáticamente los cuadros de anclaje a la geometría específica de los conjuntos de datos personalizados durante el entrenamiento.
  • Activación SiLU: Uso de la función de activación Sigmoid Linear Unit (SiLU) para una propagación más suave del gradiente.

Puntos fuertes clave

  • Facilidad de uso: la API simplificada y la sólida documentación permiten a los desarrolladores entrenar un modelo personalizado con solo unas pocas líneas de código.
  • Versatilidad de implementación: Compatibilidad con exportación integrada para ONNX, TensorRT, CoreML, TFLite y OpenVINO una implementación fluida en objetivos periféricos y en la nube.
  • Capacidades multitarea: más allá de la detección, YOLOv5 la segmentación de instancias y la clasificación de imágenes, lo que ofrece un completo conjunto de herramientas para diversas tareas de visión.

YOLOv7: impulsando GPU

YOLOv7 fue diseñado para superar los límites de velocidad y precisión en GPU . Introduce varias estrategias «bag-of-freebies» (bolsa de regalos), métodos que aumentan la precisión sin incrementar el coste de la inferencia, lo que lo convierte en un fuerte competidor para escenarios de computación de alto rendimiento.

Autores: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 06/07/2022
Arxiv:2207.02696
GitHub:WongKinYiu/yolov7
Documentación:YOLOv7

Más información sobre YOLOv7

Arquitectura e innovación

YOLOv7 en el diseño eficiente de la arquitectura y el escalado del modelo. Su principal innovación es la red de agregación de capas eficientes extendida (E-ELAN), que permite al modelo aprender características más diversas mediante el control de las rutas de gradiente más cortas y más largas.

  • Escalado de modelos: YOLOv7 un método de escalado compuesto que modifica simultáneamente la profundidad y la anchura de los modelos basados en concatenación, optimizando la arquitectura para diferentes restricciones de hardware.
  • Cabezal auxiliar de grueso a fino: emplea un cabezal auxiliar para el entrenamiento que guía el proceso de aprendizaje, que luego se vuelve a parametrizar en el cabezal principal para la inferencia, lo que garantiza que no haya pérdida de velocidad en la implementación.
  • Reparametrización planificada: la arquitectura utiliza convoluciones reparametrizadas (RepConv) de forma estratégica para equilibrar la velocidad y la precisión, evitando conexiones de identidad que destruyen el aprendizaje residual.

Comparación de referencia de rendimiento

La siguiente tabla compara el rendimiento de YOLOv5 YOLOv7 el COCO . Mientras que YOLOv7 fortalezas en mAP bruto mAP GPU, YOLOv5 una velocidad competitiva, particularmente en CPU, y un número de parámetros significativamente menor para modelos más pequeños.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Análisis de resultados

  • Eficiencia: YOLOv5n (Nano) es excepcionalmente ligero, lo que lo hace perfecto para dispositivos periféricos con grandes limitaciones, en los que cada megabyte de memoria cuenta.
  • Precisión: YOLOv7x alcanza una mayor mAP (53,1 %) en comparación con YOLOv5x (50,7 %), lo que demuestra las ventajas de la arquitectura E-ELAN para tareas GPU de gama alta.
  • Implementación:ONNX de CPU ONNX para YOLOv5 bien documentada y optimizada, lo que proporciona un rendimiento fiable paraGPU .

Elegir por el borde

Para dispositivos periféricos como Raspberry Pi o teléfonos móviles, YOLOv5n o YOLOv5s suelen ser opciones superiores debido a su menor consumo de memoria y su probada compatibilidad TFLite .

Entrenamiento y ecosistema

Uno de los diferenciadores más significativos es el ecosistema que rodea a los modelos.YOLO Ultralytics se benefician de una plataforma mantenida continuamente que simplifica todo el ciclo de vida de las operaciones de aprendizaje automático (MLOps).

Ventaja del ecosistema de Ultralytics

  • Plataforma integrada: La Ultralytics permite a los usuarios gestionar conjuntos de datos, visualizar ejecuciones de entrenamiento e implementar modelos de forma fluida desde una interfaz web.
  • Eficiencia de entrenamiento: YOLOv5 cargadores de datos eficientes y almacenamiento en caché inteligente, lo que reduce significativamente el tiempo de entrenamiento en conjuntos de datos personalizados en comparación con arquitecturas más antiguas.
  • Soporte de la comunidad: Con miles de colaboradores y debates activos en GitHub y Discord, encontrar soluciones a casos extremos es más rápido con Ultralytics .

Ejemplo de código: Entrenamiento con Ultralytics

El entrenamiento de un YOLO con Ultralytics estandarizado en todas las versiones. Puede cambiar entre YOLOv5, YOLO11 y el recomendado YOLO26 con solo cambiar el nombre del modelo.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model
model = YOLO("yolov5s.pt")

# Train the model on a custom dataset
# The API handles data downloading and configuration automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a new image
predictions = model("path/to/image.jpg")

El futuro: ¿por qué mudarse a YOLO26?

Aunque comparar YOLOv5 YOLOv7 útil para comprender los sistemas heredados, la tecnología punta ha avanzado considerablemente. Lanzado en enero de 2026, Ultralytics representa un cambio de paradigma en la detección de objetos.

Más información sobre YOLO26

  • De extremo a extremo de forma nativa: a diferencia de YOLOv5 YOLOv7, que requieren un posprocesamiento de supresión no máxima (NMS), YOLO26 NMS necesita NMS de forma nativa. Esto simplifica los procesos de implementación y reduce la variabilidad de la latencia.
  • Optimizador MuSGD: Aprovechando las innovaciones del entrenamiento LLM, el optimizador MuSGD garantiza una convergencia más estable y un rendimiento robusto en diversos conjuntos de datos.
  • Velocidad mejorada: YOLO26 ofrece CPU hasta un 43 % más rápida en comparación con las generaciones anteriores, lo que lo convierte en la opción ideal para las aplicaciones modernas de IA de vanguardia.
  • Versatilidad: admite de forma nativa Oriented Bounding Box (OBB), estimación de poses y segmentación con funciones de pérdida especializadas como ProgLoss y STAL para una mejor detección de objetos pequeños.

Conclusión

Tanto YOLOv5 YOLOv7 su lugar en la historia de la visión artificial. YOLOv7 es una potente herramienta de investigación para maximizar mAP GPU específico. Sin embargo, YOLOv5 sigue siendo la opción práctica para muchos debido a su incomparable facilidad de uso, estabilidad y amplio soporte de implementación.

Para proyectos con visión de futuro, la recomendación es clara: adoptar Ultralytics . Combina el ecosistema fácil de usar de YOLOv5 avances arquitectónicos que superan a sus predecesores en velocidad, precisión y simplicidad.

Visite el CentroUltralytics para explorar estas arquitecturas más a fondo y descargar pesos preentrenados para su próximo proyecto.


Comentarios