Ir al contenido

YOLOv5 YOLOv9: evolución de la detección de objetos en tiempo real

El panorama de la detección de objetos en tiempo real ha evolucionado drásticamente en los últimos años. Mientras que YOLOv5 estableció el estándar de usabilidad y adopción industrial en 2020, YOLOv9 introdujo conceptos arquitectónicos novedosos en 2024 para ampliar los límites de la precisión y la eficiencia. Esta guía ofrece una comparación técnica detallada para ayudar a los desarrolladores a elegir la herramienta adecuada para sus proyectos de visión artificial.

Orígenes del modelo y especificaciones técnicas

Comprender el origen de estos modelos ayuda a contextualizar su filosofía de diseño y los casos de uso previstos.

YOLOv5: el estándar industrial

Lanzado en junio de 2020 por Glenn Jocher y Ultralytics, YOLOv5 la facilidad de uso, la exportabilidad y la velocidad. Se convirtió en el primer YOLO implementado de forma nativa en PyTorch, lo que lo hizo accesible a una enorme comunidad de Python

  • Autor: Glenn Jocher
  • Organización:Ultralytics
  • Fecha: 2020-06-26
  • Repositorio:GitHub
  • Enfoque: Usabilidad, vías de exportación robustas (ONNX, CoreML, TFLite) y formación rápida.

Más información sobre YOLOv5

YOLOv9: Innovación Arquitectónica

Lanzado en febrero de 2024 por Chien-Yao Wang y Hong-Yuan Mark Liao, de la Academia Sinica, YOLOv9 en resolver el problema del «cuello de botella de la información» en las redes profundas.

  • Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
  • Organización: Institute of Information Science, Academia Sinica
  • Fecha: 2024-02-21
  • Repositorio:GitHub
  • Artículo:arXiv:2402.13616
  • Enfoque: Eficiencia de parámetros y supervisión profunda mediante información de gradiente programable (PGI).

Más información sobre YOLOv9

Diferencias Arquitectónicas

La diferencia fundamental radica en cómo estos modelos gestionan la extracción de características y el flujo de gradiente.

YOLOv5 utiliza una red troncal CSPNet (Cross Stage Partial Network). Este diseño divide el flujo de gradiente para reducir el cálculo y mantener la precisión, lo que supuso una revolución para la creación de modelos compactos adecuados para sistemas integrados. Su cabezal de detección basado en anclajes está altamente optimizado para tareas de uso general, lo que ofrece un equilibrio que sigue siendo competitivo para muchas aplicaciones heredadas.

YOLOv9 introduce dos innovaciones clave: GELAN (Red de agregación de capas eficiente generalizada) y PGI (Información de gradiente programable). GELAN optimiza la utilización de parámetros, lo que permite que el modelo sea más ligero y aprenda características más complejas. PGI aborda la pérdida de información a medida que los datos se propagan a través de capas profundas proporcionando una rama de supervisión auxiliar, lo que garantiza una generación de gradientes fiable incluso en arquitecturas muy profundas.

¿Sabías que?

Si bien YOLOv9 una novedad arquitectónica, el Ultralytics YOLOv5 sigue siendo inigualable en cuanto a implementación. Admite de forma nativa la exportación a formatos como TensorRT Edge TPU, lo que simplifica el camino desde el entrenamiento hasta la producción.

Análisis de rendimiento

Al comparar las métricas, YOLOv9 alcanzarun mAPval más alto para un número determinado de parámetros, especialmente en las variantes de modelos más grandes. Sin embargo, YOLOv5 increíblemente competitivo en cuanto a velocidad de inferencia en CPU y hardware heredado debido a su arquitectura más sencilla.

Métricas de rendimiento

La tabla siguiente destaca las ventajas y desventajas. YOLOv9c alcanza mAP del 53,0 %, superando a YOLOv5x (50,7 %) y utilizando un número significativamente menor de parámetros (25,3 millones frente a 97,2 millones). Esto demuestra la eficiencia de la arquitectura GELAN. Por el contrario, las YOLOv5 más pequeñas YOLOv5 (Nano y Small) ofrecen una latencia extremadamente baja, lo que las hace viables para dispositivos de consumo energético ultrabajo.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv5n64028.073.61.121.94.5
YOLOv5s64037.4120.71.927.216.5
YOLOv5m64045.4233.94.0321.249.0
YOLOv5l64049.0408.46.6146.5109.1
YOLOv5x64050.7763.211.8986.7205.7
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Nota: La tabla refleja las métricas COCO estándar COCO . Los valores en negrita indican el mejor rendimiento en esa categoría específica.

Facilidad de uso y ecosistema

Aquí es donde la distinción resulta más práctica para los desarrolladores.

Ultralytics (YOLOv5)

YOLOv5 diseñado para la experiencia del desarrollador. El Ultralytics proporciona un flujo de trabajo fluido:

  1. API sencilla: carga y entrena modelos con unas pocas líneas de Python.
  2. Herramientas integradas: integración automática con herramientas de seguimiento de experimentos como Comet ClearML.
  3. Implementación: exportación con un solo clic a ONNX, CoreML, TFLite y OpenVINO.
from ultralytics import YOLO

# Load a pre-trained YOLOv5 model
model = YOLO("yolov5su.pt")

# Train on custom data
model.train(data="coco8.yaml", epochs=100)

# Export to ONNX for deployment
model.export(format="onnx")

YOLOv9

Aunque es muy preciso, el YOLOv9 original YOLOv9 está centrado en la investigación. Sin embargo, YOLOv9 ahoraYOLOv9 totalmente compatible con el Ultralytics , lo que aporta la misma facilidad de uso a esta arquitectura más reciente. Esto significa que no es necesario sacrificar la usabilidad para acceder a las últimas mejoras arquitectónicas; basta con cambiar la cadena del nombre del modelo.

Eficiencia del entrenamiento y memoria

Una ventaja fundamental de Ultralytics , incluidos YOLOv5 el YOLOv9 integrado, es la eficiencia de la memoria.

  • GPU : los bucles Ultralytics están optimizados para minimizar el uso CUDA . Esto permite a los usuarios entrenar lotes de mayor tamaño en hardware de consumo (como NVIDIA 3060/4090) en comparación con los modelos basados en transformadores, que suelen consumir mucha memoria.
  • Convergencia: YOLOv5 famoso por su capacidad de «entrenamiento inmediato», que requiere un ajuste mínimo de los hiperparámetros. YOLOv9, con su rama auxiliar PGI, también demuestra una convergencia estable, aunque la arquitectura es más compleja.

Aplicaciones en el mundo real

La elección del modelo adecuado depende de las limitaciones de su implementación.

Casos de uso ideales para YOLOv5

  • IA periférica en hardware heredado: si está realizando una implementación en modelos antiguos de Raspberry Pi o dispositivos móviles en los que cada milisegundo de latencia de inferencia es importante, YOLOv5n (Nano) es imbatible.
  • Prototipado rápido: para hackatones o startups que necesitan una prueba de concepto (PoC) en cuestión de horas, la amplia documentación y los tutoriales de la comunidad para YOLOv5 el desarrollo.
  • Aplicaciones móviles: Su compatibilidad nativa con iOS CoreML y Android TFLite loTFLite un elemento básico para los desarrolladores móviles.

Casos de Uso Ideales para YOLOv9

  • Inspección de alta precisión: en el control de calidad de la fabricación, donde es fundamental detectar defectos mínimos, la extracción de características superior de GELAN hace que YOLOv9 sea YOLOv9 mejor opción.
  • Imágenes médicas: para tareas como la detección de tumores, en las que la precisión es más importante que la velocidad bruta, YOLOv9e proporciona el mAP necesario.
  • Escenas complejas: los entornos con alta oclusión o desorden se benefician de los gradientes programables que ayudan al modelo a retener información crítica a través de capas profundas.

El futuro: Conociendo a YOLO26

Si bien YOLOv5 una herramienta fiable y YOLOv9 una gran precisión, el campo ha vuelto a avanzar. Para los nuevos proyectos que se inicien en 2026, Ultralytics representa la cima del rendimiento y la eficiencia.

¿Por qué actualizar a YOLO26?

  • De extremo a extremo de forma nativa: a diferencia de YOLOv5 v9, que requieren NMS , YOLO26 NMS necesita NMS, lo que simplifica los procesos de implementación.
  • Optimizador MuSGD: inspirado en el entrenamiento LLM, este optimizador garantiza un entrenamiento más rápido y estable.
  • Versatilidad: admite detección, segmentación, pose, OBB y clasificación desde el primer momento.

Más información sobre YOLO26

Para los usuarios que actualmente utilizan YOLOv5, la migración a YOLO26 ofrece una aceleración significativa (hasta un 43 % más rápida CPU ) y una mejora en la detección de objetos pequeños a través de ProgLoss + STAL, lo que la convierte en la opción recomendada tanto para implementaciones en el borde como en la nube.

Conclusión

Ambas arquitecturas tienen su lugar. YOLOv5 sigue siendo el rey de la simplicidad y la amplia compatibilidad con dispositivos, perfecto para desarrolladores que necesitan una solución que «simplemente funcione». YOLOv9 ofrece un vistazo al futuro del aprendizaje profundo eficiente con sus gradientes programables, que proporcionan una precisión de vanguardia.

Sin embargo, el uso del Ultralytics garantiza que no quede atrapado. Puede entrenar YOLOv5, YOLOv9 y el innovador YOLO26 utilizando exactamente la misma API, lo que le permite compararlos con sus propios datos y elegir el ganador para su aplicación específica.

Resumen de la comparación

CaracterísticaYOLOv5YOLOv9
Foco principalVelocidad, facilidad de uso, implementaciónPrecisión, eficiencia de los parámetros
ArquitecturaRed troncal CSPNet, basada en anclajesGELAN Backbone, PGI, basado en anclajes
EcosistemaUltralytics nativo para UltralyticsIntegrado en Ultralytics
Ideal paraMóvil, periférico, sistemas heredadosInvestigación de alta precisión, escenas complejas
InferenciaExtremadamente rápido (GPU)Alta precisión / Más lento

Explora otros modelos de la Ultralytics :

  • YOLO11 : el robusto predecesor de YOLO26.
  • YOLOv8 : un marco unificado para la detección, segmentación y pose.
  • RT-DETR - Detección basada en transformador en tiempo real.

Comentarios