YOLOv9 YOLOv5: evolución arquitectónica y legado en la detección de objetos
La evolución de la familia YOLO You Only Look Once) representa una fascinante cronología del progreso de la visión artificial. YOLOv5, lanzada por Ultralytics 2020, estableció un nuevo estándar en cuanto a facilidad de uso y preparación para la producción, convirtiéndose en el marco de referencia para los desarrolladores de todo el mundo. YOLOv9, lanzado en 2024 por investigadores de la Academia Sinica, amplía los límites de la arquitectura teórica con conceptos como la información de gradiente programable (PGI).
Esta comparación analiza cómo la fiabilidad probada en combate de YOLOv5 con las innovaciones arquitectónicas de YOLOv9, lo que le ayudará a decidir qué modelo se adapta mejor a sus necesidades específicas de visión artificial.
Comparación de métricas de rendimiento
La siguiente tabla compara los dos modelos en distintos tamaños. Cabe destacar que, aunque YOLOv9 una mayor precisión teórica (mAP), YOLOv5 competitivo en cuanto a velocidad y eficiencia de recursos, especialmente para implementaciones heredadas.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
YOLOv5: el estándar para la IA de producción
Desde su lanzamiento en 2020 por Ultralytics, YOLOv5 se ha convertido en sinónimo de implementación práctica de la IA. No se trataba solo de una arquitectura de modelo, sino de un cambio completo del ecosistema. Antes de YOLOv5, el entrenamiento de modelos de detección de objetos a menudo requería archivos de configuración complejos y marcos frágiles basados en C. YOLOv5 una PyTorch nativa PyTorch que simplificó el entrenamiento a un solo comando.
- Autor:Glenn Jocher
- Organización:Ultralytics
- Fecha: junio de 2020
- GitHub:ultralytics/yolov5
Puntos fuertes clave de YOLOv5
- Facilidad de uso sin igual: La característica distintiva de Ultralytics es la experiencia del usuario. YOLOv5 un flujo de trabajo fluido desde la preparación del conjunto de datos hasta la implementación.
- Amplia compatibilidad con plataformas: Ofrece compatibilidad nativa con la exportación para CoreML, TFLitey ONNX, lo que lo hace increíblemente versátil para aplicaciones móviles y periféricas.
- Bajo consumo de recursos: a diferencia de las arquitecturas con transformadores pesados que requieren una gran cantidad de GPU , YOLOv5 muy eficiente, lo que permite entrenarlo en hardware de consumo o incluso en cuadernos en la nube gratuitos como Google .
- Estabilidad: gracias a años de mantenimiento activo, se han resuelto los casos extremos, lo que garantiza una plataforma estable para aplicaciones críticas en la fabricación inteligente y la seguridad.
Ejemplo de facilidad de uso
La ejecución de inferencias con YOLOv5 o cualquier Ultralytics ) es sencilla y está estandarizada:
from ultralytics import YOLO
# Load a pretrained YOLOv5s model
model = YOLO("yolov5s.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
YOLOv9: Innovación arquitectónica con PGI
Lanzado a principios de 2024, YOLOv9 se centra en resolver el problema del cuello de botella de la información en las redes neuronales profundas. A medida que las redes se vuelven más profundas, la información crítica de las características puede perderse durante el proceso de alimentación directa. YOLOv9 este problema con la información de gradiente programable (PGI) y la red de agregación de capas eficiente generalizada (GELAN).
- Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
- Organización:Institute of Information Science, Academia Sinica
- Fecha: febrero de 2024
- Arxiv:YOLOv9: Aprendiendo lo que quieres aprender usando información de gradiente programable
- GitHub:WongKinYiu/yolov9
Avances Arquitectónicos
- Arquitectura GELAN: esta novedosa arquitectura combina lo mejor de CSPNet (utilizada en YOLOv5) y ELAN (utilizada en YOLOv7) para maximizar la eficiencia de los parámetros. Permite que el modelo alcance una mayor precisión con menos parámetros en comparación con arquitecturas más antiguas.
- Información de gradiente programable (PGI): PGI genera gradientes fiables a través de una rama auxiliar que solo se utiliza durante el entrenamiento. Esto garantiza que las capas profundas conserven la información semántica sin añadir costes de inferencia, lo que mejora el rendimiento en tareas difíciles, como la detección de objetos pequeños.
Análisis comparativo: ¿cuándo utilizar cada uno?
La elección entre estos dos modelos depende de su prioridad: velocidad de implementación o máxima precisión.
1. Eficiencia de la formación y ecosistema
YOLOv5 destaca por la madurez de su ecosistema. Está integrado en miles de herramientas de terceros y cuenta con un enorme apoyo por parte de la comunidad. Si necesitas implementar un modelo hoy mismo con la mínima fricción, YOLOv5 o la versión más reciente YOLO11) suele ser la opción más segura.
YOLOv9 es totalmente compatible con el Ultralytics , lo que significa que los usuarios pueden aprovechar las mismas canalizaciones de entrenamiento simplificadas. Sin embargo, su compleja arquitectura (ramas auxiliares) puede hacer que, en ocasiones, el entrenamiento sea más lento y requiera un poco más de memoria que el optimizado YOLOv5.
2. Implementación periférica frente a precisión del servidor
En tareas que requieren una precisión absoluta, como el análisis de imágenes médicas sin conexión o la inspección industrial de alta precisión, YOLOv9e supera significativamente a YOLOv5x, ofreciendo una mAP del +5 % mAP .
Sin embargo, para dispositivos periféricos como Raspberry Pi o NVIDIA , YOLOv5 sigue siendo uno de los favoritos. Su arquitectura más sencilla se adapta bien a la cuantificación int8 y, a menudo, ofrece velocidades de inferencia más rápidas en hardware limitado, aunque modelos más nuevos como YOLO26 lo están sustituyendo rápidamente en este nicho.
3. Versatilidad de Tareas
Ambos modelos son versátiles, pero la Ultralytics garantiza que admitan una amplia gama de tareas más allá de la simple detección:
- Segmentación de instancias: máscaras precisas a nivel de píxel.
- Clasificación: Etiquetado de imágenes completas.
- Estimación de la postura: seguimiento de puntos clave para el reconocimiento de la actividad humana.
- OBB: Cuadros delimitadores orientados para imágenes aéreas.
El futuro: YOLO26
Aunque YOLOv5 YOLOv9 modelos excelentes, este campo evoluciona rápidamente. Los desarrolladores que busquen lo último en tecnología deberían fijarse en YOLO26.
Lanzado en enero de 2026, YOLO26 representa la culminación de estos avances arquitectónicos. Adopta un diseño integral NMS, popularizado por primera vez por YOLOv10, que elimina por completo el paso de supresión no máxima, que genera mucha latencia. Además, cuenta con el optimizador MuSGD, un híbrido de SGD Muon, que garantiza una convergencia y una estabilidad más rápidas.
Con mejoras como ProgLoss + STAL para la detección de objetos pequeños y la eliminación de Distribution Focal Loss (DFL) para una exportación más sencilla, YOLO26 ofrece CPU hasta un 43 % más rápida que las generaciones anteriores, lo que lo convierte en la opción ideal tanto para la investigación como para la producción.
Conclusión
- Elija YOLOv5 si necesita un modelo ligero y probado en combate para sistemas heredados o con restricciones extremas de recursos, en los que podría faltar compatibilidad con operadores más recientes (como los de YOLOv9).
- Elija YOLOv9 si necesita una alta precisión en conjuntos de datos complejos y puede permitirse unos costes de recursos de entrenamiento ligeramente superiores.
- Elija YOLO26 para obtener lo mejor de todos los mundos: velocidad NMS, precisión de primer nivel y características de última generación, como el optimizador MuSGD.
Para empezar a utilizar cualquiera de estos modelos, puede utilizar la Ultralytics para gestionar sus conjuntos de datos, entrenarlos en la nube e implementarlos sin esfuerzo.
Empezando
Puede entrenar cualquiera de estos modelos utilizando elPython Ultralytics Python . Solo tiene que cambiar el nombre del modelo en su script:
from ultralytics import YOLO
# Switch between models easily
model = YOLO("yolov5su.pt") # YOLOv5
# model = YOLO("yolov9c.pt") # YOLOv9
# model = YOLO("yolo26n.pt") # YOLO26
# Train on your data
model.train(data="coco8.yaml", epochs=100)