Link to this sectionYOLOv9 vs YOLOv5#
El campo de la visión artificial ha experimentado un crecimiento tremendo, y la detección de objetos actúa como la columna vertebral de innumerables aplicaciones industriales y de investigación. Elegir la arquitectura correcta a menudo requiere una evaluación cuidadosa de la precisión media (mAP), la velocidad de inferencia y la sobrecarga de memoria. En esta comparativa, exploramos dos modelos altamente influyentes: YOLOv9, célebre por sus avances arquitectónicos en la retención de información de gradiente, y Ultralytics YOLOv5, el estándar industrial probado en combate conocido por su increíble facilidad de uso y versatilidad de implementación inigualable.
Link to this sectionInnovaciones arquitectónicas y orígenes técnicos#
Comprender la mecánica subyacente de estos dos modelos proporciona un contexto crítico para sus respectivos perfiles de rendimiento.
Link to this sectionYOLOv9: información de gradiente programable#
Desarrollado por los investigadores Chien-Yao Wang y Hong-Yuan Mark Liao en el Instituto de Ciencias de la Información de la Academia Sinica en Taiwán, YOLOv9 se lanzó el 21 de febrero de 2024. El modelo introduce dos conceptos innovadores para abordar el cuello de botella de información común en las redes neuronales profundas: Programmable Gradient Information (PGI) y la red Generalized Efficient Layer Aggregation Network (GELAN).
Al utilizar PGI, YOLOv9 asegura que la información vital se retenga a lo largo del proceso de alimentación directa (feed-forward), lo que conduce a actualizaciones de gradiente altamente precisas. Mientras tanto, la arquitectura GELAN maximiza la eficiencia de los parámetros, permitiendo al modelo alcanzar una precisión de vanguardia con una sobrecarga computacional sorprendentemente baja. Puedes explorar los detalles técnicos en el artículo de Arxiv de YOLOv9 oficial o ver el repositorio de GitHub de YOLOv9.
Link to this sectionUltralytics YOLOv5: El estándar de producción#
Creado por Glenn Jocher y lanzado por Ultralytics el 26 de junio de 2020, YOLOv5 revolucionó la accesibilidad de la visión artificial. Como uno de los primeros modelos de detección de objetos construidos de forma nativa en el marco PyTorch, evitó las complejidades del antiguo marco C Darknet. YOLOv5 aprovecha una arquitectura CSPNet altamente optimizada y un cuello PANet, priorizando un equilibrio perfecto entre velocidad y precisión.
Su mayor logro, sin embargo, es su integración en el ecosistema más amplio de Ultralytics. YOLOv5 está fuertemente optimizado para una eficiencia de entrenamiento rápida y entornos de baja memoria, lo que lo hace increíblemente estable para implementaciones en el borde (edge).
Al evaluar modelos para dispositivos de borde, recuerda que los modelos Ultralytics YOLO normalmente exigen una memoria GPU significativamente menor tanto durante el entrenamiento como en la inferencia en comparación con las arquitecturas pesadas basadas en Transformer.
Link to this sectionAnálisis de rendimiento: Velocidad vs. Precisión#
Al diseñar un canal de visión artificial, los desarrolladores deben sopesar las ventajas y desventajas entre precisión y latencia. La siguiente tabla ilustra las diferencias de rendimiento en el conjunto de datos COCO estándar.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Link to this sectionAnálisis de las compensaciones#
YOLOv9 establece un dominio absoluto en precisión bruta. El YOLOv9e supera los límites del mAP hasta el 55,6%, utilizando sus capas GELAN para preservar detalles de grano fino. Esto lo convierte en una opción excepcional para imágenes médicas o escenarios que exigen una precisión rigurosa en objetos pequeños.
Por el contrario, YOLOv5 destaca por su velocidad de implementación bruta y flexibilidad de hardware. El YOLOv5n (Nano) es famoso por ser ligero, ejecutando inferencias en solo 1,12 ms en una GPU T4 mediante TensorRT. Si vas a implementar en dispositivos IoT restringidos, teléfonos móviles o Raspberry Pi, la huella de memoria de YOLOv5 lo hace extraordinariamente fiable.
Link to this sectionLa ventaja del ecosistema Ultralytics#
Una consideración importante al seleccionar un modelo es el ecosistema de software circundante. Si bien YOLOv9 proporciona puntos de referencia de investigación de primer nivel, utilizar ambos modelos a través de la moderna API de Python de Ultralytics cierra la brecha, ofreciendo a los desarrolladores una experiencia unificada y simplificada.
Link to this sectionFacilidad de uso y exportación#
Ultralytics abstrae obstáculos de ingeniería complejos. Funciones como el aumento de datos automático y el ajuste de hiperparámetros se manejan desde el primer momento. Llevar los modelos a producción es igual de trivial, con comandos de exportación integrados para convertir modelos a formatos ONNX, OpenVINO o TFLite.
Link to this sectionVersatilidad de tareas#
Si bien ambos modelos destacan en detección de objetos, los modelos modernos de Ultralytics están diseñados para abordar una variedad de desafíos de visión artificial. El marco más amplio proporciona soporte nativo para clasificación de imágenes, segmentación de instancias, estimación de poses y cajas delimitadoras orientadas (OBB), permitiendo a los desarrolladores resolver múltiples problemas de visión sin cambiar de base de código.
Link to this sectionCasos de uso y recomendaciones#
Elegir entre YOLOv9 y YOLOv5 depende de los requisitos específicos de tu proyecto, las restricciones de implementación y las preferencias del ecosistema.
Link to this sectionCuándo elegir YOLOv9#
YOLOv9 es una opción sólida para:
- Investigación del cuello de botella de información: proyectos académicos que estudian arquitecturas de información de gradiente programable (PGI) y redes de agregación de capas eficientes generalizadas (GELAN).
- Estudios de optimización del flujo de gradiente: investigación enfocada en comprender y mitigar la pérdida de información en capas de red profundas durante el entrenamiento.
- Evaluación comparativa de detección de alta precisión: escenarios donde el sólido rendimiento de YOLOv9 en el benchmark COCO es necesario como punto de referencia para comparaciones arquitectónicas.
Link to this sectionCuándo elegir YOLOv5#
YOLOv5 se recomienda para:
- Sistemas de producción probados: Despliegues existentes donde se valora la larga trayectoria de estabilidad, la extensa documentación y el enorme soporte de la comunidad de YOLOv5.
- Entrenamiento con recursos limitados: Entornos con recursos de GPU limitados donde la eficiente canalización de entrenamiento de YOLOv5 y sus menores requisitos de memoria son ventajosos.
- Amplio soporte de formatos de exportación: Proyectos que requieren despliegue en muchos formatos, incluidos ONNX, TensorRT, CoreML y TFLite.
Link to this sectionCuándo elegir Ultralytics (YOLO26)#
Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:
- Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
- Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
- Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.
Link to this sectionEjemplo de implementación#
La belleza del ecosistema Ultralytics es que puedes cambiar entre un modelo YOLOv5 y un modelo YOLOv9 simplemente cambiando la cadena de pesos.
from ultralytics import YOLO
# Load a pretrained YOLOv9 model (swap to "yolov5s.pt" to use YOLOv5)
model = YOLO("yolov9c.pt")
# Train the model efficiently on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on new images
predictions = model.predict("https://ultralytics.com/images/zidane.jpg")
# Export to ONNX for seamless deployment
model.export(format="onnx")Link to this sectionExplorando arquitecturas más nuevas#
Si bien YOLOv5 y YOLOv9 son excelentes modelos con ventajas distintas, el campo continúa avanzando. Los usuarios que exploren nuevos proyectos también pueden querer evaluar las últimas iteraciones de Ultralytics.
- YOLO11: Una evolución potente y refinada del linaje YOLOv8 que ofrece un excelente equilibrio entre velocidad y precisión en todas las tareas de visión.
- YOLO26: Lanzado en 2026, YOLO26 es la recomendación definitiva para canales modernos. Introduce un diseño integral sin NMS, eliminando por completo los cuellos de botella del post-procesamiento. Con eliminación de DFL (Distribution Focal Loss eliminada para una exportación simplificada y una mejor compatibilidad con dispositivos de borde/baja potencia), logra una inferencia de CPU hasta un 43% más rápida. La estabilidad del entrenamiento está sobrealimentada mediante el nuevo optimizador MuSGD, y ProgLoss + STAL ofrece funciones de pérdida mejoradas con mejoras notables en el reconocimiento de objetos pequeños, crítico para IoT, robótica e imágenes aéreas, lo que la convierte en la arquitectura más robusta tanto para implementaciones en el borde como en la nube.
Para los equipos que gestionan grandes conjuntos de datos y canales de implementación complejos, utilizar la Plataforma Ultralytics ofrece una solución sin código para entrenar, rastrear e implementar estos modelos de vanguardia sin esfuerzo.