YOLOv5 vs. YOLOv9: Una Comparación Técnica Detallada
El panorama de la visión por computadora y la detección de objetos en tiempo real ha experimentado avances notables en los últimos años. Navegar la elección entre modelos establecidos y probados en batalla y arquitecturas de investigación más recientes es un desafío común para los ingenieros de aprendizaje automático. Esta guía proporciona una comparación técnica exhaustiva entre dos modelos altamente influyentes de la familia YOLO: YOLOv5 y YOLOv9.
Ya sea que esté desplegando en dispositivos de borde con recursos limitados, investigando la extracción de características de alta fidelidad o construyendo complejas tuberías de detección de objetos, comprender los matices arquitectónicos, las métricas de rendimiento y las diferencias del ecosistema de estos modelos es crucial.
Descripciones generales del modelo
Antes de adentrarnos en las comparaciones arquitectónicas, es útil comprender los orígenes y los objetivos principales de cada modelo.
Ultralytics YOLOv5
Desarrollado por Glenn Jocher y lanzado por Ultralytics el 26 de junio de 2020, YOLOv5 marcó un cambio de paradigma en la forma en que los desarrolladores interactuaban con los modelos de visión. Al adoptar completamente el framework PyTorch, YOLOv5 cambió los complejos pasos de compilación de los modelos anteriores basados en Darknet por una experiencia de usuario intuitiva y centrada en Python.
- Autor: Glenn Jocher
- Organización:Ultralytics
- Fecha: 2020-06-26
- GitHub:Repositorio de YOLOv5
- Documentación:Visión general de la plataforma YOLOv5
YOLOv5 es reconocido por su facilidad de uso y su rendimiento estable en diversos entornos de hardware. Soporta no solo la detección, sino también la clasificación de imágenes y la segmentación de instancias.
YOLOv9
Presentado por Chien-Yao Wang y Hong-Yuan Mark Liao del Instituto de Ciencias de la Información de la Academia Sinica, Taiwán, YOLOv9 se centra en gran medida en la teoría arquitectónica para mitigar los problemas de cuello de botella de información en las redes neuronales profundas.
- Autores: Chien-Yao Wang y Hong-Yuan Mark Liao
- Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
- Fecha: 2024-02-21
- Arxiv:2402.13616
- GitHub:Repositorio de YOLOv9
- Documentación:Documentación de YOLOv9
El núcleo de YOLOv9 se basa en dos innovaciones teóricas principales: la Información de Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN). Estos conceptos ayudan al modelo a retener características espaciales críticas a través de las capas profundas de la red.
Asegure el futuro de sus despliegues.
Aunque YOLOv5 y YOLOv9 son potentes, el recién lanzado YOLO26 representa el equilibrio definitivo entre velocidad y precisión. Con un diseño de extremo a extremo sin NMS y una inferencia en CPU hasta un 43% más rápida, YOLO26 es altamente recomendado para la computación en el borde (edge computing) moderna y despliegues en producción.
Diferencias arquitectónicas y técnicas
Comprender lo que impulsa estos modelos de visión internamente es vital para optimizar las estrategias de despliegue de modelos.
Extracción de Características y Retención de Información
YOLOv5 utiliza un backbone de red parcial de etapa cruzada (CSPNet), que reduce eficazmente la sobrecarga computacional mientras mantiene un flujo de gradiente preciso durante la retropropagación. Este diseño está altamente optimizado para operaciones de GPU tradicionales y garantiza menores requisitos de memoria durante el entrenamiento en comparación con alternativas de transformadores pesados.
YOLOv9 introduce GELAN, una arquitectura genérica que extiende los principios de CSPNet. Junto con PGI —una rama auxiliar reversible—, YOLOv9 asegura que las capas profundas no pierdan los datos semánticos necesarios para funciones objetivo precisas. Esto permite a YOLOv9 lograr una alta precisión, particularmente en objetos más pequeños, aunque la compleja ramificación auxiliar a veces puede complicar las tuberías de exportación a hardware de borde con profundas restricciones.
Requisitos de Memoria y Eficiencia del Entrenamiento
En cuanto a la eficiencia del entrenamiento, YOLOv5 sigue siendo increíblemente robusto. El ecosistema de Ultralytics bien mantenido asegura que los modelos YOLOv5 consuman significativamente menos memoria CUDA, permitiendo a los investigadores maximizar los tamaños de lote en GPUs de consumo. Aunque YOLOv9 logra una excelente eficiencia de parámetros (alta precisión en relación con su tamaño), su proceso de entrenamiento puede ser más intensivo en recursos si no se utilizan frameworks optimizados. Afortunadamente, la integración de YOLOv9 en la API de Ultralytics lo acerca a la paridad con la gestión optimizada de recursos de YOLOv5.
Rendimiento y métricas
Para evaluar objetivamente estas arquitecturas, comparamos su rendimiento en conjuntos de datos estándar como COCO. A continuación se presenta un desglose detallado de métricas como mAP (Precisión Media Promedio), velocidad de inferencia y recuento de parámetros.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Como muestra la tabla, YOLOv9 logra una mayor precisión bruta en niveles equivalentes, lo que refleja su arquitectura más reciente. Sin embargo, YOLOv5n mantiene una latencia de TensorRT increíblemente baja de 1.12ms, destacando su fuerza duradera para aplicaciones de computación en el borde de alta velocidad y localizadas.
Metodologías de Entrenamiento y Facilidad de Uso
La verdadera ventaja de aprovechar la visión por computadora hoy radica en la accesibilidad de la cadena de herramientas.
La ventaja de Ultralytics
Si bien los repositorios de investigación originales para modelos como YOLOv9 son fundamentales, a menudo vienen con matrices de dependencia complejas y scripts repetitivos. La API de Python de Ultralytics abstrae completamente esta complejidad. Con el ecosistema de Ultralytics, puede entrenar, evaluar y exportar tanto YOLOv5 como YOLOv9 con una sintaxis idéntica y unificada.
from ultralytics import YOLO
# Load a pre-trained YOLOv5 model for fast deployment
model_v5 = YOLO("yolov5s.pt")
# Or leverage a YOLOv9 model for high-fidelity accuracy
model_v9 = YOLO("yolov9c.pt")
# Train seamlessly on custom data with automatic MLflow logging
results = model_v9.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export the trained model to ONNX
model_v9.export(format="onnx")
Este enfoque de API única proporciona una inmensa versatilidad, soportando no solo la detect, sino también la estimación de pose y las cajas delimitadoras orientadas (OBB) dependiendo del modelo elegido. Además, las integraciones robustas con herramientas como Comet ML y Weights & Biases están incorporadas directamente en el bucle de entrenamiento.
Casos de Uso y Aplicaciones en el Mundo Real Ideales
La elección entre estas arquitecturas depende en gran medida de las limitaciones de su hardware y de la precisión requerida por el dominio de su aplicación.
Cuándo elegir YOLOv5
YOLOv5 es un veterano probado en batalla que destaca en despliegues que priorizan la estabilidad, el bajo consumo de memoria y una compatibilidad de exportación extrema.
- Despliegues móviles: Exportar YOLOv5 a TFLite o CoreML para inferencia en el dispositivo en smartphones antiguos es increíblemente sencillo.
- Hardware Edge Heredado: Para dispositivos como la Raspberry Pi o las NVIDIA Jetson Nanos de primera generación, las convoluciones directas de YOLOv5 aseguran tasas de fotogramas consistentes para aplicaciones como la gestión inteligente de estacionamientos.
- Prototipado Rápido: La amplia disponibilidad de tutoriales de la comunidad, pesos preentrenados personalizados y la compatibilidad con conjuntos de datos masivos lo convierten en la forma más rápida de validar una prueba de concepto.
Cuándo elegir YOLOv9
YOLOv9 es ideal para escenarios donde capturar detalles intrincados y minimizar los falsos negativos es absolutamente crítico, incluso si requiere una ligera sobrecarga computacional adicional.
- Imágenes Aéreas y Satelitales: El framework PGI es muy hábil para mantener la fidelidad de los objetos pequeños, haciendo que YOLOv9 sea excelente para la monitorización agrícola basada en drones.
- Diagnóstico por imágenes médicas: Al detectar anomalías o lesiones minúsculas en escaneos de alta resolución, el flujo de gradiente preciso de GELAN proporciona una ventaja necesaria en la recuperación.
- Análisis minorista de alta gama: El seguimiento de productos superpuestos en estanterías densas se beneficia significativamente de las capacidades superiores de retención de características de YOLOv9.
Ampliando sus Horizontes
Aunque comparar YOLOv5 y YOLOv9 ofrece una visión clara de cómo han evolucionado las arquitecturas de 2020 a 2024, el campo de la IA avanza más rápido que nunca. Para los desarrolladores que buscan la frontera absoluta del rendimiento, se recomienda encarecidamente explorar los últimos modelos YOLO26. Al reemplazar la supresión no máxima tradicional con un diseño NMS-Free de extremo a extremo nativo y utilizar el Optimizador MuSGD avanzado, YOLO26 cierra la brecha entre la precisión a nivel de investigación y la velocidad a nivel de producción. Con la eliminación de DFL (Distribution Focal Loss eliminada para una exportación simplificada y mejor compatibilidad con dispositivos de borde/baja potencia), YOLO26 logra una inferencia de CPU hasta un 43% más rápida, lo que lo hace ideal para la computación de borde. Además, ProgLoss + STAL proporciona funciones de pérdida mejoradas con mejoras notables en el reconocimiento de objetos pequeños, crítico para IoT, robótica e imágenes aéreas.
También podría interesarle comparar estas arquitecturas con otros modelos de vanguardia como RT-DETR o el altamente capaz YOLO11. La utilización del framework unificado de Ultralytics garantiza que, independientemente del modelo que elija, su pipeline de desarrollo se mantenga limpio, eficiente y listo para escalar.