YOLOv5 vs. YOLOv9: Una comparativa técnica en profundidad
El panorama de la visión artificial y la detección de objetos en tiempo real ha experimentado avances notables en los últimos años. Navegar en la elección entre modelos establecidos y probados en batalla frente a arquitecturas de investigación más recientes es un desafío común para los ingenieros de aprendizaje automático. Esta guía ofrece una comparativa técnica exhaustiva entre dos modelos altamente influyentes en la familia YOLO: YOLOv5 y YOLOv9.
Tanto si realizas implementaciones en dispositivos perimetrales (edge) con limitaciones, investigas la extracción de características de alta fidelidad o construyes complejos flujos de trabajo de detección de objetos, entender los matices arquitectónicos, las métricas de rendimiento y las diferencias del ecosistema de estos modelos es crucial.
Resumen de modelos
Antes de profundizar en las comparaciones arquitectónicas, es útil comprender los orígenes y los objetivos principales de cada modelo.
Ultralytics YOLOv5
Desarrollado por Glenn Jocher y lanzado por Ultralytics el 26 de junio de 2020, YOLOv5 marcó un cambio de paradigma en la forma en que los desarrolladores interactuaban con los modelos de visión. Al adoptar completamente el framework PyTorch, YOLOv5 cambió los complejos pasos de compilación de modelos anteriores basados en Darknet por una experiencia de usuario intuitiva y centrada en Python.
- Autor: Glenn Jocher
- Organización: Ultralytics
- Fecha: 2020-06-26
- GitHub: Repositorio de YOLOv5
- Documentación: Descripción general de la plataforma YOLOv5
YOLOv5 es reconocido por su facilidad de uso y rendimiento estable en diversos entornos de hardware. No solo admite la detección, sino también la clasificación de imágenes y la segmentación de instancias.
YOLOv9
Presentado por Chien-Yao Wang y Hong-Yuan Mark Liao del Instituto de Ciencias de la Información de la Academia Sinica, Taiwán, YOLOv9 se centra intensamente en la teoría arquitectónica para mitigar los problemas de cuello de botella de información en las redes neuronales profundas.
- Autores: Chien-Yao Wang y Hong-Yuan Mark Liao
- Organización: Institute of Information Science, Academia Sinica, Taiwán
- Fecha: 21-02-2024
- Arxiv: 2402.13616
- GitHub: Repositorio de YOLOv9
- Documentación: Documentación de YOLOv9
El núcleo de YOLOv9 se basa en dos innovaciones teóricas importantes: la información de gradiente programable (PGI) y la red de agregación de capas eficiente generalizada (GELAN). Estos conceptos ayudan al modelo a conservar características espaciales críticas a través de las capas profundas de la red.
Aunque YOLOv5 y YOLOv9 son potentes, el recientemente lanzado YOLO26 representa el equilibrio definitivo entre velocidad y precisión. Con un diseño end-to-end sin NMS y una inferencia en CPU hasta un 43% más rápida, YOLO26 es altamente recomendado para la computación perimetral moderna y los despliegues en producción.
Diferencias técnicas y arquitectónicas
Entender qué impulsa a estos modelos de visión internamente es vital para optimizar las estrategias de despliegue de modelos.
Extracción de características y retención de información
YOLOv5 utiliza una arquitectura backbone Cross Stage Partial Network (CSPNet), que reduce eficazmente la sobrecarga computacional mientras mantiene un flujo de gradiente preciso durante la retropropagación. Este diseño está altamente optimizado para operaciones de GPU tradicionales y garantiza menores requisitos de memoria durante el entrenamiento en comparación con alternativas pesadas basadas en Transformer.
YOLOv9 introduce GELAN, una arquitectura genérica que extiende los principios de CSPNet. Junto con PGI —una rama auxiliar reversible—, YOLOv9 garantiza que las capas profundas no pierdan los datos semánticos necesarios para funciones objetivas precisas. Esto permite a YOLOv9 alcanzar una alta precisión, especialmente en objetos pequeños, aunque la compleja ramificación auxiliar a veces puede complicar los procesos de exportación a hardware perimetral profundamente limitado.
Requisitos de memoria y eficiencia de entrenamiento
When it comes to training efficiency, YOLOv5 remains incredibly robust. The well-maintained Ultralytics ecosystem ensures that YOLOv5 models consume significantly less CUDA memory, allowing researchers to maximize batch sizes on consumer-grade GPUs. While YOLOv9 achieves excellent parameter efficiency (high accuracy relative to its size), its training process can be more resource-intensive if not utilizing optimized frameworks. Fortunately, integrating YOLOv9 into the Ultralytics API brings it closer to parity with YOLOv5's streamlined resource management.
Rendimiento y métricas
Para evaluar objetivamente estas arquitecturas, comparamos su rendimiento en conjuntos de datos estándar como COCO. A continuación, se muestra un desglose detallado de métricas como mAP (precisión media media), velocidad de inferencia y conteo de parámetros.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Como muestra la tabla, YOLOv9 logra una mayor precisión bruta en niveles equivalentes, lo que refleja su arquitectura más reciente. Sin embargo, YOLOv5n mantiene una latencia de TensorRT increíblemente baja de 1.12ms, lo que destaca su fuerza duradera para aplicaciones de computación perimetral de alta velocidad y localizadas.
Metodologías de entrenamiento y facilidad de uso
La verdadera ventaja de aprovechar la visión artificial hoy en día radica en la accesibilidad de las herramientas.
La ventaja de Ultralytics
Aunque los repositorios de investigación originales para modelos como YOLOv9 son fundamentales, a menudo vienen con complejas matrices de dependencias y scripts repetitivos. La API de Python de Ultralytics abstrae completamente esta complejidad. Con el ecosistema de Ultralytics, puedes entrenar, evaluar y exportar tanto YOLOv5 como YOLOv9 con una sintaxis unificada e idéntica.
from ultralytics import YOLO
# Load a pre-trained YOLOv5 model for fast deployment
model_v5 = YOLO("yolov5s.pt")
# Or leverage a YOLOv9 model for high-fidelity accuracy
model_v9 = YOLO("yolov9c.pt")
# Train seamlessly on custom data with automatic MLflow logging
results = model_v9.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export the trained model to ONNX
model_v9.export(format="onnx")Este enfoque de API única proporciona una inmensa versatilidad, admitiendo no solo la detección, sino también la estimación de poses y cajas delimitadoras orientadas (OBB), dependiendo del modelo elegido. Además, las sólidas integraciones con herramientas como Comet ML y Weights & Biases están integradas directamente en el ciclo de entrenamiento.
Casos de uso ideales y aplicaciones en el mundo real
Elegir entre estas arquitecturas depende en gran medida de las limitaciones de tu hardware y de la precisión requerida por tu dominio de aplicación.
Cuándo elegir YOLOv5
YOLOv5 es un veterano probado en batalla que destaca en despliegues que priorizan la estabilidad, el bajo uso de memoria y una compatibilidad de exportación extrema.
- Despliegues móviles: Exportar YOLOv5 a TFLite o CoreML para inferencia en el dispositivo en smartphones más antiguos es increíblemente sencillo.
- Hardware perimetral heredado: Para dispositivos como Raspberry Pi o las primeras generaciones de NVIDIA Jetson Nano, las convoluciones directas de YOLOv5 garantizan tasas de fotogramas constantes para aplicaciones como la gestión inteligente de aparcamientos.
- Prototipado rápido: La amplia disponibilidad de tutoriales de la comunidad, pesos preentrenados personalizados y la compatibilidad con conjuntos de datos masivos lo convierten en la forma más rápida de validar una prueba de concepto.
Cuándo elegir YOLOv9
YOLOv9 es ideal para escenarios donde capturar detalles intrincados y minimizar los falsos negativos es absolutamente crítico, incluso si requiere una mayor sobrecarga de cómputo.
- Aerial and Satellite Imagery: The PGI framework is highly adept at maintaining the fidelity of small objects, making YOLOv9 excellent for drone-based agricultural monitoring.
- Diagnóstico por imagen médica: Al detectar anomalías o lesiones diminutas en escaneos de alta resolución, el flujo de gradiente preciso de GELAN proporciona una ventaja necesaria en el recall.
- Análisis minorista de gama alta: El seguimiento de productos superpuestos en estanterías densas se beneficia significativamente de las capacidades superiores de retención de características de YOLOv9.
Ampliando tus horizontes
Si bien comparar YOLOv5 y YOLOv9 ofrece una visión clara de cómo han evolucionado las arquitecturas desde 2020 hasta 2024, el campo de la IA se mueve más rápido que nunca. Para los desarrolladores que buscan la frontera absoluta del rendimiento, se recomienda encarecidamente explorar los últimos modelos YOLO26. Al reemplazar la supresión no máxima (NMS) tradicional con un diseño end-to-end sin NMS nativo y utilizar el avanzado optimizador MuSGD, YOLO26 salva la brecha entre la precisión de nivel de investigación y la velocidad de producción. Con la eliminación de DFL (Distribution Focal Loss eliminada para una exportación simplificada y una mejor compatibilidad con dispositivos perimetrales/de bajo consumo), YOLO26 logra una inferencia en CPU hasta un 43% más rápida, lo que lo hace ideal para la computación perimetral. Además, ProgLoss + STAL proporciona funciones de pérdida mejoradas con mejoras notables en el reconocimiento de objetos pequeños, críticas para el IoT, la robótica y la imaginería aérea.
También te puede interesar comparar estas arquitecturas con otros modelos de vanguardia como RT-DETR o el altamente capaz YOLO11. Utilizar el framework unificado de Ultralytics garantiza que, independientemente del modelo que elijas, tu flujo de trabajo de desarrollo siga siendo limpio, eficiente y listo para escalar.