Link to this sectionYOLOv5 frente a YOLOv9#
El panorama de la visión artificial y la detección de objetos en tiempo real ha experimentado avances notables en los últimos años. Navegar entre la elección de modelos establecidos y probados en batalla frente a arquitecturas de investigación más recientes es un reto común para los ingenieros de aprendizaje automático. Esta guía ofrece una comparación técnica exhaustiva entre dos modelos de gran influencia en la familia YOLO: YOLOv5 y YOLOv9.
Tanto si estás realizando implementaciones en dispositivos perimetrales limitados, investigando la extracción de características de alta fidelidad o construyendo complejos conductos de detección de objetos, es crucial comprender los matices arquitectónicos, las métricas de rendimiento y las diferencias de ecosistema de estos modelos.
Link to this sectionResumen de modelos#
Antes de profundizar en las comparaciones arquitectónicas, resulta útil comprender los orígenes y los objetivos principales de cada modelo.
Link to this sectionUltralytics YOLOv5#
Desarrollado por Glenn Jocher y lanzado por Ultralytics el 26 de junio de 2020, YOLOv5 marcó un cambio de paradigma en la forma en que los desarrolladores interactuaban con los modelos de visión. Al adoptar completamente el marco PyTorch, YOLOv5 cambió los complejos pasos de compilación de los modelos anteriores basados en Darknet por una experiencia de usuario intuitiva centrada en Python.
- Autor: Glenn Jocher
- Organización: Ultralytics
- Fecha: 2020-06-26
- GitHub: Repositorio de YOLOv5
- Documentación: Documentación de YOLOv5
YOLOv5 es reconocido por su Facilidad de uso y rendimiento estable en diversos entornos de hardware. Admite no solo la detección, sino también la clasificación de imágenes y la segmentación de instancias.
Link to this sectionYOLOv9#
Presentado por Chien-Yao Wang y Hong-Yuan Mark Liao del Instituto de Ciencias de la Información de la Academia Sinica, Taiwán, YOLOv9 se centra intensamente en la teoría arquitectónica para mitigar los problemas de cuello de botella de información en las redes neuronales profundas.
- Autores: Chien-Yao Wang y Hong-Yuan Mark Liao
- Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
- Fecha: 2024-02-21
- Arxiv: 2402.13616
- GitHub: Repositorio de YOLOv9
- Documentación: Documentación de YOLOv9
El núcleo de YOLOv9 se basa en dos innovaciones teóricas principales: Información de Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN). Estos conceptos ayudan al modelo a retener características espaciales críticas a través de capas profundas de la red.
Aunque YOLOv5 y YOLOv9 son potentes, el recientemente lanzado YOLO26 representa el equilibrio definitivo entre velocidad y precisión. Con un diseño de extremo a extremo sin NMS y una inferencia de CPU hasta un 43% más rápida, YOLO26 es altamente recomendado para la computación perimetral moderna y las implementaciones en producción.
Link to this sectionDiferencias arquitectónicas y técnicas#
Entender qué impulsa a estos modelos de visión es vital para optimizar las estrategias de implementación de modelos.
Link to this sectionExtracción de características y retención de información#
YOLOv5 utiliza una arquitectura de red CSPNet (Cross Stage Partial Network), que reduce eficazmente la sobrecarga computacional mientras mantiene un flujo de gradiente preciso durante la retropropagación. Este diseño está altamente optimizado para operaciones de GPU tradicionales y asegura menores requisitos de memoria durante el entrenamiento en comparación con las alternativas Transformer más pesadas.
YOLOv9 introduce GELAN, una arquitectura genérica que extiende los principios de CSPNet. Junto con PGI (una rama reversible auxiliar), YOLOv9 asegura que las capas profundas no pierdan los datos semánticos necesarios para funciones objetivas precisas. Esto permite a YOLOv9 alcanzar una alta precisión, particularmente en objetos más pequeños, aunque la compleja ramificación auxiliar puede a veces complicar los conductos de exportación a hardware perimetral profundamente limitado.
Link to this sectionRequisitos de memoria y eficiencia de entrenamiento#
En cuanto a la eficiencia de entrenamiento, YOLOv5 sigue siendo increíblemente robusto. El bien mantenido ecosistema de Ultralytics garantiza que los modelos YOLOv5 consuman mucha menos memoria CUDA, lo que permite a los investigadores maximizar los tamaños de lote en GPU de consumo. Si bien YOLOv9 logra una excelente eficiencia de parámetros (alta precisión en relación con su tamaño), su proceso de entrenamiento puede requerir más recursos si no se utilizan marcos optimizados. Afortunadamente, integrar YOLOv9 en la API de Ultralytics lo acerca a la paridad con la gestión optimizada de recursos de YOLOv5.
Link to this sectionRendimiento y métricas#
Para evaluar objetivamente estas arquitecturas, comparamos su rendimiento en conjuntos de datos estándar como COCO. A continuación, se presenta un desglose detallado de métricas como mAP (Precisión Media), velocidad de inferencia y recuento de parámetros.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Como muestra la tabla, YOLOv9 logra una mayor precisión bruta en niveles equivalentes, reflejando su arquitectura más reciente. Sin embargo, YOLOv5n mantiene una latencia de TensorRT increíblemente baja de 1.12ms, lo que destaca su fortaleza duradera para aplicaciones de alta velocidad y computación perimetral localizada.
Link to this sectionMetodologías de entrenamiento y facilidad de uso#
La verdadera ventaja de aprovechar la visión artificial hoy en día radica en la accesibilidad de la cadena de herramientas.
Link to this sectionLa ventaja de Ultralytics#
Aunque los repositorios de investigación originales para modelos como YOLOv9 son fundamentales, a menudo vienen con matrices de dependencias y scripts de código repetitivo complejos. La API de Python de Ultralytics abstrae completamente esta complejidad. Con el ecosistema Ultralytics, puedes entrenar, evaluar y exportar tanto YOLOv5 como YOLOv9 con una sintaxis idéntica y unificada.
from ultralytics import YOLO
# Load a pre-trained YOLOv5 model for fast deployment
model_v5 = YOLO("yolov5s.pt")
# Or leverage a YOLOv9 model for high-fidelity accuracy
model_v9 = YOLO("yolov9c.pt")
# Train seamlessly on custom data with automatic MLflow logging
results = model_v9.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export the trained model to ONNX
model_v9.export(format="onnx")Este enfoque de API única proporciona una inmensa Versatilidad, admitiendo no solo la detección, sino también la estimación de poses y cajas delimitadoras orientadas (OBB) dependiendo del modelo elegido. Además, las robustas integraciones con herramientas como Comet ML y Weights & Biases están integradas directamente en el ciclo de entrenamiento.
Link to this sectionCasos de uso ideales y aplicaciones en el mundo real#
La elección entre estas arquitecturas depende en gran medida de las limitaciones de tu hardware y de la precisión requerida por tu dominio de aplicación.
Link to this sectionCuándo elegir YOLOv5#
YOLOv5 es un veterano probado en batalla que destaca en implementaciones que priorizan la estabilidad, la baja huella de memoria y una compatibilidad de exportación extrema.
- Implementaciones móviles: Exportar YOLOv5 a TFLite o CoreML para la inferencia en el dispositivo en teléfonos inteligentes más antiguos es increíblemente fluido.
- Hardware perimetral heredado: Para dispositivos como Raspberry Pi o las primeras generaciones de NVIDIA Jetson Nanos, las convoluciones directas de YOLOv5 aseguran velocidades de fotogramas consistentes para aplicaciones como la gestión de aparcamientos inteligentes.
- Prototipado rápido: La amplia disponibilidad de tutoriales comunitarios, pesos preentrenados personalizados y la compatibilidad con conjuntos de datos masivos lo convierten en la forma más rápida de validar una prueba de concepto.
Link to this sectionCuándo elegir YOLOv9#
YOLOv9 es ideal para escenarios donde capturar detalles intrincados y minimizar los falsos negativos es absolutamente crítico, incluso si requiere un poco más de sobrecarga de computación.
- Imágenes aéreas y por satélite: El marco PGI es altamente experto en mantener la fidelidad de los objetos pequeños, lo que hace que YOLOv9 sea excelente para la monitorización agrícola basada en drones.
- Diagnóstico por imagen médica: Al detectar anomalías o lesiones diminutas en escaneos de alta resolución, el flujo de gradiente preciso de GELAN proporciona una ventaja necesaria en la recuperación.
- Análisis minorista de gama alta: El seguimiento de productos superpuestos en estanterías densas se beneficia significativamente de las capacidades superiores de retención de características de YOLOv9.
Link to this sectionExpandiendo tus horizontes#
Aunque comparar YOLOv5 y YOLOv9 ofrece una visión clara de cómo han evolucionado las arquitecturas de 2020 a 2024, el campo de la IA se mueve más rápido que nunca. Para los desarrolladores que buscan la vanguardia absoluta del rendimiento, se recomienda explorar los últimos modelos YOLO26. Al reemplazar la supresión no máxima tradicional con un diseño nativo sin NMS de extremo a extremo y utilizar el avanzado optimizador MuSGD, YOLO26 salva la brecha entre la precisión a nivel de investigación y la velocidad a nivel de producción. Con la eliminación de DFL (se elimina la pérdida focal de distribución para una exportación simplificada y una mejor compatibilidad con dispositivos perimetrales/de bajo consumo), YOLO26 logra una inferencia de CPU hasta un 43% más rápida, lo que lo hace ideal para la computación perimetral. Además, ProgLoss + STAL proporciona funciones de pérdida mejoradas con notables mejoras en el reconocimiento de objetos pequeños, críticas para IoT, robótica e imágenes aéreas.
Es posible que también te interese comparar estas arquitecturas con otros modelos de vanguardia como RT-DETR o el altamente capaz YOLO11. Utilizar el marco unificado de Ultralytics asegura que, independientemente del modelo que elijas, tu proceso de desarrollo permanezca limpio, eficiente y listo para escalar.