Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv5 vs. YOLOv9: Una comparación técnica detallada#

El panorama de la visión artificial y la detección de objetos en tiempo real ha experimentado avances notables en los últimos años. Navegar entre la elección de modelos establecidos y probados en batalla frente a arquitecturas de investigación más recientes es un reto común para los ingenieros de aprendizaje automático. Esta guía ofrece una comparación técnica exhaustiva entre dos modelos de gran influencia en la familia YOLO: YOLOv5 y YOLOv9.

Tanto si estás realizando implementaciones en dispositivos perimetrales limitados, investigando la extracción de características de alta fidelidad o construyendo complejos conductos de detección de objetos, es crucial comprender los matices arquitectónicos, las métricas de rendimiento y las diferencias de ecosistema de estos modelos.

Link to this sectionResumen de modelos#

Antes de profundizar en las comparaciones arquitectónicas, resulta útil comprender los orígenes y los objetivos principales de cada modelo.

Link to this sectionUltralytics YOLOv5#

Desarrollado por Glenn Jocher y lanzado por Ultralytics el 26 de junio de 2020, YOLOv5 marcó un cambio de paradigma en la forma en que los desarrolladores interactuaban con los modelos de visión. Al adoptar completamente el marco PyTorch, YOLOv5 cambió los complejos pasos de compilación de los modelos anteriores basados en Darknet por una experiencia de usuario intuitiva centrada en Python.

YOLOv5 es reconocido por su Facilidad de uso y rendimiento estable en diversos entornos de hardware. Admite no solo la detección, sino también la clasificación de imágenes y la segmentación de instancias.

Más información sobre YOLOv5

Link to this sectionYOLOv9#

Presentado por Chien-Yao Wang y Hong-Yuan Mark Liao del Instituto de Ciencias de la Información de la Academia Sinica, Taiwán, YOLOv9 se centra intensamente en la teoría arquitectónica para mitigar los problemas de cuello de botella de información en las redes neuronales profundas.

El núcleo de YOLOv9 se basa en dos innovaciones teóricas principales: Información de Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN). Estos conceptos ayudan al modelo a retener características espaciales críticas a través de capas profundas de la red.

Aprende más sobre YOLOv9

Prepara tus implementaciones para el futuro

Aunque YOLOv5 y YOLOv9 son potentes, el recientemente lanzado YOLO26 representa el equilibrio definitivo entre velocidad y precisión. Con un diseño de extremo a extremo sin NMS y una inferencia de CPU hasta un 43% más rápida, YOLO26 es altamente recomendado para la computación perimetral moderna y las implementaciones en producción.

Link to this sectionDiferencias arquitectónicas y técnicas#

Entender qué impulsa a estos modelos de visión es vital para optimizar las estrategias de implementación de modelos.

Link to this sectionExtracción de características y retención de información#

YOLOv5 utiliza una arquitectura de red CSPNet (Cross Stage Partial Network), que reduce eficazmente la sobrecarga computacional mientras mantiene un flujo de gradiente preciso durante la retropropagación. Este diseño está altamente optimizado para operaciones de GPU tradicionales y asegura menores requisitos de memoria durante el entrenamiento en comparación con las alternativas Transformer más pesadas.

YOLOv9 introduce GELAN, una arquitectura genérica que extiende los principios de CSPNet. Junto con PGI (una rama reversible auxiliar), YOLOv9 asegura que las capas profundas no pierdan los datos semánticos necesarios para funciones objetivas precisas. Esto permite a YOLOv9 alcanzar una alta precisión, particularmente en objetos más pequeños, aunque la compleja ramificación auxiliar puede a veces complicar los conductos de exportación a hardware perimetral profundamente limitado.

Link to this sectionRequisitos de memoria y eficiencia de entrenamiento#

When it comes to training efficiency, YOLOv5 remains incredibly robust. The well-maintained Ultralytics ecosystem ensures that YOLOv5 models consume significantly less CUDA memory, allowing researchers to maximize batch sizes on consumer-grade GPUs. While YOLOv9 achieves excellent parameter efficiency (high accuracy relative to its size), its training process can be more resource-intensive if not utilizing optimized frameworks. Fortunately, integrating YOLOv9 into the Ultralytics API brings it closer to parity with YOLOv5's streamlined resource management.

Link to this sectionRendimiento y métricas#

Para evaluar objetivamente estas arquitecturas, comparamos su rendimiento en conjuntos de datos estándar como COCO. A continuación, se presenta un desglose detallado de métricas como mAP (Precisión Media), velocidad de inferencia y recuento de parámetros.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Como muestra la tabla, YOLOv9 logra una mayor precisión bruta en niveles equivalentes, reflejando su arquitectura más reciente. Sin embargo, YOLOv5n mantiene una latencia de TensorRT increíblemente baja de 1.12ms, lo que destaca su fortaleza duradera para aplicaciones de alta velocidad y computación perimetral localizada.

Link to this sectionMetodologías de entrenamiento y facilidad de uso#

La verdadera ventaja de aprovechar la visión artificial hoy en día radica en la accesibilidad de la cadena de herramientas.

Link to this sectionLa ventaja de Ultralytics#

Aunque los repositorios de investigación originales para modelos como YOLOv9 son fundamentales, a menudo vienen con matrices de dependencias y scripts de código repetitivo complejos. La API de Python de Ultralytics abstrae completamente esta complejidad. Con el ecosistema Ultralytics, puedes entrenar, evaluar y exportar tanto YOLOv5 como YOLOv9 con una sintaxis idéntica y unificada.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model for fast deployment
model_v5 = YOLO("yolov5s.pt")

# Or leverage a YOLOv9 model for high-fidelity accuracy
model_v9 = YOLO("yolov9c.pt")

# Train seamlessly on custom data with automatic MLflow logging
results = model_v9.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export the trained model to ONNX
model_v9.export(format="onnx")

Este enfoque de API única proporciona una inmensa Versatilidad, admitiendo no solo la detección, sino también la estimación de poses y cajas delimitadoras orientadas (OBB) dependiendo del modelo elegido. Además, las robustas integraciones con herramientas como Comet ML y Weights & Biases están integradas directamente en el ciclo de entrenamiento.

Link to this sectionCasos de uso ideales y aplicaciones en el mundo real#

La elección entre estas arquitecturas depende en gran medida de las limitaciones de tu hardware y de la precisión requerida por tu dominio de aplicación.

Link to this sectionCuándo elegir YOLOv5#

YOLOv5 es un veterano probado en batalla que destaca en implementaciones que priorizan la estabilidad, la baja huella de memoria y una compatibilidad de exportación extrema.

  • Implementaciones móviles: Exportar YOLOv5 a TFLite o CoreML para la inferencia en el dispositivo en teléfonos inteligentes más antiguos es increíblemente fluido.
  • Hardware perimetral heredado: Para dispositivos como Raspberry Pi o las primeras generaciones de NVIDIA Jetson Nanos, las convoluciones directas de YOLOv5 aseguran velocidades de fotogramas consistentes para aplicaciones como la gestión de aparcamientos inteligentes.
  • Prototipado rápido: La amplia disponibilidad de tutoriales comunitarios, pesos preentrenados personalizados y la compatibilidad con conjuntos de datos masivos lo convierten en la forma más rápida de validar una prueba de concepto.

Link to this sectionCuándo elegir YOLOv9#

YOLOv9 es ideal para escenarios donde capturar detalles intrincados y minimizar los falsos negativos es absolutamente crítico, incluso si requiere un poco más de sobrecarga de computación.

  • Aerial and Satellite Imagery: The PGI framework is highly adept at maintaining the fidelity of small objects, making YOLOv9 excellent for drone-based agricultural monitoring.
  • Diagnóstico por imagen médica: Al detectar anomalías o lesiones diminutas en escaneos de alta resolución, el flujo de gradiente preciso de GELAN proporciona una ventaja necesaria en la recuperación.
  • Análisis minorista de gama alta: El seguimiento de productos superpuestos en estanterías densas se beneficia significativamente de las capacidades superiores de retención de características de YOLOv9.

Link to this sectionExpandiendo tus horizontes#

Aunque comparar YOLOv5 y YOLOv9 ofrece una visión clara de cómo han evolucionado las arquitecturas de 2020 a 2024, el campo de la IA se mueve más rápido que nunca. Para los desarrolladores que buscan la vanguardia absoluta del rendimiento, se recomienda explorar los últimos modelos YOLO26. Al reemplazar la supresión no máxima tradicional con un diseño nativo sin NMS de extremo a extremo y utilizar el avanzado optimizador MuSGD, YOLO26 salva la brecha entre la precisión a nivel de investigación y la velocidad a nivel de producción. Con la eliminación de DFL (se elimina la pérdida focal de distribución para una exportación simplificada y una mejor compatibilidad con dispositivos perimetrales/de bajo consumo), YOLO26 logra una inferencia de CPU hasta un 43% más rápida, lo que lo hace ideal para la computación perimetral. Además, ProgLoss + STAL proporciona funciones de pérdida mejoradas con notables mejoras en el reconocimiento de objetos pequeños, críticas para IoT, robótica e imágenes aéreas.

Es posible que también te interese comparar estas arquitecturas con otros modelos de vanguardia como RT-DETR o el altamente capaz YOLO11. Utilizar el marco unificado de Ultralytics asegura que, independientemente del modelo que elijas, tu proceso de desarrollo permanezca limpio, eficiente y listo para escalar.

Colaboradores

Comentarios