Ir al contenido

YOLOv9 vs YOLO26: Un análisis comparativo de arquitectura y rendimiento

El panorama de la detección de objetos en tiempo real está en constante evolución, con cada nueva iteración aportando mejoras significativas en precisión, velocidad y eficiencia. Este artículo ofrece una comparación técnica en profundidad entre YOLOv9, un potente modelo lanzado a principios de 2024, y YOLO26, el último modelo de vanguardia de Ultralytics diseñado para la próxima generación de aplicaciones de IA en el borde.

Descripción general del modelo

Ambos modelos representan hitos significativos en la visión artificial, aunque abordan el problema de la detección desde filosofías arquitectónicas ligeramente diferentes.

YOLOv9: Información de Gradiente Programable

Lanzado en febrero de 2024 por investigadores de la Academia Sinica, Taiwán, YOLOv9 introdujo conceptos novedosos para abordar la pérdida de información en redes neuronales profundas.

  • Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
  • Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
  • Fecha: 21 de febrero de 2024
  • Innovación clave: Información de Gradiente Programable (PGI) y Red de Agregación de Capas Eficiente Generalizada (GELAN).
  • Enfoque: Mejorar la utilización de parámetros y el flujo de gradiente durante el entrenamiento para maximizar la retención de información en las capas profundas.

Más información sobre YOLOv9

YOLO26: La evolución nativa del borde

Lanzado en enero de 2026 por Ultralytics, YOLO26 representa un cambio de paradigma hacia la eficiencia de extremo a extremo y la implementación optimizada, particularmente para CPU y dispositivos de borde.

  • Autores: Glenn Jocher, Jing Qiu
  • Organización:Ultralytics
  • Fecha: 14 de enero de 2026
  • Innovación clave: Arquitectura sin NMS de extremo a extremo, optimizador MuSGD y eliminación de la Pérdida Focal de Distribución (DFL).
  • Enfoque: Minimizar la latencia de inferencia en hardware sin GPU, simplificar los procesos de exportación y estabilizar las dinámicas de entrenamiento utilizando técnicas inspiradas en los Modelos de Lenguaje Grandes (LLMs).

Más información sobre YOLO26

Diferencias Arquitectónicas

La divergencia principal entre estos dos modelos radica en el diseño de su cabecera y la formulación de la función de pérdida, lo que impacta directamente en su velocidad de implementación y estabilidad de entrenamiento.

Arquitectura de YOLOv9

YOLOv9 utiliza la Red de Agregación de Capas Eficiente Generalizada (GELAN). Esta arquitectura permite la integración flexible de varios bloques computacionales (como CSPNet o ELAN) sin sacrificar velocidad. La introducción de la Información de Gradiente Programable (PGI) proporciona un marco de supervisión auxiliar. PGI asegura que la información crucial de las características no se pierda a medida que se propaga a través de las capas profundas, un problema común en los modelos ligeros. Aunque es altamente efectiva para la precisión, esta estructura se basa en mecanismos tradicionales basados en anclajes y pasos de postprocesamiento como la Supresión No Máxima (NMS).

Arquitectura de YOLO26

YOLO26 adopta un diseño nativo de extremo a extremo sin NMS. Al predecir objetos directamente sin la necesidad de un postprocesamiento complejo, YOLO26 reduce significativamente la latencia, especialmente en dispositivos de borde donde NMS puede ser un cuello de botella computacional.

Los cambios arquitectónicos clave en YOLO26 incluyen:

  • Eliminación de DFL: La Pérdida Focal de Distribución fue eliminada para simplificar el grafo del modelo, haciendo que los formatos de exportación como ONNX y TensorRT sean más limpios y rápidos en chips de baja potencia.
  • ProgLoss + STAL: Nuevas funciones de pérdida mejoran el reconocimiento de objetos pequeños, un requisito crítico para tareas como el análisis de imágenes aéreas y la robótica.
  • Optimizador MuSGD: Un híbrido de SGD y Muon (inspirado en el entrenamiento de LLM), que ofrece una convergencia más rápida y picos de memoria reducidos durante el entrenamiento.

Por qué importa NMS-Free

Los detectores de objetos tradicionales predicen múltiples cajas delimitadoras para el mismo objeto y utilizan la Supresión No Máxima (NMS) para filtrarlas. Este paso suele ser secuencial y lento en las CPU. El diseño de extremo a extremo de YOLO26 elimina por completo este paso, lo que resulta en una inferencia en CPU hasta un 43% más rápida.

Comparación de rendimiento

Al evaluar estos modelos, los investigadores suelen considerar la Precisión Media Promedio (mAP) en el conjunto de datos COCO junto con la velocidad de inferencia.

Métricas de rendimiento

La siguiente tabla destaca las compensaciones de rendimiento. Mientras que YOLOv9 ofrece una gran precisión, YOLO26 logra relaciones velocidad-precisión superiores, particularmente en hardware de CPU.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Análisis

  • Velocidad: YOLO26 demuestra una clara ventaja en la velocidad de inferencia. Por ejemplo, el YOLO26n es significativamente más rápido que sus predecesores, lo que lo hace ideal para el procesamiento de video de alta FPS.
  • Precisión: YOLO26 supera a los modelos YOLOv9 equivalentes en mAP, particularmente en las variantes nano (n) y pequeña (s), que son las más comúnmente utilizadas en producción.
  • Cómputo: YOLO26 requiere consistentemente menos FLOPs (Operaciones de Punto Flotante) para una mayor precisión, lo que indica un diseño arquitectónico más eficiente.

Entrenamiento y usabilidad

Para los desarrolladores, la facilidad de entrenamiento e implementación es tan importante como las métricas brutas.

Ecosistema y soporte

Los modelos de Ultralytics, incluido YOLO26, se benefician de un ecosistema robusto y bien mantenido. El ultralytics paquete Python proporciona una API unificada para entrenamiento, validación, y implementación.

YOLOv9, aunque potente, es principalmente un repositorio de investigación. Integrarlo en pipelines de producción a menudo requiere una configuración más manual en comparación con la experiencia de "pip install y listo" del framework de Ultralytics.

Eficiencia del entrenamiento

El Optimizador MuSGD de YOLO26 ayuda a estabilizar el entrenamiento, reduciendo la necesidad de un ajuste exhaustivo de hiperparámetros. Además, los modelos de Ultralytics son conocidos por su menor consumo de memoria durante el entrenamiento en comparación con las alternativas basadas en transformadores, lo que permite a los usuarios entrenar con tamaños de lote más grandes en GPUs de consumo.

Aquí hay un ejemplo de la facilidad con la que se puede entrenar un modelo YOLO26 utilizando la API de Ultralytics:

from ultralytics import YOLO

# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 example dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Casos de Uso Ideales

La elección entre estos modelos depende de sus restricciones específicas.

Cuándo elegir YOLOv9

  • Investigación y Estudio Académico: Si su trabajo implica el estudio del flujo de gradientes o la reproducción de benchmarks específicos del artículo de YOLOv9.
  • Pipelines Legados Específicos: Si tiene un pipeline existente estrictamente ajustado para la arquitectura GELAN y no puede intercambiar fácilmente las estructuras del modelo.

Cuándo Elegir YOLO26

  • Computación en el Borde: Con una inferencia de CPU hasta un 43% más rápida, YOLO26 es la opción superior para implementaciones en Raspberry Pi, Jetson Nano y dispositivos móviles.
  • Aplicaciones en Tiempo Real: El diseño sin NMS garantiza una latencia consistente, lo cual es crítico para la conducción autónoma y los sistemas de monitoreo de seguridad.
  • Tareas Complejas: YOLO26 ofrece soporte nativo para diversas tareas más allá de la detección, incluyendo Segmentación de Instancias, Estimación de Pose y detección de Bounding Box Orientados (OBB).
  • Producción Empresarial: La estabilidad, el soporte y la facilidad de exportación que ofrece el ecosistema de Ultralytics hacen de YOLO26 una apuesta más segura para productos comerciales.

Más allá de la detección

A diferencia del repositorio estándar de YOLOv9, YOLO26 viene con mejoras específicas para tareas listas para usar. Esto incluye la pérdida de segmentación semántica para una mayor precisión de máscara y la Estimación de Log-Verosimilitud Residual (RLE) para puntos clave de estimación de pose más precisos.

Conclusión

Aunque YOLOv9 introdujo conceptos fascinantes sobre gradientes programables y retención de información, YOLO26 representa la evolución práctica de estas ideas en una potencia lista para producción. Su arquitectura de extremo a extremo sin NMS, combinada con el ecosistema de software integral de Ultralytics, la convierte en la elección recomendada para los desarrolladores que buscan equilibrar velocidad, precisión y facilidad de uso en 2026.

Para aquellos interesados en explorar otras arquitecturas modernas, la documentación también cubre YOLO11, que sigue siendo un modelo altamente capaz para tareas de visión por computadora de propósito general.


Comentarios