YOLOv9 vs. YOLO26: Un análisis técnico profundo de la detección de objetos moderna

El panorama de la detección de objetos en tiempo real ha evolucionado considerablemente en los últimos años. A medida que los profesionales del aprendizaje automático buscan implementar modelos en una variedad de hardware, elegir la arquitectura adecuada resulta fundamental. En esta guía técnica exhaustiva, comparamos dos hitos importantes en el campo de la visión artificial: YOLOv9, presentado a principios de 2024 con un enfoque en optimizaciones de rutas de gradiente, y Ultralytics YOLO26, el marco de trabajo de vanguardia más reciente lanzado a principios de 2026 que redefine por completo la inferencia en el borde y la estabilidad del entrenamiento.

Resumen ejecutivo: linaje del modelo y autoría

Comprender los orígenes de estos modelos de aprendizaje profundo aporta un contexto valioso sobre sus decisiones de diseño arquitectónico y sus públicos objetivo.

YOLOv9

Creado por Chien-Yao Wang y Hong-Yuan Mark Liao del Instituto de Ciencias de la Información de Academia Sinica en Taiwán, YOLOv9 se publicó el 21 de febrero de 2024. El modelo se centra intensamente en conceptos teóricos de aprendizaje profundo, abordando específicamente el problema del cuello de botella de información en las redes neuronales convolucionales (CNN) profundas.

Aprende más sobre YOLOv9

Ultralytics YOLO26

Creado por Glenn Jocher y Jing Qiu en Ultralytics, YOLO26 se publicó el 14 de enero de 2026. Basándose en el éxito masivo de predecesores como YOLO11 y YOLOv8, YOLO26 fue diseñado desde cero para priorizar la preparación para producción, la implementación en el borde y la eficiencia nativa de extremo a extremo.

Más información sobre YOLO26

Prueba YOLO26 hoy

¿Listo para actualizar tu canal de visión artificial? Puedes entrenar e implementar fácilmente modelos YOLO26 en la nube sin escribir código usando la plataforma Ultralytics.

Innovaciones arquitectónicas

Ambos modelos introducen cambios innovadores en la forma en que las redes neuronales procesan datos visuales, pero abordan el problema desde diferentes ángulos.

Información de gradiente programable en YOLOv9

La principal contribución de YOLOv9 al campo es la introducción de la Información de gradiente programable (PGI) y la Red de agregación de capas eficiente generalizada (GELAN). A medida que las redes neuronales se vuelven más profundas, a menudo sufren pérdidas de información durante el proceso de propagación hacia adelante. PGI garantiza que los gradientes utilizados para actualizar los pesos durante la retropropagación sigan siendo precisos y fiables, lo que permite que la arquitectura GELAN logre una alta precisión con menos parámetros.

Sin embargo, YOLOv9 depende en gran medida de la supresión no máxima (NMS) tradicional para el posprocesamiento, lo que puede convertirse en un cuello de botella de latencia durante la inferencia en el mundo real.

La arquitectura centrada en el borde de YOLO26

YOLO26 adopta un enfoque radicalmente distinto al optimizar todo el canal, desde el entrenamiento hasta la implementación en tiempo real. Se basa en el diseño de extremo a extremo sin NMS pionero en YOLOv10, eliminando por completo la necesidad de posprocesamiento mediante NMS. Esto resulta en una latencia increíblemente baja, por lo que está fuertemente optimizado para dispositivos de borde como Raspberry Pi o NVIDIA Jetson.

Además, YOLO26 elimina por completo la pérdida focal de distribución (DFL). Este cambio estructural simplifica la exportación de modelos a ONNX y proporciona una compatibilidad significativamente mejor con microcontroladores de baja potencia.

Para la fase de entrenamiento, YOLO26 integra el novedoso optimizador MuSGD, un híbrido de descenso de gradiente estocástico y Muon (inspirado en las metodologías de entrenamiento de LLM de Kimi K2 de Moonshot AI). Esto cierra la brecha entre las innovaciones de entrenamiento de modelos de lenguaje grande (LLM) y la visión artificial, ofreciendo un entrenamiento drásticamente más estable y tiempos de convergencia más rápidos.

Comparación de rendimiento y métricas

Al realizar pruebas de referencia en el conjunto de datos COCO, que es ampliamente utilizado, ambos modelos demuestran capacidades excepcionales, pero el ecosistema Ultralytics destaca en velocidades de inferencia prácticas y eficiencia de parámetros.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Análisis de los resultados

  • Velocidad y eficiencia: dado que YOLO26 utiliza una arquitectura sin NMS y funciones de pérdida simplificadas, cuenta con una inferencia de CPU hasta un 43% más rápida en comparación con arquitecturas heredadas. El modelo YOLO26n funciona a unos fulgurantes 1,7 ms en una GPU NVIDIA T4 usando TensorRT, lo que lo convierte en la elección definitiva para transmisiones de vídeo en tiempo real.
  • Precisión: el modelo YOLO26x logra una mAP de 57,5 sin igual, superando al modelo YOLOv9e más grande mientras mantiene una menor latencia.
  • Requisitos de memoria: los modelos Ultralytics son conocidos por su eficiencia. YOLO26 requiere mucha menos memoria CUDA durante el entrenamiento del modelo y la inferencia en comparación con los complejos modelos de visión basados en transformadores, lo que permite a los desarrolladores utilizar tamaños de lote más grandes en hardware de grado de consumo.

Ecosistema, facilidad de uso y versatilidad

La verdadera fortaleza del ecosistema Ultralytics reside en su experiencia de usuario. Mientras que los investigadores que utilizan la base de código de GitHub de YOLOv9 deben sortear configuraciones de entorno complejas y scripts manuales, YOLO26 está totalmente integrado en la intuitiva API de Python de Ultralytics.

Ejemplo de API optimizada

Entrenar un modelo YOLO26 de última generación requiere solo unas pocas líneas de código Python:

from ultralytics import YOLO

# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export natively to ONNX format in a single command
model.export(format="onnx")

Versatilidad de tareas inigualable

A diferencia de YOLOv9, que está diseñado principalmente para la detección de objetos estándar, YOLO26 admite de forma nativa una amplia gama de tareas de visión artificial desde el primer momento. La arquitectura incluye mejoras específicas para diversas aplicaciones:

  • Segmentación de instancias: incluye una pérdida de segmentación semántica especializada y proto multiescala para máscaras perfectas a nivel de píxel.
  • Estimación de pose: integra la estimación de log-verosimilitud residual (RLE) para rastrear puntos clave esqueléticos con extrema precisión.
  • Cajas delimitadoras orientadas (OBB): incluye una función de pérdida de ángulo especializada diseñada específicamente para resolver problemas de límites en la detección de objetos rotados para imágenes aéreas.
  • Clasificación de imágenes: categorización robusta para imágenes completas basadas en los estándares de ImageNet.
Ecosistema integrado

Todos los modelos YOLO26 se benefician de una integración perfecta con la plataforma Ultralytics, que ofrece etiquetado de conjuntos de datos, aprendizaje activo y canales de implementación instantánea integrados.

Aplicaciones en el mundo real

Elegir entre estos modelos suele depender del entorno en el que se implementarán.

IoT y robótica de borde

Para robótica, drones autónomos y dispositivos IoT domésticos inteligentes, YOLO26 es el campeón indiscutible. La integración de ProgLoss + STAL aporta mejoras notables al reconocimiento de objetos pequeños, algo fundamental para el monitoreo agrícola desde drones a gran altitud. Combinado con su inferencia de CPU un 43% más rápida y su diseño sin NMS, YOLO26 puede ejecutarse con fluidez en hardware sin GPU dedicadas.

Investigación académica y análisis de gradiente

YOLOv9 sigue siendo un modelo muy respetado en los círculos académicos. Los investigadores que estudian los límites teóricos del flujo de gradiente, o aquellos que buscan crear capas personalizadas de PyTorch basadas en el concepto PGI, encontrarán que la base de código de YOLOv9 es una base excelente para la exploración de la teoría del aprendizaje profundo.

Canales de fabricación de alta velocidad

En entornos industriales como la detección de defectos automatizada en cintas transportadoras de alta velocidad, las velocidades vertiginosas de TensorRT de los modelos YOLO26 garantizan que no se pierda ningún fotograma, maximizando el rendimiento de los sistemas de garantía de calidad.

Casos de uso y recomendaciones

Elegir entre YOLOv9 y YOLO26 depende de los requisitos específicos de tu proyecto, las limitaciones de implementación y las preferencias de ecosistema.

Cuándo elegir YOLOv9

YOLOv9 es una opción sólida para:

  • Investigación sobre cuellos de botella de información: Proyectos académicos que estudien las arquitecturas de información de gradiente programable (PGI) y la red de agregación de capas eficiente generalizada (GELAN).
  • Estudios de optimización del flujo de gradiente: Investigación centrada en comprender y mitigar la pérdida de información en las capas de redes profundas durante el entrenamiento.
  • Benchmarking de detección de alta precisión: Escenarios donde el sólido rendimiento de YOLOv9 en el benchmark COCO es necesario como punto de referencia para comparaciones arquitectónicas.

Cuándo elegir YOLO26

YOLO26 se recomienda para:

  • Despliegue en borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de la supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.

Conclusión

Ambos modelos representan saltos increíbles para la comunidad de código abierto. YOLOv9 introdujo mejoras teóricas vitales para el flujo de gradiente que inspirarán arquitecturas durante años. Sin embargo, para los desarrolladores modernos, las empresas emergentes y los equipos empresariales que buscan un equilibrio impecable entre velocidad, precisión y facilidad de implementación, Ultralytics YOLO26 es la recomendación clara.

Al eliminar NMS, introducir el potente optimizador MuSGD y proporcionar un conjunto inigualable de herramientas en tareas de detección, segmentación y pose, YOLO26 garantiza que tus proyectos de visión artificial se basen en el marco de trabajo más fiable y preparado para el futuro disponible en la actualidad.

Comentarios