Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 vs. YOLO26: Un análisis técnico profundo de la detección de objetos moderna#

El panorama de la detección de objetos en tiempo real ha evolucionado considerablemente en los últimos años. A medida que los profesionales del aprendizaje automático buscan implementar modelos en una variedad de hardware, elegir la arquitectura adecuada resulta fundamental. En esta guía técnica exhaustiva, comparamos dos hitos importantes en el campo de la visión artificial: YOLOv9, presentado a principios de 2024 con un enfoque en optimizaciones de rutas de gradiente, y Ultralytics YOLO26, el marco de trabajo de vanguardia más reciente lanzado a principios de 2026 que redefine por completo la inferencia en el borde y la estabilidad del entrenamiento.

Link to this sectionResumen ejecutivo: linaje del modelo y autoría#

Comprender los orígenes de estos modelos de aprendizaje profundo aporta un contexto valioso sobre sus decisiones de diseño arquitectónico y sus públicos objetivo.

Link to this sectionYOLOv9#

Creado por Chien-Yao Wang y Hong-Yuan Mark Liao del Instituto de Ciencias de la Información de Academia Sinica en Taiwán, YOLOv9 se publicó el 21 de febrero de 2024. El modelo se centra intensamente en conceptos teóricos de aprendizaje profundo, abordando específicamente el problema del cuello de botella de información en las redes neuronales convolucionales (CNN) profundas.

Aprende más sobre YOLOv9

Link to this sectionUltralytics YOLO26#

Creado por Glenn Jocher y Jing Qiu en Ultralytics, YOLO26 se publicó el 14 de enero de 2026. Basándose en el éxito masivo de predecesores como YOLO11 y YOLOv8, YOLO26 fue diseñado desde cero para priorizar la preparación para producción, la implementación en el borde y la eficiencia nativa de extremo a extremo.

Más información sobre YOLO26

Prueba YOLO26 hoy

¿Listo para actualizar tu canal de visión artificial? Puedes entrenar e implementar fácilmente modelos YOLO26 en la nube sin escribir código usando la plataforma Ultralytics.

Link to this sectionInnovaciones arquitectónicas#

Ambos modelos introducen cambios innovadores en la forma en que las redes neuronales procesan datos visuales, pero abordan el problema desde diferentes ángulos.

Link to this sectionInformación de gradiente programable en YOLOv9#

La principal contribución de YOLOv9 al campo es la introducción de la Información de gradiente programable (PGI) y la Red de agregación de capas eficiente generalizada (GELAN). A medida que las redes neuronales se vuelven más profundas, a menudo sufren pérdidas de información durante el proceso de propagación hacia adelante. PGI garantiza que los gradientes utilizados para actualizar los pesos durante la retropropagación sigan siendo precisos y fiables, lo que permite que la arquitectura GELAN logre una alta precisión con menos parámetros.

Sin embargo, YOLOv9 depende en gran medida de la supresión no máxima (NMS) tradicional para el posprocesamiento, lo que puede convertirse en un cuello de botella de latencia durante la inferencia en el mundo real.

Link to this sectionLa arquitectura centrada en el borde de YOLO26#

YOLO26 adopta un enfoque radicalmente distinto al optimizar todo el canal, desde el entrenamiento hasta la implementación en tiempo real. Se basa en el diseño de extremo a extremo sin NMS pionero en YOLOv10, eliminando por completo la necesidad de posprocesamiento mediante NMS. Esto resulta en una latencia increíblemente baja, por lo que está fuertemente optimizado para dispositivos de borde como Raspberry Pi o NVIDIA Jetson.

Además, YOLO26 elimina por completo la pérdida focal de distribución (DFL). Este cambio estructural simplifica la exportación de modelos a ONNX y proporciona una compatibilidad significativamente mejor con microcontroladores de baja potencia.

Para la fase de entrenamiento, YOLO26 integra el novedoso optimizador MuSGD, un híbrido de descenso de gradiente estocástico y Muon (inspirado en las metodologías de entrenamiento de LLM de Kimi K2 de Moonshot AI). Esto cierra la brecha entre las innovaciones de entrenamiento de modelos de lenguaje grande (LLM) y la visión artificial, ofreciendo un entrenamiento drásticamente más estable y tiempos de convergencia más rápidos.

Link to this sectionComparación de rendimiento y métricas#

Al realizar pruebas de referencia en el conjunto de datos COCO, que es ampliamente utilizado, ambos modelos demuestran capacidades excepcionales, pero el ecosistema Ultralytics destaca en velocidades de inferencia prácticas y eficiencia de parámetros.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Link to this sectionAnálisis de los resultados#

  • Velocidad y eficiencia: dado que YOLO26 utiliza una arquitectura sin NMS y funciones de pérdida simplificadas, cuenta con una inferencia de CPU hasta un 43% más rápida en comparación con arquitecturas heredadas. El modelo YOLO26n funciona a unos fulgurantes 1,7 ms en una GPU NVIDIA T4 usando TensorRT, lo que lo convierte en la elección definitiva para transmisiones de vídeo en tiempo real.
  • Precisión: el modelo YOLO26x logra una mAP de 57,5 sin igual, superando al modelo YOLOv9e más grande mientras mantiene una menor latencia.
  • Requisitos de memoria: los modelos Ultralytics son conocidos por su eficiencia. YOLO26 requiere mucha menos memoria CUDA durante el entrenamiento del modelo y la inferencia en comparación con los complejos modelos de visión basados en transformadores, lo que permite a los desarrolladores utilizar tamaños de lote más grandes en hardware de grado de consumo.

Link to this sectionEcosistema, facilidad de uso y versatilidad#

La verdadera fortaleza del ecosistema Ultralytics reside en su experiencia de usuario. Mientras que los investigadores que utilizan la base de código de GitHub de YOLOv9 deben sortear configuraciones de entorno complejas y scripts manuales, YOLO26 está totalmente integrado en la intuitiva API de Python de Ultralytics.

Link to this sectionEjemplo de API optimizada#

Entrenar un modelo YOLO26 de última generación requiere solo unas pocas líneas de código Python:

from ultralytics import YOLO

# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export natively to ONNX format in a single command
model.export(format="onnx")

Link to this sectionVersatilidad de tareas inigualable#

A diferencia de YOLOv9, que está diseñado principalmente para la detección de objetos estándar, YOLO26 admite de forma nativa una amplia gama de tareas de visión artificial desde el primer momento. La arquitectura incluye mejoras específicas para diversas aplicaciones:

  • Segmentación de instancias: incluye una pérdida de segmentación semántica especializada y proto multiescala para máscaras perfectas a nivel de píxel.
  • Estimación de pose: integra la estimación de log-verosimilitud residual (RLE) para rastrear puntos clave esqueléticos con extrema precisión.
  • Cajas delimitadoras orientadas (OBB): incluye una función de pérdida de ángulo especializada diseñada específicamente para resolver problemas de límites en la detección de objetos rotados para imágenes aéreas.
  • Clasificación de imágenes: categorización robusta para imágenes completas basadas en los estándares de ImageNet.
Ecosistema integrado

Todos los modelos YOLO26 se benefician de una integración perfecta con la plataforma Ultralytics, que ofrece etiquetado de conjuntos de datos, aprendizaje activo y canales de implementación instantánea integrados.

Link to this sectionAplicaciones en el mundo real#

Elegir entre estos modelos suele depender del entorno en el que se implementarán.

Link to this sectionIoT y robótica de borde#

Para robótica, drones autónomos y dispositivos IoT domésticos inteligentes, YOLO26 es el campeón indiscutible. La integración de ProgLoss + STAL aporta mejoras notables al reconocimiento de objetos pequeños, algo fundamental para el monitoreo agrícola desde drones a gran altitud. Combinado con su inferencia de CPU un 43% más rápida y su diseño sin NMS, YOLO26 puede ejecutarse con fluidez en hardware sin GPU dedicadas.

Link to this sectionInvestigación académica y análisis de gradiente#

YOLOv9 sigue siendo un modelo muy respetado en los círculos académicos. Los investigadores que estudian los límites teóricos del flujo de gradiente, o aquellos que buscan crear capas personalizadas de PyTorch basadas en el concepto PGI, encontrarán que la base de código de YOLOv9 es una base excelente para la exploración de la teoría del aprendizaje profundo.

Link to this sectionCanales de fabricación de alta velocidad#

En entornos industriales como la detección de defectos automatizada en cintas transportadoras de alta velocidad, las velocidades vertiginosas de TensorRT de los modelos YOLO26 garantizan que no se pierda ningún fotograma, maximizando el rendimiento de los sistemas de garantía de calidad.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre YOLOv9 y YOLO26 depende de los requisitos específicos de tu proyecto, las limitaciones de implementación y las preferencias de ecosistema.

Link to this sectionCuándo elegir YOLOv9#

YOLOv9 es una opción sólida para:

  • Investigación sobre cuellos de botella de información: Proyectos académicos que estudien las arquitecturas de información de gradiente programable (PGI) y la red de agregación de capas eficiente generalizada (GELAN).
  • Estudios de optimización del flujo de gradiente: Investigación centrada en comprender y mitigar la pérdida de información en las capas de redes profundas durante el entrenamiento.
  • Benchmarking de detección de alta precisión: Escenarios donde el sólido rendimiento de YOLOv9 en el benchmark COCO es necesario como punto de referencia para comparaciones arquitectónicas.

Link to this sectionCuándo elegir YOLO26#

YOLO26 se recomienda para:

  • Despliegue en borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de la supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.

Link to this sectionConclusión#

Ambos modelos representan saltos increíbles para la comunidad de código abierto. YOLOv9 introdujo mejoras teóricas vitales para el flujo de gradiente que inspirarán arquitecturas durante años. Sin embargo, para los desarrolladores modernos, las empresas emergentes y los equipos empresariales que buscan un equilibrio impecable entre velocidad, precisión y facilidad de implementación, Ultralytics YOLO26 es la recomendación clara.

Al eliminar NMS, introducir el potente optimizador MuSGD y proporcionar un conjunto inigualable de herramientas en tareas de detección, segmentación y pose, YOLO26 garantiza que tus proyectos de visión artificial se basen en el marco de trabajo más fiable y preparado para el futuro disponible en la actualidad.

Colaboradores

Comentarios