Link to this sectionYOLOv9 frente a YOLO26#
El panorama de la detección de objetos en tiempo real ha evolucionado significativamente en los últimos años. A medida que los profesionales del aprendizaje automático buscan implementar modelos en una variedad de hardware, elegir la arquitectura correcta resulta fundamental. En esta guía técnica exhaustiva, comparamos dos hitos importantes en el campo de la visión artificial: YOLOv9, introducido a principios de 2024 con un enfoque en las optimizaciones de la ruta de gradiente, y Ultralytics YOLO26, el marco de trabajo de vanguardia más reciente, lanzado a principios de 2026, que redefine por completo la inferencia en el borde y la estabilidad del entrenamiento.
Link to this sectionResumen ejecutivo: Linaje del modelo y autoría#
Comprender los orígenes de estos modelos de aprendizaje profundo aporta un contexto valioso sobre sus decisiones de diseño arquitectónico y sus audiencias objetivo.
Link to this sectionYOLOv9#
Creado por Chien-Yao Wang y Hong-Yuan Mark Liao del Instituto de Ciencias de la Información en Academia Sinica en Taiwán, YOLOv9 se lanzó el 21 de febrero de 2024. El modelo se centra intensamente en conceptos teóricos de aprendizaje profundo, abordando específicamente el problema del cuello de botella de información en las redes neuronales convolucionales (CNN) profundas.
Link to this sectionUltralytics YOLO26#
Creado por Glenn Jocher y Jing Qiu en Ultralytics, YOLO26 se lanzó el 14 de enero de 2026. Basándose en el éxito masivo de predecesores como YOLO11 y YOLOv8, YOLO26 fue diseñado desde cero para priorizar la preparación para producción, la implementación en el borde y la eficiencia nativa de extremo a extremo.
¿Listo para actualizar tu canalización de visión artificial? Puedes entrenar e implementar fácilmente modelos YOLO26 en la nube sin escribir código utilizando la Plataforma Ultralytics.
Link to this sectionInnovaciones arquitectónicas#
Ambos modelos introducen cambios innovadores en la forma en que las redes neuronales procesan datos visuales, pero abordan el problema desde diferentes ángulos.
Link to this sectionInformación de gradiente programable en YOLOv9#
La principal contribución de YOLOv9 al campo es la introducción de la Información de Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN). A medida que las redes neuronales se vuelven más profundas, a menudo sufren de pérdida de información durante el proceso de propagación hacia adelante. PGI asegura que los gradientes utilizados para actualizar los pesos durante la retropropagación sigan siendo precisos y fiables, permitiendo que la arquitectura GELAN logre una alta precisión con menos parámetros.
Sin embargo, YOLOv9 depende en gran medida de la supresión de no máximos (NMS) tradicional para el posprocesamiento, lo que puede convertirse en un cuello de botella de latencia durante la inferencia en el mundo real.
Link to this sectionLa arquitectura enfocada al borde de YOLO26#
YOLO26 adopta un enfoque radicalmente diferente al optimizar toda la canalización, desde el entrenamiento hasta la implementación en tiempo real. Se basa en el diseño de extremo a extremo sin NMS iniciado por primera vez en YOLOv10, eliminando por completo la necesidad de posprocesamiento NMS. Esto resulta en una latencia increíblemente baja, haciéndolo altamente optimizado para dispositivos de borde como Raspberry Pi o NVIDIA Jetson.
Además, YOLO26 elimina por completo la pérdida focal de distribución (DFL). Este cambio estructural simplifica la exportación del modelo a ONNX y proporciona una compatibilidad significativamente mejor con microcontroladores de bajo consumo.
Para la fase de entrenamiento, YOLO26 integra el novedoso optimizador MuSGD, un híbrido de descenso de gradiente estocástico y Muon (inspirado en las metodologías de entrenamiento de LLM de Kimi K2 de Moonshot AI). Esto cierra la brecha entre las innovaciones de entrenamiento de modelos de lenguaje grande (LLM) y la visión artificial, ofreciendo un entrenamiento drásticamente más estable y tiempos de convergencia más rápidos.
Link to this sectionComparación de rendimiento y métricas#
Al realizar evaluaciones comparativas en el conjunto de datos COCO, que es ampliamente utilizado, ambos modelos demuestran capacidades excepcionales, pero el ecosistema de Ultralytics destaca en velocidades de inferencia prácticas y eficiencia de parámetros.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Link to this sectionAnálisis de los resultados#
- Velocidad y eficiencia: Debido a que YOLO26 utiliza una arquitectura sin NMS y funciones de pérdida simplificadas, cuenta con una inferencia en CPU hasta un 43% más rápida en comparación con arquitecturas heredadas. El modelo YOLO26n se ejecuta a unos vertiginosos 1.7ms en una GPU NVIDIA T4 utilizando TensorRT, lo que lo convierte en la elección definitiva para flujos de vídeo en tiempo real.
- Precisión: El modelo YOLO26x logra una 57.5 mAP inigualable, superando al mayor modelo YOLOv9e mientras mantiene una latencia más baja.
- Requisitos de memoria: Los modelos de Ultralytics son conocidos por su eficiencia. YOLO26 requiere significativamente menos memoria CUDA durante el entrenamiento del modelo y la inferencia en comparación con complejos modelos de visión basados en Transformer, permitiendo a los desarrolladores utilizar tamaños de lote más grandes en hardware de consumo.
Link to this sectionEcosistema, facilidad de uso y versatilidad#
La verdadera fuerza del ecosistema de Ultralytics reside en su experiencia de usuario. Mientras que los investigadores que utilizan la base de código de GitHub de YOLOv9 deben navegar por configuraciones de entorno complejas y scripts manuales, YOLO26 está totalmente integrado en la intuitiva API de Python de Ultralytics.
Link to this sectionEjemplo de API optimizada#
Entrenar un modelo YOLO26 de vanguardia requiere solo unas pocas líneas de código Python:
from ultralytics import YOLO
# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")
# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export natively to ONNX format in a single command
model.export(format="onnx")Link to this sectionVersatilidad de tareas inigualable#
A diferencia de YOLOv9, que está diseñado principalmente para la detección estándar de objetos, YOLO26 admite de forma nativa una amplia gama de tareas de visión artificial desde el primer momento. La arquitectura incluye mejoras específicas para diversas aplicaciones:
- Segmentación de instancias: Incluye una pérdida de segmentación semántica especializada y un proto multiescala para máscaras a nivel de píxel impecables.
- Estimación de pose: Integra la estimación de log-verosimilitud residual (RLE) para rastrear puntos clave del esqueleto con extrema precisión.
- Cajas delimitadoras orientadas (OBB): Incluye una función de pérdida de ángulo especializada diseñada específicamente para resolver problemas de límites en la detección de objetos rotados para imágenes aéreas.
- Clasificación de imágenes: Categorización robusta para imágenes completas basada en los estándares de ImageNet.
Todos los modelos YOLO26 se benefician de una integración perfecta con la Plataforma Ultralytics, ofreciendo etiquetado de conjuntos de datos integrado, aprendizaje activo y canales de implementación instantánea.
Link to this sectionAplicaciones en el mundo real#
Elegir entre estos modelos a menudo depende del entorno en el que se implementarán.
Link to this sectionIoT y robótica de borde#
Para robótica, drones autónomos y dispositivos IoT domésticos inteligentes, YOLO26 es el campeón indiscutible. La integración de ProgLoss + STAL aporta mejoras notables al reconocimiento de objetos pequeños, lo cual es fundamental para la monitorización agrícola desde drones a gran altitud. Combinado con su inferencia en CPU un 43% más rápida y su diseño sin NMS, YOLO26 puede ejecutarse con fluidez en hardware sin GPU dedicadas.
Link to this sectionInvestigación académica y análisis de gradiente#
YOLOv9 sigue siendo un modelo muy respetado en los círculos académicos. Los investigadores que analizan los límites teóricos del flujo de gradiente, o aquellos que buscan crear capas personalizadas de PyTorch basadas en el concepto PGI, encontrarán que la base de código de YOLOv9 es una excelente base para la exploración de la teoría del aprendizaje profundo.
Link to this sectionCanalizaciones de fabricación de alta velocidad#
En entornos industriales como la detección de defectos automatizada en cintas transportadoras de alta velocidad, las velocidades ultrarrápidas de TensorRT de los modelos YOLO26 aseguran que no se pierdan fotogramas, maximizando el rendimiento de los sistemas de control de calidad.
Link to this sectionCasos de uso y recomendaciones#
Elegir entre YOLOv9 y YOLO26 depende de los requisitos específicos de tu proyecto, las limitaciones de implementación y las preferencias de ecosistema.
Link to this sectionCuándo elegir YOLOv9#
YOLOv9 es una opción sólida para:
- Investigación del cuello de botella de información: proyectos académicos que estudian arquitecturas de información de gradiente programable (PGI) y redes de agregación de capas eficientes generalizadas (GELAN).
- Estudios de optimización del flujo de gradiente: investigación enfocada en comprender y mitigar la pérdida de información en capas de red profundas durante el entrenamiento.
- Evaluación comparativa de detección de alta precisión: escenarios donde el sólido rendimiento de YOLOv9 en el benchmark COCO es necesario como punto de referencia para comparaciones arquitectónicas.
Link to this sectionCuándo elegir YOLO26#
Se recomienda YOLO26 para:
- Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
- Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
- Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.
Link to this sectionConclusión#
Ambos modelos representan increíbles saltos adelante para la comunidad de código abierto. YOLOv9 introdujo mejoras teóricas vitales en el flujo de gradiente que inspirarán arquitecturas durante años. Sin embargo, para los desarrolladores modernos, startups y equipos empresariales que buscan un equilibrio impecable entre velocidad, precisión y facilidad de implementación, Ultralytics YOLO26 es la recomendación clara.
Al eliminar NMS, introducir el potente optimizador MuSGD y proporcionar un conjunto inigualable de herramientas en tareas de detección, segmentación y pose, YOLO26 asegura que tus proyectos de visión artificial se construyan sobre el marco de trabajo más fiable y preparado para el futuro disponible hoy en día.