YOLO26 frente a YOLOv9: la próxima evolución en la detección de objetos en tiempo real
La evolución de las arquitecturas de detección de objetos se ha caracterizado por una búsqueda constante de velocidad, precisión y eficiencia. Comparando YOLO26 con YOLOv9 se pone de manifiesto esta rápida progresión. Mientras que YOLOv9 los límites de la retención de información con gradientes programables, el nuevo YOLO26 redefine el panorama con una arquitectura integral y NMS, optimizada específicamente para el rendimiento periférico y CPU masiva CPU .
Descripción general del modelo
YOLO26
YOLO26 representa lo último en IA visual a principios de 2026. Desarrollado por Ultralytics, introduce un diseño nativo de extremo a extremo que elimina la necesidad de la supresión no máxima (NMS), lo que agiliza los procesos de implementación. Al eliminar la pérdida focal de distribución (DFL) e integrar el novedoso optimizador MuSGD, un híbrido de SGD Muon inspirado en el entrenamiento LLM, YOLO26 logra CPU hasta un 43 % más rápida, al tiempo que mantiene una precisión de primer nivel.
- Autores: Glenn Jocher, Jing Qiu
- Organización:Ultralytics
- Fecha: 14 de enero de 2026
- Característica clave: Detección integral NMS, optimizador MuSGD, ProgLoss + STAL
- GitHub:Repositorio Ultralytics
YOLOv9
Lanzado a principios de 2024, YOLOv9 introdujo el concepto de información de gradiente programable (PGI) y la arquitectura GELAN. Estas innovaciones abordaron el problema del «cuello de botella de la información» en las redes profundas, garantizando que no se perdieran datos críticos durante el proceso de alimentación directa. Sigue siendo un modelo potente, especialmente para aplicaciones de investigación que requieren una alta eficiencia de parámetros.
- Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
- Organización: Institute of Information Science, Academia Sinica
- Fecha: 21 de febrero de 2024
- Característica clave: Información de gradiente programable (PGI), arquitectura GELAN
- Arxiv:YOLOv9
- GitHub:Repositorio de YOLOv9
Comparación de Arquitectura Técnica
La divergencia arquitectónica entre estos dos modelos supone un cambio de la optimización teórica del flujo de información a la eficiencia práctica de la implementación.
YOLO26: Eficiencia y diseño centrado en el borde
YOLO26 se centra en reducir la sobrecarga computacional del posprocesamiento y el cálculo de pérdidas.
- NMS de extremo a extremo: a diferencia de los detectores tradicionales que generan cuadros delimitadores redundantes que requieren NMS, YOLO26 predice directamente el conjunto exacto de objetos. Esto reduce la variación de la latencia y simplifica la exportación a formatos como ONNX TensorRT, ya que ya no se necesitan complejos NMS personalizados.
- ProgLoss + STAL: La introducción de Progressive Loss y Soft-Target Anchor Labeling mejora significativamente la detección de objetos pequeños, un requisito fundamental para las imágenes tomadas por drones y la inspección robótica.
- Optimizador MuSGD: Aportando innovaciones desde el entrenamiento de modelos de lenguaje grandes a la visión por computadora, este optimizador híbrido estabiliza el impulso del entrenamiento, lo que permite una convergencia más rápida con menos ajuste de hiperparámetros.
YOLOv9: Retención de información
La arquitectura YOLOv9 se basa en resolver el problema de la pérdida de información en las redes profundas.
- PGI (Información de gradiente programable): una rama de supervisión auxiliar genera gradientes fiables para actualizar los pesos de la red, lo que garantiza que las capas profundas conserven la información semántica.
- GELAN (Red de agregación de capas eficiente generalizada): esta red troncal optimiza la utilización de parámetros, lo que permite YOLOv9 una alta precisión con menos parámetros que algunos de sus predecesores, aunque a menudo a costa de una mayor complejidad computacional (FLOP) en comparación con el optimizado YOLO26.
Simplicidad de Despliegue
La eliminación de NMS YOLO26 supone un cambio revolucionario para la implementación en el borde. En modelos más antiguos como YOLOv9, el NMS se ejecuta en la CPU si el modelo se ejecuta en una GPU, lo que crea un cuello de botella. La salida de YOLO26 está lista para usar de inmediato, lo que la hace significativamente más rápida en Raspberry Pi y dispositivos móviles.
Métricas de rendimiento
La siguiente tabla compara los modelos en pruebas de rendimiento estándar. Obsérvese la significativa ventaja en velocidad de YOLO26 en CPU , resultado directo de las optimizaciones de su arquitectura.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Ventajas del ecosistema Ultralytics
Aunque YOLOv9 sólidos fundamentos teóricos, el uso de YOLO26 dentro del Ultralytics proporciona ventajas claras para los desarrolladores y las empresas.
Facilidad de uso sin igual
Python Ultralytics transforma los complejos flujos de trabajo de formación en unas pocas líneas de código. Esta experiencia «de cero a héroe» contrasta con la configuración centrada en la investigación de muchos otros repositorios.
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with MuSGD optimizer enabled by default
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
Versatilidad en todas las tareas
A diferencia de YOLOv9, que se centra principalmente en la detección, el Ultralytics y YOLO26 admiten de forma nativa una gama más amplia de tareas de visión artificial. Esto le permite utilizar una única API unificada para:
- Segmentación de instancias: enmascaramiento preciso de objetos a nivel de píxel.
- Estimación de la postura: detección de puntos clave para el análisis de la actividad humana.
- OBB (Oriented Bounding Box): Detección de objetos girados, como barcos, en imágenes satelitales.
- Clasificación: Categorización de imágenes completas.
Entrenamiento y eficiencia de la memoria
Ultralytics están diseñados para ser eficientes en cuanto a recursos. YOLO26 suele requerir menos GPU (VRAM) durante el entrenamiento en comparación con alternativas que utilizan mucho el transformador. Esta eficiencia permite:
- Lotes más grandes en hardware de consumo.
- Reducir los costes de la computación en la nube.
- Ciclos de experimentación más rápidos con pesos preentrenados fácilmente disponibles.
Aplicaciones en el mundo real
La elección del modelo adecuado depende de las limitaciones específicas de su implementación.
Computación en el Borde e IoT
YOLO26 es el campeón indiscutible para dispositivos periféricos. Su CPU un 43 % más rápida lo hace viable para la supervisión en tiempo real en dispositivos como Raspberry Pi o NVIDIA Nano sin necesidad de una cuantificación pesada. Por ejemplo, un sistema de aparcamiento inteligente que se ejecuta en hardware local se beneficia enormemente del diseño NMS, lo que reduce los picos de latencia.
Inspección a gran altitud
Para la supervisión agrícola o la inspección de infraestructuras mediante drones, YOLO26 destaca por sus funciones ProgLoss + STAL. Estas funciones están específicamente diseñadas para manejar objetos pequeños y relaciones de aspecto difíciles mejor que las generaciones anteriores, lo que garantiza una mayor detección de grietas en tuberías o plagas en cultivos.
Investigación académica
YOLOv9 sigue siendo un candidato sólido para la investigación académica, especialmente para estudios centrados en el flujo de gradiente y la teoría de la arquitectura de redes. Su concepto PGI ofrece una vía fascinante para explorar cómo las redes neuronales conservan la profundidad de la información.
Conclusión
Ambas arquitecturas marcan hitos importantes en la visión artificial. YOLOv9 la importancia de la información de gradiente en las redes profundas. Sin embargo, YOLO26 traduce esas lecciones en una potente herramienta lista para la producción. Con su diseño integral NMS, CPU superior y su perfecta integración en la Ultralytics , YOLO26 ofrece el mejor equilibrio entre velocidad, precisión y facilidad de uso para las aplicaciones de IA modernas.
Para los desarrolladores que deseen mantenerse a la vanguardia, recomendamos migrar a YOLO26 para aprovechar los últimos avances en estabilidad del optimizador y rendimiento de vanguardia.
Lecturas adicionales
Si está interesado en otros modelos de alto rendimiento de la Ultralytics , consulte YOLO11 para tareas de uso general o RT-DETR para la detección en tiempo real basada en transformadores.