YOLO26 vs YOLOv9: La próxima evolución en la detección de objetos en tiempo real

El panorama de la visión por computador avanza rápidamente, con nuevas arquitecturas que continuamente superan los límites de velocidad y precisión. En esta comparación técnica, analizamos las diferencias entre YOLO26 y YOLOv9, dos modelos muy influyentes en el campo de la detección de objetos en tiempo real. Aunque ambos modelos ofrecen innovaciones arquitectónicas distintas, comprender sus compromisos de rendimiento, capacidades de despliegue y requisitos de hardware es fundamental para seleccionar la herramienta adecuada para tu próximo proyecto de visión.

YOLO26: La potencia optimizada para el borde (edge)

Lanzado a principios de 2026, Ultralytics YOLO26 representa un salto generacional en la eficiencia de despliegue y la estabilidad del entrenamiento de modelos. Diseñado para ser un framework nativamente de extremo a extremo, aborda directamente los cuellos de botella en el despliegue que históricamente han afectado a las aplicaciones de Edge AI.

Detalles del modelo:

Arquitectura e innovaciones

YOLO26 rediseña fundamentalmente la canalización de postprocesamiento al introducir un diseño de extremo a extremo sin NMS. Al eliminar la necesidad de la supresión de no máximos (NMS), el modelo logra una variabilidad de latencia drásticamente menor. Esto facilita significativamente el despliegue en plataformas móviles y de borde, especialmente al exportar a frameworks como ONNX y Apple CoreML.

Además, la eliminación de la pérdida focal de distribución (DFL) agiliza el proceso de exportación y aumenta la compatibilidad con microcontroladores de baja potencia. Para mejorar la estabilidad del entrenamiento, YOLO26 integra el novedoso optimizador MuSGD, un híbrido de descenso de gradiente estocástico (SGD) y Muon (inspirado en innovaciones en el entrenamiento de grandes modelos de lenguaje). Esto resulta en una convergencia más rápida y una extracción de características más robusta en conjuntos de datos difíciles.

Inferencia en dispositivos de borde (edge)

Gracias a las simplificaciones arquitectónicas y la eliminación de DFL, YOLO26 logra hasta un 43% más de velocidad en la inferencia por CPU, lo que lo convierte en la opción ideal para dispositivos de borde con recursos limitados como la Raspberry Pi o NVIDIA Jetson Nano.

Para detectar elementos altamente desafiantes en escenas como imágenes aéreas de drones, YOLO26 utiliza las funciones de pérdida actualizadas ProgLoss + STAL. Estas proporcionan mejoras notables en la recuperación del reconocimiento de objetos pequeños. Además, cuenta con mejoras específicas para cada tarea, incluyendo proto multi-escala para segmentación de instancias, estimación de log-verosimilitud residual (RLE) para estimación de poses y pérdida de ángulo especializada para detectar cajas delimitadoras orientadas (OBB).

Más información sobre YOLO26

YOLOv9: Información de gradiente programable

Presentado a principios de 2024, YOLOv9 trajo avances teóricos a la forma en que las redes neuronales manejan el flujo de gradiente durante la fase de entrenamiento, centrándose en la eficiencia de los parámetros y la retención profunda de características.

Detalles del modelo:

Arquitectura y puntos fuertes

YOLOv9 está construido en torno al concepto de información de gradiente programable (PGI) y la red de agregación de capas eficiente generalizada (GELAN). Estos conceptos abordan el problema del cuello de botella de información que se observa a menudo en las redes neuronales profundas. Al preservar información esencial a través del proceso de alimentación directa, GELAN asegura que los gradientes utilizados para las actualizaciones de peso sigan siendo fiables. Esta arquitectura ofrece una alta precisión y convierte a YOLOv9 en un firme candidato para la investigación académica sobre la teoría de redes neuronales y la optimización de la ruta de gradiente utilizando el framework PyTorch.

Limitaciones

A pesar de su excelente eficiencia de parámetros, YOLOv9 depende en gran medida del NMS tradicional para el postprocesamiento de cajas delimitadoras, lo que puede crear cuellos de botella computacionales durante la inferencia en dispositivos de borde. Además, el repositorio oficial se centra principalmente en la detección de objetos, lo que requiere una ingeniería personalizada significativa para adaptarlo a tareas especializadas como el seguimiento o la estimación de poses.

Aprende más sobre YOLOv9

Comparación de rendimiento

Al evaluar estos modelos para el despliegue en el mundo real, equilibrar la precisión (mAP), la velocidad de inferencia y el uso de memoria es fundamental. Los modelos de Ultralytics son reconocidos por sus bajos requisitos de memoria tanto durante el entrenamiento como en la inferencia, requiriendo mucha menos memoria CUDA que las alternativas basadas en Transformer como RT-DETR.

A continuación se muestra una comparación directa del rendimiento de YOLO26 y YOLOv9 en el conjunto de datos COCO. Los mejores valores en cada columna están resaltados en negrita.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Nota: Las velocidades de CPU para YOLOv9 se omiten ya que varían mucho según la configuración de NMS y, en general, son más lentas que la implementación nativa sin NMS de YOLO26.

Casos de uso y recomendaciones

Elegir entre YOLO26 y YOLOv9 depende de los requisitos específicos de tu proyecto, las restricciones de despliegue y las preferencias del ecosistema.

Cuándo elegir YOLO26

YOLO26 es una gran elección para:

  • Despliegue en borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de la supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.

Cuándo elegir YOLOv9

YOLOv9 se recomienda para:

  • Investigación sobre cuellos de botella de información: Proyectos académicos que estudien las arquitecturas de información de gradiente programable (PGI) y la red de agregación de capas eficiente generalizada (GELAN).
  • Estudios de optimización del flujo de gradiente: Investigación centrada en comprender y mitigar la pérdida de información en las capas de redes profundas durante el entrenamiento.
  • Benchmarking de detección de alta precisión: Escenarios donde el sólido rendimiento de YOLOv9 en el benchmark COCO es necesario como punto de referencia para comparaciones arquitectónicas.

La ventaja de Ultralytics

Elegir un modelo implica algo más que leer un benchmark de precisión; el ecosistema de software circundante dicta qué tan rápido puedes pasar de la recopilación de datos a la producción.

Facilidad de uso y ecosistema

La API de Python de Ultralytics ofrece una experiencia fluida de principio a fin. En lugar de clonar repositorios complejos o configurar manualmente scripts de entrenamiento distribuido, puedes instalar el paquete mediante pip y comenzar a entrenar de inmediato. El ecosistema Ultralytics, que se mantiene activamente, garantiza actualizaciones frecuentes, integraciones automatizadas con plataformas de ML como Weights & Biases y una documentación extensa.

Otros modelos de Ultralytics

Si te interesa explorar otros modelos dentro del ecosistema de Ultralytics, podrías considerar comparar YOLO11 o el clásico YOLOv8, ambos ofrecen una flexibilidad excepcional para aplicaciones personalizadas.

Versatilidad en tareas de visión

Aunque YOLOv9 es principalmente un motor de detección, YOLO26 es una herramienta de visión de propósito general. Utilizando una única sintaxis unificada, puedes pasar fácilmente de la detección de objetos a la segmentación de imágenes con precisión de píxel o a la clasificación de imágenes completas. Esta versatilidad reduce la deuda técnica de mantener múltiples bases de código inconexas para diferentes funciones de visión por computador.

Entrenamiento y despliegue eficientes

La eficiencia del entrenamiento es una piedra angular de la filosofía de Ultralytics. YOLO26 utiliza pesos pre-entrenados fácilmente disponibles y cuenta con un uso de memoria significativamente menor en comparación con los voluminosos vision transformers. Una vez entrenado, las canalizaciones de exportación integradas permiten conversiones con un solo clic a formatos optimizados como TensorRT o TensorFlow Lite, suavizando el camino hacia la producción.

Ejemplo de código: Primeros pasos con YOLO26

Implementar YOLO26 es notablemente sencillo. El siguiente fragmento de Python demuestra cómo cargar un modelo pre-entrenado, entrenarlo con datos personalizados y ejecutar la inferencia utilizando la API de Ultralytics.

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Uses GPU 0, or use 'cpu' for CPU training
)

# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the bounding boxes and confidences
predictions[0].show()

Al aprovechar la velocidad, la arquitectura simplificada y el ecosistema robusto de YOLO26, los equipos pueden llevar aplicaciones avanzadas de IA de visión al mercado más rápido y con menos obstáculos técnicos que nunca.

Comentarios