Ir al contenido

YOLO26 vs YOLOv9: La Próxima Evolución en la Detección de Objetos en Tiempo Real

El panorama de la visión por computadora avanza rápidamente, con nuevas arquitecturas superando continuamente los límites de la velocidad y la precisión. En esta comparación técnica, examinamos las diferencias entre YOLO26 y YOLOv9, dos modelos altamente influyentes en el dominio de la detección de objetos en tiempo real. Si bien ambos modelos ofrecen innovaciones arquitectónicas distintas, comprender sus compensaciones de rendimiento, capacidades de despliegue y requisitos de hardware es crucial para seleccionar la herramienta adecuada para su próximo proyecto de visión.

YOLO26: La Potencia Optimizada para Edge

Lanzado a principios de 2026, Ultralytics YOLO26 representa un salto generacional en eficiencia de despliegue y estabilidad de entrenamiento de modelos. Diseñado para ser un marco nativo de extremo a extremo, aborda directamente los cuellos de botella de despliegue que históricamente han afectado a las aplicaciones de IA en el borde.

Detalles del Modelo:

Arquitectura e Innovaciones

YOLO26 rediseña fundamentalmente el pipeline de posprocesamiento al introducir un diseño de extremo a extremo sin NMS. Al eliminar la necesidad de supresión no máxima (NMS), el modelo logra una variabilidad de latencia drásticamente menor. Esto facilita significativamente el despliegue en plataformas móviles y de borde, especialmente al exportar a frameworks como ONNX y Apple CoreML.

Además, la eliminación de Distribution Focal Loss (DFL) agiliza el proceso de exportación y mejora la compatibilidad con microcontroladores de baja potencia. Para mejorar la estabilidad del entrenamiento, YOLO26 integra el novedoso Optimizador MuSGD, un híbrido de Descenso de Gradiente Estocástico (SGD) y Muon (inspirado en innovaciones en el entrenamiento de Modelos de Lenguaje Grandes). Esto se traduce en una convergencia más rápida y una extracción de características más robusta en conjuntos de datos difíciles.

Inferencia en dispositivos de borde

Gracias a las simplificaciones arquitectónicas y la eliminación de DFL, YOLO26 logra hasta un 43% más rápido en la inferencia de CPU, lo que lo convierte en la opción ideal para dispositivos de borde con recursos limitados como la Raspberry Pi o la NVIDIA Jetson Nano.

Para detect elementos altamente desafiantes en escenas como imágenes aéreas de drones, YOLO26 utiliza las funciones de pérdida actualizadas ProgLoss + STAL. Estas proporcionan mejoras notables en la recuperación del reconocimiento de objetos pequeños. Además, cuenta con mejoras específicas para cada tarea, incluyendo proto multi-escala para la segmentación de instancias, Estimación de Verosimilitud Logarítmica Residual (RLE) para la estimación de pose, y pérdida de ángulo especializada para detect Oriented Bounding Boxes (OBB).

Más información sobre YOLO26

YOLOv9: Información de Gradiente Programable

Introducido a principios de 2024, YOLOv9 aportó avances teóricos a la forma en que las redes neuronales manejan el flujo de gradiente durante la fase de entrenamiento, centrándose en la eficiencia de los parámetros y la retención de características profundas.

Detalles del Modelo:

Arquitectura y puntos fuertes

YOLOv9 se construye alrededor del concepto de Información de Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN). Estos conceptos abordan el problema del cuello de botella de información a menudo observado en redes neuronales profundas. Al preservar la información esencial a través del proceso de propagación hacia adelante, GELAN asegura que los gradientes utilizados para las actualizaciones de peso permanezcan fiables. Esta arquitectura ofrece alta precisión y convierte a YOLOv9 en un candidato sólido para la investigación académica en teoría de redes neuronales y optimización de la trayectoria del gradiente utilizando el marco PyTorch.

Limitaciones

A pesar de su excelente eficiencia de parámetros, YOLOv9 depende en gran medida de la NMS tradicional para el postprocesamiento de las cajas delimitadoras, lo que puede crear cuellos de botella computacionales durante la inferencia en dispositivos de borde. Además, el repositorio oficial se centra en gran medida en la detección de objetos, requiriendo una ingeniería personalizada significativa para adaptarlo a tareas especializadas como el tracking o la estimación de pose.

Más información sobre YOLOv9

Comparación de rendimiento

Al evaluar estos modelos para su implementación en el mundo real, equilibrar la precisión (mAP), la velocidad de inferencia y el uso de memoria es crítico. Los modelos Ultralytics son reconocidos por sus bajos requisitos de memoria tanto durante el entrenamiento como durante la inferencia, necesitando mucha menos memoria CUDA que las alternativas basadas en transformadores como RT-DETR.

A continuación se presenta una comparación directa del rendimiento de YOLO26 y YOLOv9 en el conjunto de datos COCO. Los mejores valores de cada columna se resaltan en negrita.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Nota: Las velocidades de CPU para YOLOv9 se omiten ya que varían mucho según la configuración de NMS y son generalmente más lentas que la implementación nativa sin NMS de YOLO26.

Casos de Uso y Recomendaciones

La elección entre YOLO26 y YOLOv9 depende de los requisitos específicos de su proyecto, las limitaciones de implementación y las preferencias del ecosistema.

Cuándo Elegir YOLO26

YOLO26 es una opción sólida para:

  • Implementación en el borde sin NMS: Aplicaciones que requieren inferencia consistente y de baja latencia sin la complejidad del postprocesamiento de supresión no máxima.
  • Entornos solo con CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia hasta un 43% más rápida de YOLO26 en CPU proporciona una ventaja decisiva.
  • Detección de Objetos Pequeños: Escenarios desafiantes como imágenes aéreas de drones o análisis de sensores IoT, donde ProgLoss y STAL aumentan significativamente la precisión en objetos diminutos.

Cuándo elegir YOLOv9

YOLOv9 es recomendado para:

  • Investigación sobre el Cuello de Botella de la Información: Proyectos académicos que estudian las arquitecturas de Información de Gradiente Programable (PGI) y Red de Agregación de Capas Eficiente Generalizada (GELAN).
  • Estudios de Optimización del Flujo de Gradiente: Investigación centrada en comprender y mitigar la pérdida de información en las capas de redes profundas durante el entrenamiento.
  • Evaluación comparativa de detección de alta precisión: Escenarios donde el sólido rendimiento de YOLOv9 en el benchmark COCO es necesario como punto de referencia para comparaciones arquitectónicas.

La ventaja de Ultralytics

Elegir un modelo implica más que solo leer un benchmark de precisión; el ecosistema de software circundante dicta la velocidad con la que se puede pasar de la recopilación de datos a la producción.

Facilidad de uso y ecosistema

El API de Python de Ultralytics ofrece una experiencia fluida de "cero a héroe". En lugar de clonar repositorios complejos o configurar manualmente scripts de entrenamiento distribuido, los desarrolladores pueden instalar el paquete a través de pip y comenzar a entrenar inmediatamente. El mantenido activamente Ecosistema Ultralytics garantiza actualizaciones frecuentes, integraciones automatizadas con plataformas de ML como Weights & Biases, y una extensa documentación.

Otros modelos de Ultralytics

Si está interesado en explorar otros modelos dentro del ecosistema Ultralytics, también podría considerar comparar YOLO11 o el clásico YOLOv8, ambos ofrecen una flexibilidad excepcional para aplicaciones personalizadas.

Versatilidad en Tareas de Visión

Aunque YOLOv9 es principalmente un motor de detección, YOLO26 es una herramienta de visión de propósito general. Utilizando una única sintaxis unificada, puede pasar fácilmente de la detección de objetos a la segmentación de imágenes perfecta a nivel de píxel o a la clasificación de imágenes completas. Esta versatilidad reduce la deuda técnica de mantener múltiples bases de código disjuntas para diferentes características de visión por computadora.

Entrenamiento y despliegue eficientes

La eficiencia de entrenamiento es una piedra angular de la filosofía de Ultralytics. YOLO26 utiliza pesos preentrenados fácilmente disponibles y presume de un uso de memoria significativamente menor en comparación con los voluminosos transformadores de visión. Una vez entrenado, los pipelines de exportación integrados permiten conversiones con un solo clic a formatos optimizados como TensorRT o TensorFlow Lite, facilitando el camino hacia la producción.

Ejemplo de Código: Primeros Pasos con YOLO26

La implementación de YOLO26 es notablemente sencilla. El siguiente fragmento de python demuestra cómo cargar un modelo preentrenado, entrenarlo con datos personalizados y ejecutar inferencias utilizando la API de Ultralytics.

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Uses GPU 0, or use 'cpu' for CPU training
)

# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the bounding boxes and confidences
predictions[0].show()

Al aprovechar la velocidad, la arquitectura simplificada y el robusto ecosistema de YOLO26, los equipos pueden llevar aplicaciones avanzadas de IA de visión al mercado más rápido y con menos obstáculos técnicos que nunca.


Comentarios