Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 vs YOLOX#

El campo de la visión artificial ha experimentado una rápida evolución en las arquitecturas de detección de objetos en tiempo real. Esta guía ofrece una comparación exhaustiva entre YOLOv9 y YOLOX, analizando sus innovaciones arquitectónicas, métricas de rendimiento y metodologías de entrenamiento. Tanto si estás creando aplicaciones inteligentes para IA en fabricación como si estás explorando modelado predictivo, comprender estos modelos te ayudará a tomar decisiones informadas para tu próxima implementación.

Link to this sectionInnovaciones arquitectónicas#

Link to this sectionYOLOv9: información de gradiente programable#

YOLOv9 introdujo un cambio de paradigma al abordar el problema del cuello de botella de información inherente a las redes neuronales profundas. Sus innovaciones principales incluyen la Información de Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN).

  • Autores: Chien-Yao Wang y Hong-Yuan Mark Liao
  • Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
  • Fecha: 21 de febrero de 2024
  • Arxiv: 2402.13616
  • GitHub: WongKinYiu/yolov9

Al retener datos de características cruciales durante el proceso de propagación hacia adelante, YOLOv9 garantiza que los gradientes utilizados para actualizar los pesos durante la retropropagación sigan siendo precisos. Esta arquitectura destaca en extracción de características, lo que la hace altamente capaz de detectar objetos pequeños en entornos complejos, como los que se encuentran en imágenes aéreas y escaneos médicos detallados.

Aprende más sobre YOLOv9

Link to this sectionYOLOX: Tendiendo un puente entre la investigación y la industria#

Lanzado a mediados de 2021, YOLOX orientó la serie YOLO hacia un diseño sin anclas (anchor-free). Introdujo una cabeza desacoplada, que separa las tareas de clasificación y localización, y utilizó la estrategia de asignación de etiquetas SimOTA para mejorar la convergencia del entrenamiento.

Aunque YOLOX fue revolucionario en su momento, al lograr una excelente precisión media (mAP) y eliminar el ajuste de hiperparámetros de las cajas ancla, su arquitectura subyacente ha sido superada desde entonces por redes modernas que equilibran mejor el número de parámetros y la retención de características.

Más información sobre YOLOX

Evolución sin anclas

Tanto YOLOX como los modelos más recientes de Ultralytics adoptan diseños sin anclas, lo que reduce la complejidad del ajuste de hiperparámetros y mejora la generalización en diversos conjuntos de datos.

Link to this sectionAnálisis de rendimiento#

Al comparar estos modelos con el benchmark MS COCO, los avances en YOLOv9 resultan evidentes. YOLOv9 logra sistemáticamente un mejor equilibrio entre precisión y FLOPs.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Si bien YOLOX ofrece variantes ligeras como YOLOX-Nano para casos extremos de borde, las variantes de YOLOv9 superan sistemáticamente a los modelos YOLOX de tamaño similar en pura precisión. Por ejemplo, YOLOv9m alcanza un 51.4% de mAP en comparación con el 49.7% de YOLOXl, a pesar de tener menos de la mitad de los parámetros (20.0M frente a 54.2M).

Link to this sectionLa ventaja de Ultralytics#

Elegir un modelo implica más que solo teoría arquitectónica; el ecosistema que lo rodea determina la velocidad de desarrollo y el éxito de la implementación. Utilizar YOLOv9 dentro del ecosistema Ultralytics proporciona una facilidad de uso inigualable y un sólido soporte comunitario.

A diferencia de los repositorios de investigación originales más antiguos, el framework de Ultralytics proporciona una API de Python unificada que simplifica los pipelines complejos. El entrenamiento requiere mucha menos memoria de GPU que muchas alternativas, ofreciendo una increíble eficiencia de entrenamiento.

from ultralytics import YOLO

# Initialize the YOLOv9c model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export the optimized model to TensorRT format
model.export(format="engine")

Con soporte integrado para múltiples tareas, incluyendo detección de objetos, segmentación de instancias y estimación de poses, puedes cambiar rápidamente tus soluciones de visión artificial sin modificar todo tu código.

Exportación fluida

¿Implementas en el borde? Ultralytics hace que sea sencillo exportar tus modelos entrenados a formatos altamente optimizados como ONNX, TensorRT y OpenVINO con un solo comando.

Link to this sectionAplicaciones en el mundo real#

Las fortalezas específicas de estos modelos los adaptan a distintas aplicaciones del mundo real:

Link to this sectionAnalítica minorista de alta velocidad#

Para entornos minoristas modernos que requieren reconocimiento de productos en tiempo real, YOLOv9 destaca. Su capacidad para retener detalles complejos de las características lo hace perfectamente adecuado para implementaciones de IA en retail donde es necesario distinguir entre productos visualmente similares en un estante abarrotado.

Link to this sectionImplementaciones en el borde heredadas#

En escenarios regidos por limitaciones estrictas de hardware o NPUs especializadas que tienen dificultades con bloques de agregación más nuevos, YOLOX-Nano puede encontrar ocasionalmente un nicho. Sus patrones de convolución puros y simplificados a veces son preferidos para microcontroladores extremadamente limitados en recursos.

Link to this sectionRobótica autónoma#

Para la navegación robótica, no detectar objetos pequeños puede ser catastrófico. La arquitectura GELAN dentro de YOLOv9 asegura que las características de obstáculos pequeños y distantes no se pierdan en las capas profundas de la red, superando a modelos antiguos en entornos de seguridad crítica como aplicaciones de IA en automoción.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre YOLOv9 y YOLOX depende de los requisitos específicos de tu proyecto, las restricciones de implementación y tus preferencias de ecosistema.

Link to this sectionCuándo elegir YOLOv9#

YOLOv9 es una opción sólida para:

  • Investigación del cuello de botella de información: proyectos académicos que estudian arquitecturas de información de gradiente programable (PGI) y redes de agregación de capas eficientes generalizadas (GELAN).
  • Estudios de optimización del flujo de gradiente: investigación enfocada en comprender y mitigar la pérdida de información en capas de red profundas durante el entrenamiento.
  • Evaluación comparativa de detección de alta precisión: escenarios donde el sólido rendimiento de YOLOv9 en el benchmark COCO es necesario como punto de referencia para comparaciones arquitectónicas.

Link to this sectionCuándo elegir YOLOX#

YOLOX se recomienda para:

  • Investigación en detección sin anclas: Investigación académica que utiliza la arquitectura limpia y sin anclas de YOLOX como base para experimentar con nuevas cabeceras de detección o funciones de pérdida.
  • Dispositivos de borde ultraligeros: Despliegue en microcontroladores o hardware móvil antiguo donde la huella extremadamente pequeña de la variante YOLOX-Nano (0.91M de parámetros) es crítica.
  • Estudios de asignación de etiquetas SimOTA: Proyectos de investigación que investigan estrategias de asignación de etiquetas basadas en transporte óptimo y su impacto en la convergencia del entrenamiento.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionEl futuro: llega YOLO26#

Aunque YOLOv9 representa un hito impresionante, las demandas de los entornos de producción superan constantemente los límites. El recién lanzado YOLO26 representa el estándar definitivo para la IA de visión moderna.

YOLO26 revitaliza completamente el pipeline de implementación con un diseño nativo End-to-End NMS-Free. Al eliminar la necesidad de una compleja supresión de no máximos (Non-Maximum Suppression) durante el post-procesamiento, ofrece una latencia de inferencia significativamente menor.

Además, YOLO26 incorpora el revolucionario optimizador MuSGD, un híbrido de SGD y Muon que toma prestadas innovaciones del entrenamiento de modelos de lenguaje (LLM) para proporcionar una convergencia increíblemente estable y rápida. Al eliminar la pérdida focal de distribución (DFL), YOLO26 logra hasta un 43% más de rapidez en la inferencia por CPU en comparación con sus predecesores, lo que lo convierte en la mejor opción absoluta para dispositivos de borde e implementaciones empresariales. Con notables mejoras en el reconocimiento de objetos pequeños a través de ProgLoss y STAL, YOLO26 reemplaza efectivamente tanto a YOLOX como a YOLOv9.

Para los ingenieros que exploran arquitecturas modernas, también recomendamos probar YOLO11 y RT-DETR como potentes alternativas dentro de la suite de Ultralytics. Asegúrate de que tu proyecto esté preparado para el futuro aprovechando el rendimiento inigualable de los modelos más recientes en la plataforma de Ultralytics.

Comentarios