Ir al contenido

YOLOv9 vs. YOLOX: una comparación técnica exhaustiva

Seleccionar la arquitectura de detección de objetos adecuada es una decisión crítica que repercute en la eficacia, precisión y escalabilidad de las aplicaciones de visión por ordenador. Esta guía ofrece una comparación técnica detallada entre YOLOv9un modelo de última generación introducido en 2024, y YOLOX, un detector sin anclaje de alto rendimiento lanzado en 2021.

YOLOv9: Cómo superar la pérdida de información en las redes profundas

YOLOv9 representa un importante salto adelante en la detección de objetos en tiempo real, diseñado para abordar el reto fundamental de la pérdida de información cuando los datos pasan por redes neuronales profundas.

Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2024-02-21
Arxiv:arXiv:2402.13616
GitHub:WongKinYiu/yolov9
Docs:docs.ultralytics.com/models/yolov9/

Arquitectura e innovación

La principal innovación de YOLOv9 reside en dos componentes clave: La Información de Gradiente Programable (PGI) y la Red de Agregación de Capas Eficiente Generalizada (GELAN).

  • Información de gradiente programable (PGI): En las redes profundas, a menudo se pierden datos de entrada cruciales durante el proceso de extracción de características, un fenómeno conocido como el cuello de botella de la información. PGI proporciona una señal de supervisión auxiliar que garantiza una generación de gradiente fiable, lo que permite al modelo aprender características más eficaces sin aumentar el coste de inferencia.
  • GELAN: Este diseño arquitectónico optimiza la utilización de parámetros y la eficiencia computacional. Al generalizar el concepto de redes de agregación de capas eficientes (ELAN), GELAN permite el apilamiento flexible de bloques computacionales, lo que da lugar a un modelo ligero y rápido a la vez.

Estas innovaciones permiten YOLOv9 alcanzar un rendimiento de primer nivel en el conjunto de datosCOCO , superando a las iteraciones anteriores tanto en precisión como en eficiencia de los parámetros.

Más información sobre YOLOv9

YOLOX: la norma sin anclaje

YOLOX se introdujo para tender un puente entre la investigación académica y la aplicación industrial, popularizando el enfoque sin anclajes de la serie YOLO .

Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun
Organización: Megvii
Fecha: 2021-07-18
Arxiv:arXiv:2107.08430
GitHub:Megvii-BaseDetection/YOLOX
Docs:yolox.readthedocs.io

Principales características arquitectónicas

YOLOX difiere de las versiones anteriores de YOLO al eliminar las cajas de anclaje y emplear una estructura de cabeza desacoplada.

  • Diseño sin anclajes: Los detectores tradicionales se basan en cajas de anclaje predefinidas, que requieren un ajuste heurístico y agrupación. YOLOX trata la detección de objetos como un problema de predicción de puntos, lo que simplifica el diseño y mejora la generalización a través de diversas formas de objetos.
  • Cabezal desacoplado: las tareas de clasificación y regresión se procesan en ramas separadas (cabezales). Esta separación permite al modelo optimizar cada tarea de forma independiente, lo que conduce a una convergencia más rápida y una mayor precisión.
  • SimOTA: estrategia avanzada de asignación de etiquetas que asigna dinámicamente muestras positivas a objetos de la verdad básica, lo que aumenta aún más el rendimiento.

Análisis del rendimiento: Métricas y puntos de referencia

Cuando se analiza el rendimiento, YOLOv9 demuestra una clara ventaja coherente con el hecho de ser una arquitectura más reciente. Al aprovechar PGI y GELAN, YOLOv9 logra una mayor precisión mediamAP) manteniendo o reduciendo la carga computacional (FLOPs) en comparación con YOLOX.

La tabla siguiente muestra las diferencias de rendimiento. En particular, YOLOv9 alcanza un mAP significativamente mayor (53,0%) que YOLOX-L (49,7%) con menos de la mitad del número de parámetros (25,3M frente a 54,2M). Esta eficiencia convierte a YOLOv9 en una opción superior para aplicaciones con recursos de hardware limitados pero que exigen una gran precisión.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Velocidad y eficacia

Si bien YOLOX introdujo velocidades impresionantes en 2021, YOLOv9 va más allá. El modelo YOLOv9 (Tiny) ofrece un equilibrio excepcional, ya que proporciona un 38,3 % de mAP con solo 2,0 M de parámetros, lo que lo hace muy adecuado para aplicaciones móviles e integradas. En cambio, el YOLOX-Nano es más pequeño, pero sacrifica una precisión significativa (25,8% mAP).

Eficacia de la formación

YOLOv9 se beneficia de las modernas recetas de entrenamiento y del entrenador Ultralytics optimizado, lo que a menudo se traduce en una convergencia más rápida y un menor uso de memoria durante el entrenamiento en comparación con arquitecturas más antiguas.

Casos de Uso Ideales

La elección entre estos modelos depende de los requisitos específicos de su proyecto.

Cuándo elegir YOLOv9

YOLOv9 es la opción recomendada para la mayoría de las aplicaciones modernas de visión por ordenador debido a su superior relación precisión-eficacia.

  • Real-Time Edge AI: implantación en dispositivos como NVIDIA Jetson, donde los FLOPs importan. La arquitectura ligera de YOLOv9 maximiza el rendimiento.
  • Inspección de alta precisión: Control de calidad industrial donde la detección de pequeños defectos es crítica. El elevado mAP de YOLOv9 garantiza la captura de detalles minúsculos.
  • Sistemas autónomos: La robótica y los drones requieren baja latencia. La estructura de grafos optimizada de YOLOv9 garantiza una inferencia rápida sin comprometer la capacidad de detección.

Cuándo considerar YOLOX

YOLOX sigue siendo un fuerte competidor para flujos de trabajo heredados específicos o comparaciones de investigación.

  • Investigación académica: Su cabeza desacoplada y su diseño sin anclajes lo convierten en una base clásica para estudiar los fundamentos de la detección de objetos.
  • Despliegues heredados: Si una infraestructura existente está muy optimizada para la arquitectura específica de YOLOX (por ejemplo, plugins TensorRT personalizados construidos específicamente para cabezales YOLOX), mantener el modelo heredado podría ser rentable a corto plazo.

La ventaja Ultralytics

La adopción de YOLOv9 a través del ecosistema Ultralytics ofrece claras ventajas sobre las implementaciones independientes. El marco de Ultralytics está diseñado para agilizar todo el ciclo de vida de las operaciones de aprendizaje automático (MLOps ).

  • Facilidad de uso: La APIPython Ultralytics le permite cargar, entrenar y desplegar modelos con sólo unas pocas líneas de código.
  • Ecosistema bien mantenido: Las actualizaciones periódicas garantizan la compatibilidad con las últimas versiones de PyTorch, ONNX y CUDA.
  • Versatilidad: Aunque YOLOX es principalmente un detector de objetos, el marco Ultralytics admite una amplia gama de tareas, como la estimación de la pose, la segmentación y la clasificación, lo que permite cambiar fácilmente de arquitectura o de tarea dentro del mismo código base.
  • Eficiencia de memoria: Los modelos de Ultralytics están optimizados para el uso de la memoria, lo que evita los errores Out-Of-Memory (OOM) habituales al entrenar modelos complejos basados en Transformer o detectores heredados no optimizados.

Ejemplo de código: Ejecución de YOLOv9

Ejecutar la inferencia con YOLOv9 es sencillo utilizando el paquete Ultralytics .

from ultralytics import YOLO

# Load a pre-trained YOLOv9 compact model
model = YOLO("yolov9c.pt")

# Run inference on a local image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Flexibilidad de exportación

Los modelos YOLOv9 entrenados con Ultralytics pueden exportarse fácilmente a formatos como TensorRT, OpenVINOy CoreML para una máxima flexibilidad de despliegue.

Conclusión y recomendaciones

Mientras que YOLOX desempeñó un papel fundamental en el avance de la detección sin anclaje, YOLOv9 es la mejor opción para el desarrollo actual. Su innovadora arquitectura PGI y GELAN ofrece una mayor precisión con menos parámetros, lo que resuelve el problema del cuello de botella de información que limitaba las redes profundas anteriores.

A los desarrolladores que busquen lo último en prestaciones y características, les recomendamos que exploren también YOLO11que perfecciona aún más estos conceptos para aumentar la velocidad y la versatilidad en múltiples tareas de visión. Sin embargo, en comparación directa con YOLOX, YOLOv9 ofrece una atractiva ruta de actualización que reduce la sobrecarga computacional al tiempo que aumenta la fiabilidad de la detección.

Explorar Otros Modelos

Amplíe sus conocimientos comparando otros modelos de primer nivel del ecosistema Ultralytics :


Comentarios