YOLOX frente a YOLOv9: comparación técnica
Elegir la arquitectura adecuada para la detección de objetos es una decisión crítica que repercute en la velocidad, la precisión y la viabilidad de despliegue de los proyectos de visión por ordenador. Este análisis compara YOLOX, un modelo fundamental sin anclaje lanzado en 2021, y YOLOv9una arquitectura de vanguardia introducida en 2024 que aprovecha la información de gradiente programable (PGI).
Mientras que YOLOX cambió el paradigma hacia la detección sin anclajes, YOLOv9 introduce mecanismos novedosos para retener información en redes profundas, ofreciendo métricas de rendimiento superiores. Esta guía desglosa sus arquitecturas, pruebas comparativas y casos de uso ideales para ayudarle a seleccionar el mejor modelo para sus necesidades.
YOLOX: el pionero sin anclajes
YOLOX se lanzó para salvar la distancia entre la comunidad investigadora y las aplicaciones industriales simplificando el cabezal de detección y eliminando la dependencia de las cajas de anclaje predefinidas.
Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun
Organización:Megvii
Fecha: 2021-07-18
Arxiv:arXiv:2107.08430
GitHub:Megvii-BaseDetection/YOLOX
Docs:Documentación YOLOX
Arquitectura destacada
YOLOX introdujo una arquitectura de cabeza desacoplada, separando las tareas de clasificación y regresión. Esta separación permite al modelo converger más rápidamente y lograr una mayor precisión. También emplea un mecanismo sin anclaje, que elimina la necesidad de análisis de agrupación para determinar los tamaños óptimos de las cajas de anclaje, lo que hace que el modelo sea más robusto frente a formas de objeto variadas. Además, YOLOX utiliza SimOTA para la asignación de etiquetas, tratando el proceso como un problema de transporte óptimo para mejorar la estabilidad del entrenamiento.
Fortalezas y Debilidades
- Puntos fuertes: El diseño sin anclajes simplifica el proceso de ajuste de hiperparámetros. El cabezal desacoplado suele ofrecer mayor precisión en tareas de localización que los cabezales acoplados de la época.
- Puntos débiles: Como modelo de 2021, carece de las optimizaciones modernas que se encuentran en arquitecturas más recientes. Puede requerir más datos de entrenamiento para alcanzar el máximo rendimiento en comparación con los modelos que utilizan técnicas avanzadas de aumento de datos y agregación de capas.
YOLOv9: Información de gradiente programable
YOLOv9 representa un avance significativo, ya que aborda el problema del "cuello de botella informativo" inherente a las redes neuronales profundas.
Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organización:Instituto de Ciencias de la Información, Academia Sinica
Fecha: 2024-02-21
Arxiv:arXiv:2402.13616
GitHub:WongKinYiu/yolov9
Docs:Ultralytics YOLOv9 Docs
Arquitectura destacada
YOLOv9 introduce la Información de Gradiente Programable (PGI ) y la Red de Agregación de Capas Eficiente Generalizada (GELAN). PGI evita la pérdida de información de entrada crucial a medida que los datos pasan por capas profundas, garantizando una generación de gradiente fiable para las actualizaciones del modelo. GELAN optimiza la utilización de parámetros, lo que permite que el modelo sea ligero pero preciso. Estas innovaciones permiten a YOLOv9 superar significativamente a sus predecesores tanto en eficiencia como en precisión media (mAP).
Fortalezas y Debilidades
- Puntos fuertes: Excepcional relación precisión-parámetro, lo que la hace muy eficaz para aplicaciones en tiempo real. La arquitectura preserva mejor el flujo de información que las iteraciones anteriores, lo que permite detectar mejor los objetos pequeños.
- Puntos débiles: Al ser una arquitectura más reciente, puede requerir controladores CUDA actualizados y soporte de hardware en comparación con los modelos heredados.
Comparación de rendimiento
La siguiente tabla contrasta el rendimiento de YOLOX y YOLOv9 en el conjunto de datosCOCO . YOLOv9 muestra sistemáticamente puntuaciones mAP más altas con menos parámetros, lo que pone de relieve la eficiencia de la arquitectura GELAN.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Análisis: YOLOv9 proporciona una mejora sustancial en la densidad de rendimiento. Por ejemplo, YOLOv9c logra un 53,0% de mAP con sólo 25,3M de parámetros, mientras que YOLOX-L requiere 54,2M de parámetros para lograr una puntuación inferior del 49,7% de mAP. Esto indica que YOLOv9 es aproximadamente el doble de eficiente en términos de uso de parámetros para este nivel de precisión.
La eficiencia importa
Cuando se despliega en dispositivos periféricos, los FLOP y los parámetros son tan importantes como mAP. La arquitectura GELAN de YOLOv9 reduce significativamente la sobrecarga computacional, lo que se traduce en dispositivos que funcionan a menor temperatura y una mayor duración de la batería en despliegues móviles.
La ventaja Ultralytics
Aunque YOLOX es un sólido repositorio independiente, la utilización de YOLOv9 dentro del ecosistemaUltralytics ofrece claras ventajas a desarrolladores e investigadores.
Facilidad de uso e integración
El marco Ultralytics unifica la interacción entre modelos. Puede entrenar, validar y desplegar YOLOv9 utilizando una APIPython sencilla e intuitiva. Esto contrasta con el código base de YOLOX, que a menudo requiere una configuración más manual de las variables de entorno y las rutas de los conjuntos de datos.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Train the model on a custom dataset with a single line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Ecosistema bien mantenido
Los modelos de Ultralytics se benefician de actualizaciones continuas, correcciones de errores y soporte de la comunidad. La integración con Ultralytics HUB permite MLOps sin problemas, lo que permite a los equipos gestionar conjuntos de datos, track los experimentos y desplegar modelos en varios formatosONNX, TensorRT, CoreML) sin necesidad de escribir complejos scripts de exportación.
Equilibrio de rendimiento y eficiencia de la memoria
Los modelosYOLO Ultralytics están diseñados para lograr un equilibrio práctico entre velocidad y precisión. Además, suelen requerir menos memoria durante el entrenamiento que las arquitecturas más antiguas o los modelos basados en transformadores pesados. Esta eficiencia reduce los costes de computación en la nube y hace que el entrenamiento sea accesible en GPU de consumo.
Versatilidad
Aunque YOLOX es principalmente un detector de objetos, el marco Ultralytics amplía las capacidades de sus modelos compatibles. Los usuarios pueden cambiar fácilmente entre tareas como la segmentación de instancias, la estimación de poses y la detección de recuadros delimitadores orientados (OBB ) utilizando una sintaxis y unos flujos de trabajo similares, una versatilidad de la que suelen carecer los repositorios de investigación independientes.
Casos de Uso Ideales
Cuándo elegir YOLOv9
- Sistemas autónomos: La gran precisión de YOLOv9 es ideal para vehículos autónomos en los que la detección de pequeños obstáculos a distancia es fundamental para la seguridad.
- Análisis en tiempo real: Para el comercio minorista o la gestión del tráfico, YOLOv9c ofrece el punto óptimo de altas frecuencias de imagen y detección precisa.
- Edge AI: la eficiencia arquitectónica de GELAN hace que YOLOv9t y YOLOv9s sean perfectos para su implantación en dispositivos como NVIDIA Jetson o Raspberry Pi.
Cuándo elegir YOLOX
- Integración heredada: Si una cadena de producción existente ya está fuertemente diseñada en torno al formato específico de cabeza sin anclaje de YOLOX.
- Investigación académica: Los investigadores que estudian específicamente el comportamiento de las cabezas desacopladas en los primeros detectores sin anclaje pueden encontrar en YOLOX una valiosa base de comparación.
Conclusión
Ambas arquitecturas se han ganado un lugar en la historia de la visión por ordenador. YOLOX desafió con éxito el statu quo basado en anclas en 2021. Sin embargo, YOLOv9 representa el estándar moderno, ya que incorpora años de avances en la optimización del flujo de gradiente y la agregación de capas.
Para la mayoría de los nuevos desarrollos, YOLOv9 es la opción recomendada. Su rendimiento superior por parámetro, combinado con la facilidad de uso, la eficiencia de la formación y las sólidas opciones de despliegue que ofrece el ecosistema Ultralytics , garantizan un camino más rápido desde el concepto hasta la producción.
Explore otras opciones modernas del ecosistema, como YOLO11 y YOLOv8para encontrar la que mejor se adapte a las limitaciones específicas de su aplicación.