YOLOX frente a YOLOv9: evolución de la detección de objetos de alto rendimiento
En el campo de la visión artificial, que avanza rápidamente, seleccionar el modelo de detección de objetos adecuado es fundamental para equilibrar la precisión, la velocidad y la complejidad de la implementación. Esta comparación explora dos hitos importantes en la YOLO : YOLOX, un robusto detector sin anclajes lanzado en 2021, y YOLOv9, una arquitectura de 2024 que introduce la información de gradiente programable (PGI) para una retención de características superior.
YOLOX: El pionero sin anclajes
YOLOX supuso un cambio importante en la YOLO al pasar de mecanismos basados en anclajes a un diseño sin anclajes. Esta simplificación eliminó la necesidad de ajustar manualmente el cuadro de anclajes, lo que hizo que el modelo se adaptara mejor a diversos conjuntos de datos y relaciones de aspecto. Al incorporar un cabezal desacoplado y la avanzada estrategia de asignación de etiquetas SimOTA, YOLOX logró resultados de vanguardia tras su lanzamiento, lo que redujo la brecha entre la investigación académica y la aplicación industrial.
- Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, y Jian Sun
- Organización:Megvii
- Fecha: 2021-07-18
- Arxiv:YOLOX: Superando la serie YOLO en 2021
- GitHub:Megvii-BaseDetection/YOLOX
Características arquitectónicas clave
- Mecanismo sin anclajes: elimina la complejidad de la agrupación de cajas de anclaje, reduciendo el número de parámetros de diseño y mejorando la generalización.
- Cabezal desacoplado: Separa las tareas de clasificación y regresión en diferentes ramas, resolviendo el conflicto entre estos dos objetivos y mejorando la velocidad de convergencia.
- Asignación de etiquetas SimOTA: una estrategia dinámica de asignación de etiquetas que considera el proceso de entrenamiento como un problema de transporte óptimo, asignando verdades fundamentales a las predicciones de manera más eficaz que IoU estáticos.
YOLOv9: Gradientes programables para el aprendizaje profundo
YOLOv9 aborda el problema fundamental de la pérdida de información en las redes neuronales profundas. A medida que las redes se vuelven más profundas, la información esencial sobre las características puede desaparecer durante la propagación hacia adelante. YOLOv9 la información de gradiente programable (PGI) y la red de agregación de capas eficiente generalizada (GELAN) para preservar los datos críticos en todas las capas de la red. Esto da como resultado mejoras significativas en la precisión de la detección, especialmente para los modelos ligeros, al tiempo que se mantiene una alta eficiencia.
- Autores: Chien-Yao Wang y Hong-Yuan Mark Liao
- Organización: Institute of Information Science, Academia Sinica
- Fecha: 2024-02-21
- Arxiv:YOLOv9: Aprendiendo lo que quieres aprender usando información de gradiente programable
- GitHub:WongKinYiu/yolov9
- Documentación:Documentación de Ultralytics YOLOv9
Características arquitectónicas clave
- Arquitectura GELAN: Combina los principios de diseño de CSPNet y ELAN para maximizar la eficiencia de los parámetros y la velocidad de cálculo, lo que permite que el modelo se ejecute eficazmente en diversos tipos de hardware.
- Información de gradiente programable (PGI): un marco de supervisión auxiliar que genera gradientes fiables para actualizar los pesos de la red, lo que garantiza que la rama principal aprenda características completas incluso en arquitecturas muy profundas.
- Funciones reversibles: mitiga el problema del cuello de botella de la información al garantizar que los datos se puedan reconstruir de manera eficaz, conservando la información semántica en todas las capas.
Comparación de rendimiento
Al evaluar estos modelos, YOLOv9 supera generalmente a YOLOX en términos de relación precisión-parámetro. Mientras que YOLOX-x alcanza un respetable 51,1 % mAP, el más reciente YOLOv9c lo supera con un 53,0 % mAP, utilizando significativamente menos parámetros (25,3 millones frente a 99,1 millones) y menos potencia computacional. Esta eficiencia convierte a YOLOv9 en YOLOv9 candidato más sólido para aplicaciones en tiempo real en las que los recursos de hardware son limitados, pero se requiere una alta precisión.
Sin embargo, YOLOX sigue siendo muy relevante para los dispositivos periféricos heredados. Su diseño más sencillo y sin anclajes puede resultar en ocasiones más fácil de optimizar para chipsets móviles específicos o arquitecturas NPU que pueden no ser totalmente compatibles con las complejas agregaciones de capas que se encuentran en modelos más nuevos como GELAN.
Métricas detalladas
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Destacado en eficiencia
Obsérvese que YOLOv9c alcanza una mayor precisión (53,0 % mAP) que el mayor YOLOX-x (51,1 % mAP) utilizando aproximadamente un 75 % menos de parámetros. Esto demuestra el rápido avance en la eficiencia arquitectónica durante los tres años transcurridos entre estos lanzamientos.
Entrenamiento y Facilidad de Uso con Ultralytics
Un factor diferenciador fundamental para los desarrolladores es el ecosistema que rodea al modelo. YOLOv9 está totalmente integrado en el Ultralytics , lo que proporciona una ventaja significativa en cuanto a usabilidad.
La ventaja de Ultralytics
El uso dePython Ultralytics le permite acceder a modelos de última generación con una sintaxis unificada. No es necesario clonar repositorios complejos ni compilar manualmente operadores C++, lo que a menudo supone un obstáculo en implementaciones de investigación originales como YOLOX.
from ultralytics import YOLO
# Load a model (YOLOv9c or the new YOLO26s)
model = YOLO("yolov9c.pt")
# Train on custom data in one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate performance
metrics = model.val()
Esta integración proporciona:
- Flujo de trabajo optimizado: cambia fácilmente entre las tareas de detección, segmentación y estimación de posturas.
- Eficiencia de memoria: Las canalizaciones Ultralytics están optimizadas para hardware de consumo, y suelen requerir menos GPU que las alternativas basadas en transformadores o los códigos de investigación no optimizados.
- Preparación para la implementación: Las funciones de exportación integradas le permiten convertir modelos entrenados a ONNX, TensorRT, CoreML y TFLite un solo comando.
Aplicaciones en el mundo real
La elección entre estos modelos depende de las limitaciones específicas de su implementación.
Análisis minorista de alta velocidad
Para entornos minoristas que requieren el reconocimiento de productos en tiempo real en dispositivos periféricos, YOLOv9 es a menudo la mejor opción. Su arquitectura GELAN permite un alto rendimiento en dispositivos como NVIDIA Orin Nano, lo que permite funciones como el pago automático o el análisis del stock en las estanterías sin un retraso significativo.
Implementación móvil heredada
En escenarios que involucran hardware móvil más antiguo o arquitecturas NPU específicas que favorecen patrones de convolución simples, YOLOX-Nano o YOLOX-Tiny podrían seguir siendo preferibles. Su diseño puro sin anclajes y sin bloques de agregación complejos a veces puede ser más fácil de cuantificar e implementar en microcontroladores muy restringidos o Android heredados.
Robótica autónoma
En aplicaciones robóticas en las que es fundamental maximizar la precisión para evitar colisiones, la retención superior de características de YOLOv9e proporciona un margen de seguridad que los modelos anteriores no pueden igualar. El marco PGI garantiza que los pequeños obstáculos no se pierdan en el proceso de extracción de características, lo cual es fundamental para la navegación en entornos desordenados.
El futuro: entra en YOLO26
Aunque YOLOv9 un rendimiento excepcional, el campo de la IA nunca se detiene. La recién lanzada YOLO26 se basa en estos fundamentos para ofrecer el equilibrio definitivo entre velocidad y precisión.
YOLO26 introduce un diseño nativo integral NMS, lo que elimina por completo la necesidad de supresión no máxima durante la inferencia. Esto da como resultado procesos de implementación mucho más sencillos y velocidades de ejecución más rápidas. Además, al eliminar la pérdida focal de distribución (DFL) y utilizar el novedoso optimizador MuSGD (un híbrido de SGD Muon), YOLO26 logra CPU hasta un 43 % más rápida en comparación con las generaciones anteriores, lo que lo convierte en la opción ideal para la computación periférica moderna.
Para los desarrolladores que buscan lo mejor de su clase, recomendamos evaluar YOLO26 para su próximo proyecto con el fin de aprovechar estos avances de vanguardia en visión artificial.
Modelos similares para explorar
- YOLO11: un potente predecesor de YOLO26 que ofrece una excelente versatilidad en diversas tareas de visión.
- RT-DETR: un detector basado en transformadores que también elimina NMS, ideal para situaciones en las que se prioriza la alta precisión sobre la velocidad de inferencia pura.
- YOLOv10: El primer YOLO en introducir el paradigma de entrenamiento NMS, que sirve de puente hacia la arquitectura moderna YOLO26.