YOLOv9 YOLOX: evolución arquitectónica y comparación técnica
Este análisis detallado compara YOLOv9, conocido por su innovadora información de gradiente programable (PGI), con YOLOX, un detector de objetos sin anclajes pionero. Exploramos sus diferencias arquitectónicas, métricas de rendimiento y escenarios de implementación ideales para ayudarle a elegir el modelo adecuado para sus proyectos de visión artificial.
Comparación de métricas de rendimiento
La siguiente tabla compara los indicadores clave de rendimiento. YOLOv9 muestra en general ratios de precisión-computación superiores, especialmente en sus variantes más pequeñas, que son cruciales para la implementación en el borde.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
YOLOv9: Información de Gradiente Programable
YOLOv9, lanzado en febrero de 2024 por investigadores de Academia Sinica, introduce importantes innovaciones arquitectónicas destinadas a resolver el problema del «cuello de botella de la información» en las redes neuronales profundas.
Innovaciones arquitectónicas clave
- Información de gradiente programable (PGI): PGI es un marco de supervisión auxiliar que genera gradientes fiables para actualizar los parámetros de la red. Garantiza que no se pierda información semántica crítica a medida que los datos pasan por capas profundas, un problema habitual en los modelos ligeros.
- Arquitectura GELAN: La red de agregación de capas eficiente generalizada (GELAN) combina los mejores aspectos de CSPNet y ELAN. Da prioridad a la eficiencia de los parámetros y la velocidad de inferencia, lo que permite YOLOv9 una mayor precisión con menos FLOP en comparación con sus predecesores.
- Versatilidad: a diferencia de las versiones anteriores, que se limitaban a la detección, YOLOv9 admite YOLOv9 la segmentación de instancias y la segmentación panóptica, lo que lo convierte en una opción versátil para tareas de visión complejas.
Autores y enlaces
- Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
- Organización:Institute of Information Science, Academia Sinica
- Fecha: 2024-02-21
- Arxiv:2402.13616
- GitHub:WongKinYiu/yolov9
Formación optimizada con Ultralytics
YOLOv9 totalmente integrado en el Ultralytics . Puede entrenar un modelo con datos personalizados con una configuración mínima, aprovechando funciones avanzadas como la precisión mixta automática yGPU .
from ultralytics import YOLO
# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
YOLOX: El pionero sin anclajes
YOLOX, lanzado en 2021 por Megvii, fue un modelo transformador que cambió el YOLO hacia un diseño sin anclajes. Simplificó el proceso de entrenamiento y mejoró el rendimiento al desacoplar el cabezal de detección.
Características arquitectónicas clave
- Mecanismo sin anclajes: al eliminar los cuadros de anclaje predefinidos, YOLOX elimina la necesidad de ajustar manualmente los anclajes (agrupación) y reduce la complejidad del cabezal de detección.
- Cabezal desacoplado: YOLOX separa las tareas de clasificación y regresión en diferentes ramas. Este desacoplamiento resuelve el conflicto entre estas dos tareas, lo que conduce a una convergencia más rápida y una mayor precisión.
- Asignación de etiquetas SimOTA: YOLOX utiliza SimOTA (Simplified Optimal Transport Assignment), una estrategia dinámica de asignación de etiquetas que compara automáticamente los objetos reales con las predicciones basándose en una perspectiva de optimización global.
Autores y enlaces
- Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
- Organización:Megvii
- Fecha: 2021-07-18
- Arxiv:2107.08430
- GitHub:Megvii-BaseDetection/YOLOX
Análisis Comparativo
Facilidad de uso y ecosistema
Uno de los diferenciadores más importantes es el ecosistema. YOLOv9, como parte del Ultralytics , ofrece una experiencia unificada y fácil de usar. Los desarrolladores se benefician de:
- API coherente: tanto si utiliza YOLOv9, YOLO11 o YOLO26, los comandos para el entrenamiento, la validación y la inferencia siguen siendo idénticos.
- Documentación completa: Ultralytics guías exhaustivas sobre el ajuste de hiperparámetros, la exportación de modelos y las estrategias de implementación.
- Mantenimiento activo: las actualizaciones frecuentes garantizan la compatibilidad con la última versión de PyTorch y CUDA .
Por el contrario, YOLOX suele requerir una configuración más manual que implica clonar el repositorio y gestionar dependencias específicas, lo que puede suponer un obstáculo para la creación rápida de prototipos.
Rendimiento y eficiencia
- Precisión: YOLOv9 supera a YOLOX en mAP modelos de tamaños comparables. Por ejemplo, YOLOv9m alcanza un 51,4 % mAP en comparación con el 46,9 % de YOLOX-m, a pesar de tener menos parámetros (20,0 millones frente a 25,3 millones).
- Velocidad de inferencia: aunque YOLOX supuso un gran avance en cuanto a velocidad en 2021, las arquitecturas modernas como GELAN en YOLOv9 aumentado aún más la eficiencia. YOLOv9t funciona a 2,3 ms en una GPU T4, lo que lo hace muy adecuado para aplicaciones en tiempo real.
- Eficiencia de memoria: Ultralytics están optimizados para reducir el uso GPU durante el entrenamiento. Esto permite a los investigadores entrenar lotes más grandes o modelos más complejos en hardware de consumo en comparación con arquitecturas más antiguas o modelos basados en transformadores como RT-DETR.
Casos de uso
- Elija YOLOv9 : necesita una precisión de vanguardia, requiere compatibilidad con la segmentación o desea el proceso de implementación más sencillo posible a través de la Ultralytics . Destaca en la inspección industrial y los sistemas autónomos.
- Elija YOLOX si: mantiene sistemas heredados basados en el código fuente de YOLOX o necesita el comportamiento específico de su cabezal sin anclaje para realizar comparaciones de investigación.
Perspectivas Futuras: El Poder de YOLO26
Aunque YOLOv9 una excelente opción, el campo de la visión artificial evoluciona rápidamente. La recién lanzada YOLO26 se basa en los puntos fuertes de sus predecesoras para ofrecer la solución definitiva centrada en el borde.
YOLO26 presenta varias características revolucionarias:
- NMS de extremo a extremo: al eliminar la supresión no máxima (NMS), YOLO26 simplifica la implementación y reduce la variabilidad de la latencia, un concepto introducido por primera vez en YOLOv10.
- Optimizador MuSGD: inspirado en el entrenamiento LLM, este optimizador híbrido garantiza una convergencia estable y es robusto en distintos tamaños de lotes.
- ProgLoss + STAL: estas funciones de pérdida avanzadas mejoran significativamente la detección de objetos pequeños, lo que hace que YOLO26 sea ideal para imágenes aéreas y aplicaciones con drones.
- CPU un 43 % más rápida: con la eliminación de la pérdida focal de distribución (DFL), YOLO26 está optimizado específicamente para dispositivos periféricos CPU, como Raspberry Pi.
Ejecutar YOLO26 en Python
Experimenta la velocidad de la última generación con solo unas pocas líneas de código:
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
Conclusión
Tanto YOLOv9 YOLOX han realizado importantes contribuciones a la detección de objetos. YOLOX popularizó la detección sin anclajes, simplificando el espacio de diseño para futuros modelos. Sin embargo, YOLOv9 aprovecha los avances arquitectónicos modernos, como PGI y GELAN, para ofrecer una precisión y una eficiencia superiores.
Para los desarrolladores que buscan el mejor equilibrio entre rendimiento, facilidad de uso y garantía de futuro, Ultralytics como YOLOv9 y el innovador YOLO26 son las opciones recomendadas. Proporcionan una plataforma robusta para abordar diversos retos, desde imágenes médicas hasta la supervisión de ciudades inteligentes.
Modelos relevantes
Si estás explorando arquitecturas de detección de objetos, también te puede interesar:
- YOLO11: Un potente predecesor de YOLO26 conocido por su solidez.
- RT-DETR: Detector basado en transformadores que ofrece una alta precisión, pero con mayores exigencias de recursos.
- YOLOv8: Un modelo muy popular que introdujo un marco unificado para la detección, la segmentación y la pose.