YOLOX vs. YOLOv7: comparación técnica detallada
Navegar por el panorama de los modelos de detección de objetos requiere un profundo conocimiento de los matices arquitectónicos y las compensaciones de rendimiento. Esta guía ofrece una comparación técnica exhaustiva entre YOLOX y YOLOv7dos arquitecturas influyentes que han marcado de forma significativa el campo de la visión por ordenador. Exploramos sus innovaciones estructurales, métricas de referencia y aplicaciones prácticas para ayudarle a determinar cuál es la mejor opción para sus proyectos. Aunque ambos modelos representaron avances de vanguardia en sus respectivos lanzamientos, los desarrolladores modernos suelen recurrir al ecosistemaUltralytics para obtener flujos de trabajo unificados y un rendimiento de vanguardia.
Cara a cara de rendimiento
A la hora de seleccionar un modelo, el equilibrio entre la precisión mediamAP) y la latencia de la inferencia suele ser el factor decisivo. YOLOX ofrece una familia de modelos altamente escalable que va de Nano a X, haciendo hincapié en la simplicidad a través de su diseño sin anclajes. Por el contrario, YOLOv7 se centra en maximizar la relación entre velocidad y precisión para aplicaciones en tiempo real utilizando optimizaciones arquitectónicas avanzadas.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Los datos ilustran distintos puntos fuertes. El YOLOXnano es increíblemente ligero, por lo que resulta ideal para entornos con recursos muy limitados. Sin embargo, para escenarios de alto rendimiento, YOLOv7x demuestra una precisión (53,1% de mAP) y una eficiencia superiores, ya que ofrece una mayor precisión que YOLOXx con un número significativamente menor de operaciones en coma flotante (FLOPs) y tiempos de inferencia más rápidos en GPUs T4.
YOLOX: Simplicidad a través del diseño sin anclajes
YOLOX supuso un cambio de paradigma en la serie YOLO al descartar el mecanismo basado en anclajes en favor de un enfoque sin anclajes. Esta elección de diseño simplifica el proceso de entrenamiento y elimina la necesidad de ajustar manualmente las cajas de anclaje, lo que a menudo requiere una optimización heurística específica del dominio.
- Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, y Jian Sun
- Organización:Megvii
- Fecha: 2021-07-18
- Arxiv:https://arxiv.org/abs/2107.08430
- GitHub:https://github.com/Megvii-BaseDetection/YOLOX
Arquitectura e Innovaciones Clave
YOLOX integra una estructura de cabeza desacoplada que separa las tareas de clasificación y regresión. Esta separación permite al modelo aprender características distintas para reconocer qué es un objeto y dónde se encuentra, lo que conduce a una convergencia más rápida y una mayor precisión. Además, YOLOX emplea SimOTA, una estrategia avanzada de asignación de etiquetas que empareja dinámicamente las muestras positivas con los objetos reales, lo que mejora la solidez del modelo en escenas abarrotadas.
Sin anclaje vs. Basado en anclaje
Los modelos YOLO tradicionales (anteriores a YOLOX) utilizaban "cajas de anclaje" predefinidas para predecir las dimensiones de los objetos. El método sin anclajes de YOLOX predice los recuadros delimitadores directamente a partir de las ubicaciones de los píxeles, lo que reduce el número de hiperparámetros y hace que el modelo sea más generalizable a diversos conjuntos de datos.
Casos prácticos y limitaciones
YOLOX destaca en situaciones en las que es necesario agilizar el despliegue de modelos en diversas plataformas de hardware sin necesidad de realizar un ajuste exhaustivo de los hiperparámetros. Sus variantes ligeras (Nano/Tiny) son populares para aplicaciones móviles. Sin embargo, su rendimiento máximo a mayor escala ha sido superado por arquitecturas más recientes como YOLOv7 y YOLO11que utilizan redes de agregación de características más complejas.
YOLOv7: La "bolsa de regalos" más potente
Lanzado un año después de YOLOX, YOLOv7 introdujo un conjunto de reformas arquitectónicas destinadas a optimizar el proceso de entrenamiento para mejorar los resultados de inferencia exclusivamente a través de "bag-of-freebies entrenables".
- Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
- Organización: Instituto de Ciencias de la Información, Academia Sinica
- Fecha: 2022-07-06
- Arxiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7
Arquitectura e Innovaciones Clave
El núcleo de YOLOv7 es la Red de Agregación de Capas Eficiente Ampliada (E-ELAN). Esta arquitectura permite a la red aprender características más diversas controlando las rutas de gradiente más cortas y más largas, lo que garantiza una convergencia eficaz para redes muy profundas. Además, YOLOv7 utiliza técnicas de escalado de modelos diseñadas específicamente para modelos basados en la concatenación, lo que garantiza que el aumento de la profundidad y la anchura del modelo se traduce linealmente en un aumento del rendimiento sin disminución de los rendimientos.
YOLOv7 también emplea eficazmente cabezales auxiliares durante el entrenamiento para proporcionar una supervisión de grueso a fino, una técnica que mejora la precisión del cabezal de detección principal sin añadir costes computacionales durante el despliegue.
Casos prácticos y limitaciones
Gracias a su excepcional relación velocidad-precisión, YOLOv7 es uno de los mejores competidores para el análisis de vídeo en tiempo real y las tareas de edge computing en las que cada milisegundo cuenta. Ha superado los límites de lo que era posible con hardware de GPU estándar (como la V100 y la T4). Sin embargo, la complejidad de su arquitectura puede dificultar su modificación o ajuste para tareas personalizadas ajenas a la detección de objetos estándar.
La ventaja Ultralytics : ¿Por qué modernizar?
Aunque YOLOX y YOLOv7 siguen siendo herramientas capaces, el campo de la visión por ordenador avanza rápidamente. Los desarrolladores e investigadores modernos prefieren cada vez más el ecosistemaUltralytics con modelos como YOLO11 y YOLOv8 debido a su amplio soporte, diseño unificado y facilidad de uso.
Experiencia optimizada para desarrolladores
Uno de los mayores obstáculos de los modelos antiguos es la fragmentación de las bases de código. Ultralytics resuelve este problema proporcionando una API y una CLI Python unificadas que funcionan de forma coherente en todas las versiones del modelo. Puede cambiar entre detectar, segmentar o clasificar con una sola línea de código.
from ultralytics import YOLO
# Load a model (YOLO11 or YOLOv8)
model = YOLO("yolo11n.pt") # or "yolov8n.pt"
# Run inference on an image
results = model("path/to/image.jpg")
# Export to ONNX for deployment
model.export(format="onnx")
Principales ventajas de los modelos Ultralytics
- Versatilidad: A diferencia de YOLOX y YOLOv7, que se centran principalmente en la detección, los modelos de Ultralytics admiten la segmentación de instancias, la estimación de poses, la clasificación y la detección de objetos orientados (OBB) de forma inmediata.
- Ecosistema bien mantenido: Las actualizaciones frecuentes garantizan la compatibilidad con las últimas versiones de PyTorch, CUDA y Python. La comunidad activa y la documentación detallada reducen el tiempo dedicado a depurar problemas del entorno.
- Equilibrio de prestaciones: Los modelos como YOLO11 representan lo último en tecnología, ofreciendo una precisión superior y una latencia menor que YOLOX y YOLOv7. Están optimizados para la inferencia en tiempo real en hardware diverso, desde dispositivos periféricos hasta servidores en la nube.
- Eficiencia de la formación: Los modelos Ultralytics están diseñados para converger más rápidamente, ahorrando valiosas horas de GPU . Los pesos preentrenados están disponibles para una gran variedad de tareas, lo que facilita el aprendizaje por transferencia.
- Requisitos de memoria: Estos modelos están diseñados para ser eficientes, y suelen requerir menos VRAM durante el entrenamiento y la inferencia en comparación con las alternativas basadas en transformadores (como RT-DETR), lo que los hace accesibles en hardware de consumo.
Conclusión
Tanto YOLOX como YOLOv7 se han ganado un lugar en la historia de la visión por ordenador. YOLOX democratizó el enfoque sin anclaje, ofreciendo una canalización simplificada que es fácil de entender e implantar en dispositivos pequeños. YOLOv7 superó los límites del rendimiento, demostrando que un diseño arquitectónico eficiente podía generar enormes ganancias en velocidad y precisión.
Sin embargo, para aquellos que construyen sistemas de IA de nivel de producción hoy en día, la recomendación se inclina en gran medida hacia el producto Ultralytics YOLO de Ultralytics. Con YOLO11tendrá acceso a una plataforma versátil, robusta y fácil de usar que gestiona las complejidades de MLOps, permitiéndole centrarse en resolver problemas del mundo real.
Explorar otras comparaciones
Para informarse mejor sobre la selección del modelo, considere la posibilidad de explorar estas comparaciones relacionadas: