YOLOv7 vs. YOLOX: comparación técnica detallada
En el panorama en rápida evolución de la visión por ordenador, la familia de modelos YOLO (You Only Look Once) ha establecido sistemáticamente el estándar para la detección de objetos en tiempo real. Dos hitos significativos en esta historia son YOLOv7 y YOLOX. Aunque ambos modelos pretenden equilibrar velocidad y precisión, difieren significativamente en sus filosofías arquitectónicas, especialmente en lo que respecta a las metodologías basadas en anclajes frente a las libres de anclajes.
Esta guía ofrece una comparación técnica en profundidad para ayudar a investigadores e ingenieros a seleccionar la herramienta adecuada para sus aplicaciones específicas de visión por ordenador. Analizaremos sus arquitecturas, compararemos su rendimiento y exploraremos por qué alternativas modernas como Ultralytics YOLO11 ofrecen a menudo una experiencia de desarrollo superior.
Métricas de rendimiento: Velocidad y precisión
Al evaluar los detectores de objetos, el equilibrio entre la latencia de la inferencia y la precisión mediamAP) es primordial. La tabla siguiente presenta una comparación directa entre las variantes YOLOv7 y YOLOX en el conjunto de datosCOCO .
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Análisis de los resultados
Los datos ponen de relieve las distintas ventajas de cada familia de modelos en función de las limitaciones de despliegue. YOLOv7 demuestra una eficiencia excepcional en el segmento de alto rendimiento. Por ejemplo, YOLOv7l alcanza un 51,4% de mAP con sólo 36,9 millones de parámetros, superando a YOLOXx (51,1% de mAP, 99,1 millones de parámetros) y utilizando muchos menos recursos computacionales. Esto convierte a YOLOv7 en un firme candidato para escenarios en los que la eficiencia deGPU es crítica pero la memoria es limitada.
Por el contrario, YOLOX brilla en la categoría de ligereza. El modelo YOLOX-Nano (0,91 millones de parámetros) ofrece una solución viable para dispositivos de borde de consumo ultrabajo en los que incluso los modelos YOLO estándar más pequeños podrían resultar demasiado pesados. Sus multiplicadores de profundidad-anchura escalables permiten un ajuste preciso en una amplia gama de perfiles de hardware.
YOLOv7: Bolsa de regalos optimizada
Lanzado en julio de 2022, YOLOv7 introdujo varias innovaciones arquitectónicas diseñadas para optimizar el proceso de formación sin incurrir en costes de inferencia.
- Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
- Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
- Fecha: 2022-07-06
- Artículo:Enlace Arxiv
- GitHub:RepositorioYOLOv7
Aspectos arquitectónicos destacados
YOLOv7 se centra en métodos de optimización "entrenables bag-of-freebies" que mejoran la precisión durante el entrenamiento pero se eliminan o fusionan durante la inferencia. Entre sus principales características se incluyen:
- E-ELAN (Red de Agregación de Capas Eficiente Ampliada): Una estructura troncal mejorada que aumenta la capacidad del modelo para aprender diversas características mediante el control de los caminos de gradiente más corto y más largo.
- Escalado de modelos: En lugar de limitarse a escalar la profundidad o la anchura, YOLOv7 utiliza un método de escalado compuesto para los modelos basados en concatenación, manteniendo una estructura óptima durante el escalado ascendente.
- Cabezal auxiliar de grueso a fino: durante el entrenamiento se utiliza un cabezal de pérdida auxiliar para ayudar a la supervisión, que luego se vuelve a parametrizar en el cabezal principal para la inferencia.
Reparametrización
YOLOv7 utiliza la re-parametrización planificada, en la que distintos módulos de entrenamiento se fusionan matemáticamente en una única capa convolucional para la inferencia. Esto reduce significativamente la latencia de la inferencia sin sacrificar la capacidad de aprendizaje de características obtenida durante el entrenamiento.
YOLOX: la evolución sin anclajes
YOLOX, lanzado en 2021, representó un cambio en el paradigma YOLO al alejarse de las cajas de anclaje y acercarse a un mecanismo sin anclaje, similar a los enfoques de segmentación semántica.
- Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, y Jian Sun
- Organización: Megvii
- Fecha: 2021-07-18
- Artículo:Enlace Arxiv
- GitHub:Repositorio YOLOX
Más información sobre la comparación de YOLOX
Aspectos arquitectónicos destacados
YOLOX ha simplificado el proceso de detección eliminando la necesidad de ajustar manualmente las cajas de anclaje, que era un problema habitual en versiones anteriores como YOLOv4 y YOLOv5.
- Mecanismo sin anclajes: Al predecir directamente el centro de los objetos, YOLOX elimina los complejos hiperparámetros asociados a los anclajes, lo que mejora la generalización en diversos conjuntos de datos.
- Cabezal desacoplado: a diferencia de las versiones anteriores YOLO , que acoplaban la clasificación y la localización en un cabezal, YOLOX las separa. Esto permite una convergencia más rápida y una mayor precisión.
- SimOTA: estrategia avanzada de asignación de etiquetas que asigna dinámicamente muestras positivas a la verdad sobre el terreno con el menor coste, equilibrando eficazmente las pérdidas por clasificación y regresión.
Por qué los modelos Ultralytics son la opción preferida
Aunque YOLOv7 y YOLOX difieren en su arquitectura, ambos son superados en usabilidad y soporte del ecosistema por los modernos modelosYOLO Ultralytics . Para los desarrolladores que buscan una solución sólida y preparada para el futuro, la transición a YOLO11 ofrece claras ventajas.
1. Ecosistema unificado y facilidad de uso
YOLOv7 y YOLOX a menudo requieren clonar repositorios específicos de GitHub, gestionar complejos requisitos de dependencia y utilizar formatos dispares para los datos. En cambio, Ultralytics ofrece un paquete instalable mediante pip que unifica todas las tareas.
from ultralytics import YOLO
# Load a model (YOLO11n recommended for speed)
model = YOLO("yolo11n.pt")
# Train on a custom dataset with a single line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
2. Equilibrio de rendimiento superior
Como ilustran las pruebas comparativas, los modelos modernos Ultralytics logran un mejor equilibrio entre velocidad y precisión. YOLO11 utiliza una arquitectura optimizada sin anclajes que aprende de los avances de YOLOX (diseño sin anclajes) y YOLOv7 (optimización de la trayectoria del gradiente). Esto da como resultado modelos que no solo son más rápidos en la inferencia deCPU , sino que también requieren menos memoria CUDA durante el entrenamiento, lo que los hace accesibles en una gama más amplia de hardware.
3. Versatilidad entre tareas
YOLOv7 y YOLOX están diseñados principalmente para la detección de objetos. Los modelos Ultralytics amplían esta capacidad de forma nativa a un conjunto de tareas de visión por ordenador sin cambiar la API:
- Segmentación de instancias: Comprensión de objetos a nivel de píxel.
- Estimación de la pose: Detección de puntos clave en cuerpos humanos.
- Detección de objetos orientados (OBB): Detección de objetos girados (por ejemplo, imágenes aéreas).
- Clasificación: Asignación de una etiqueta de clase a toda una imagen.
4. Despliegue sin fisuras y MLOps
Llevar un modelo de la investigación a la producción es todo un reto con marcos de trabajo antiguos. El ecosistema Ultralytics incluye modos de exportación integrados para ONNX, TensorRT, CoreML y OpenVINO, lo que simplifica el despliegue de modelos. Además, las integraciones con Ultralytics HUB permiten la gestión de conjuntos de datos basada en web, la formación remota y el despliegue en dispositivos periféricos con un solo clic.
Conclusión
Tanto YOLOv7 como YOLOX han realizado importantes aportaciones al campo de la visión por ordenador. YOLOv7 optimizó la arquitectura para obtener el máximo rendimiento en dispositivos GPU , maximizando la eficiencia del enfoque "bag-of-freebies". YOLOX demostró con éxito la viabilidad de la detección sin anclajes, simplificando el proceso y mejorando la generalización.
Sin embargo, para los flujos de trabajo de desarrollo modernos, Ultralytics YOLO11 destaca como la mejor opción. Combina los puntos fuertes arquitectónicos de sus predecesores con una APIPython inigualable, menores requisitos de memoria y compatibilidad con una amplia gama de tareas de visión. Ya se trate de una implantación en un dispositivo periférico o en un servidor en la nube, la comunidad activa y la amplia documentación del ecosistema de Ultralytics garantizan un camino más sencillo hacia la producción.
Explorar Otros Modelos
Si le interesan más comparaciones técnicas, explore estos recursos:
- YOLOv8 vs. YOLOv8: Un vistazo al salto generacional en rendimiento.
- RT-DETR frente a YOLOv7: comparación de transformadores con CNN.
- YOLO11 frente a YOLOv10: los últimos avances en detección en tiempo real.