Link to this sectionYOLOX frente a YOLOv7#
La evolución de la detección de objetos en tiempo real ha estado impulsada por continuos avances arquitectónicos. Dos hitos importantes en este viaje son YOLOX y YOLOv7. Lanzados con menos de un año de diferencia, ambos modelos introdujeron enfoques novedosos al paradigma estándar de detección de objetos, mejorando significativamente el equilibrio entre velocidad y precisión.
Esta página ofrece un análisis técnico detallado de YOLOX y YOLOv7, comparando sus arquitecturas, métricas de rendimiento y casos de uso ideales para ayudarte a elegir la herramienta adecuada para tus despliegues de visión artificial.
Link to this sectionYOLOX: Pionero en la detección sin anclas (anchor-free)#
Presentado por investigadores de Megvii en julio de 2021, YOLOX supuso un cambio importante al alejarse de los diseños tradicionales basados en anclas (anchors). Al cerrar la brecha entre la investigación académica y la aplicación industrial, YOLOX simplificó la cabecera de detección y mejoró el rendimiento general.
Detalles clave del modelo:
- Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun
- Organización: Megvii
- Fecha: 18-07-2021
- Artículo de investigación: arXiv:2107.08430
- Código fuente: Megvii YOLOX GitHub
- Documentación: Documentación de YOLOX en GitHub
Link to this sectionInnovaciones arquitectónicas#
YOLOX introdujo un enfoque sin anclas (anchor-free), lo que redujo drásticamente el número de parámetros de diseño y los ajustes heurísticos necesarios para conjuntos de datos personalizados. Implementó una cabecera desacoplada, separando las tareas de clasificación y regresión, lo que mejoró la velocidad de convergencia y la precisión. Además, YOLOX utilizó estrategias avanzadas de aumento de datos como MixUp y Mosaic para mejorar la robustez del modelo.
Al eliminar las cajas de anclaje, YOLOX reduce la sobrecarga computacional de calcular la intersección sobre unión (IoU) entre las predicciones y las verdades fundamentales (ground truths) durante el entrenamiento, lo que resulta en menores requisitos de memoria CUDA y tiempos de entrenamiento más rápidos.
Link to this sectionYOLOv7: Trainable Bag-of-Freebies#
Lanzado en julio de 2022 por investigadores del Instituto de Ciencias de la Información de la Academia Sinica, Taiwán, YOLOv7 amplió los límites de la detección de objetos en tiempo real. Introdujo el concepto de un "conjunto de herramientas gratuitas entrenables" (trainable bag-of-freebies), estableciendo nuevos puntos de referencia de vanguardia en el conjunto de datos MS COCO tras su lanzamiento.
Detalles clave del modelo:
- Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
- Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
- Fecha: 2022-07-06
- Artículo de investigación: arXiv:2207.02696
- Código fuente: WongKinYiu YOLOv7 GitHub
- Documentación: Ultralytics YOLOv7 Docs
Link to this sectionInnovaciones arquitectónicas#
La arquitectura de YOLOv7 está construida en torno a la Red de Agregación de Capas Eficientes Extendida (E-ELAN), que permite al modelo aprender características más diversas continuamente sin degradar la ruta del gradiente. Además, YOLOv7 utilizó técnicas de re-parametrización del modelo, lo que permite simplificar complejas redes de entrenamiento multirrama en redes de una sola ruta más rápidas durante la inferencia.
Link to this sectionComparación de rendimiento#
Al evaluar estos modelos para aplicaciones del mundo real, es crucial comprender su rendimiento a diferentes escalas. La siguiente tabla compara las métricas estándar para varios tamaños de YOLOX y YOLOv7.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Link to this sectionAnálisis#
- Precisión: YOLOv7 generalmente logra una mAP más alta en comparación con los modelos YOLOX equivalentes. Por ejemplo, YOLOv7x logra 53.1 mAP comparado con los 51.1 de YOLOXx.
- Velocidad: Aunque ambos modelos están altamente optimizados para la ejecución en GPU utilizando TensorRT, la arquitectura E-ELAN de YOLOv7 proporciona un rendimiento ligeramente mejor para aplicaciones de gama alta, aunque YOLOX mantiene una latencia excelente en dispositivos de borde (edge) más pequeños.
- Versatilidad: YOLOv7 amplió su repertorio más allá de las cajas delimitadoras proporcionando de forma nativa pesos para segmentación de instancias y estimación de poses, haciéndolo más versátil que el repositorio base de YOLOX.
Link to this sectionAplicaciones en el mundo real#
Elegir entre estos modelos suele depender de tu entorno de despliegue específico.
Link to this sectionComputación de borde e IoT#
Para dispositivos de borde restringidos como Raspberry Pi o procesadores móviles antiguos, YOLOX-Nano y YOLOX-Tiny son muy atractivos. Su recuento mínimo de parámetros y su naturaleza sin anclas los hacen más fáciles de desplegar en entornos de baja potencia para tareas como el seguimiento básico de movimiento o aplicaciones de timbre inteligente.
Link to this sectionAnalítica de video de alta fidelidad#
Para procesar transmisiones de alta resolución en detección de defectos industriales o monitoreo de tráfico denso, YOLOv7 es superior. Su robusta agregación de características le permite mantener una alta precisión incluso cuando los objetos están parcialmente ocluidos o varían mucho en escala.
Link to this sectionCasos de uso y recomendaciones#
Elegir entre YOLOX y YOLOv7 depende de los requisitos específicos de tu proyecto, las restricciones de despliegue y las preferencias de ecosistema.
Link to this sectionCuándo elegir YOLOX#
YOLOX es una opción sólida para:
- Investigación en detección sin anclas: Investigación académica que utiliza la arquitectura limpia y sin anclas de YOLOX como base para experimentar con nuevas cabeceras de detección o funciones de pérdida.
- Dispositivos de borde ultraligeros: Despliegue en microcontroladores o hardware móvil antiguo donde la huella extremadamente pequeña de la variante YOLOX-Nano (0.91M de parámetros) es crítica.
- Estudios de asignación de etiquetas SimOTA: Proyectos de investigación que investigan estrategias de asignación de etiquetas basadas en transporte óptimo y su impacto en la convergencia del entrenamiento.
Link to this sectionCuándo elegir YOLOv7#
YOLOv7 se recomienda para:
- Benchmarking académico: reproducir resultados de última generación de la era de 2022 o estudiar los efectos de las técnicas E-ELAN y bag-of-freebies entrenables.
- Investigación en reparametrización: investigar convoluciones reparametrizadas planificadas y estrategias de escalado de modelos compuestos.
- Procesos personalizados existentes: proyectos con flujos de trabajo altamente personalizados construidos en torno a la arquitectura específica de YOLOv7 que no se puedan refactorizar fácilmente.
Link to this sectionCuándo elegir Ultralytics (YOLO26)#
Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:
- Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
- Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
- Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.
Link to this sectionLa ventaja de Ultralytics#
Aunque tanto YOLOX como YOLOv7 son potentes implementaciones de investigación, pasar de un repositorio de investigación a un entorno de producción escalable puede ser desalentador. Aquí es donde destaca la Plataforma Ultralytics.
Los modelos de Ultralytics proporcionan una API de Python unificada, tratando el entrenamiento, la validación y el despliegue del modelo como tareas estandarizadas y simplificadas. Evitas el dolor de cabeza de gestionar dependencias complejas de terceros u operadores personalizados de C++ comunes en arquitecturas más antiguas.
Además, los modelos YOLO de Ultralytics requieren significativamente menos memoria CUDA durante el entrenamiento en comparación con los detectores basados en Transformer como RT-DETR. Esto permite a los profesionales utilizar tamaños de lote más grandes, estabilizando el entrenamiento y acelerando la convergencia en conjuntos de datos personalizados.
Ultralytics admite de forma nativa la exportación de modelos a formatos estándar de la industria como ONNX, OpenVINO y CoreML con una simple bandera booleana, simplificando enormemente el proceso de despliegue del modelo.
Link to this sectionEjemplo de código: Entrenamiento con Ultralytics#
El ecosistema Ultralytics te permite cargar, entrenar y ejecutar inferencia fácilmente utilizando YOLOv7 o arquitecturas más recientes con solo unas pocas líneas de código.
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on a custom dataset (e.g., COCO8)
# The API handles data loading, augmentation, and memory management automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a test image
predictions = model("path/to/image.jpg")
predictions[0].show()Link to this sectionEl futuro: Ultralytics YOLO26#
Aunque YOLOv7 y YOLOX representan pasos históricos importantes, el estado del arte avanza rápidamente. Lanzado en enero de 2026, Ultralytics YOLO26 introduce paradigmas revolucionarios que superan a los modelos anteriores.
- End-to-End NMS-Free Design: YOLO26 natively eliminates Non-Maximum Suppression (NMS) post-processing. This drastically reduces latency bottlenecks and guarantees deterministic execution times across varied hardware setups.
- Hasta un 43% más rápido en inferencia de CPU: Al eliminar la pérdida focal de distribución (DFL) y optimizar la profundidad de la red, YOLO26 está fuertemente adaptado para dispositivos de borde que carecen de hardware GPU dedicado.
- Optimizador MuSGD: Inspirado en técnicas avanzadas de entrenamiento de LLM, el optimizador MuSGD (un híbrido de SGD y Muon) ofrece una estabilidad de entrenamiento excepcional y una convergencia más rápida.
- Detección mejorada de objetos pequeños: La integración de las funciones de pérdida ProgLoss + STAL proporciona mejoras significativas en el reconocimiento de objetos pequeños y distantes, algo crítico para el mapeo con drones y la vigilancia de seguridad.
- Soporte nativo para tareas: YOLO26 admite de forma integral cajas delimitadoras orientadas (OBB), segmentación de instancias y estimación de poses de forma nativa dentro de la misma API optimizada.
Para cualquier desarrollador moderno que comience un nuevo proyecto de visión artificial hoy en día, evaluar Ultralytics YOLO26 en la Plataforma es el camino recomendado para lograr el mejor equilibrio absoluto entre velocidad, precisión y simplicidad de despliegue. Para aquellos que actualizan desde generaciones anteriores como YOLO11 o YOLOv8, la transición solo requiere cambiar la cadena del modelo, desbloqueando instantáneamente capacidades superiores.