YOLOX frente a YOLOv5: tendiendo un puente entre la investigación sin anclajes y la detección de objetos industrial
La evolución de la detección de objetos en tiempo real ha estado impulsada por dos filosofías distintas: la búsqueda académica de la pureza arquitectónica y la demanda industrial de una implementación práctica. YOLOX y YOLOv5 representan la convergencia de estas dos vías. YOLOX introdujo un detector sin anclajes de alto rendimiento que simplificó la geometría subyacente de la detección, mientras que YOLOv5 el estándar global en cuanto a usabilidad, robustez y facilidad de implementación en entornos de producción.
Esta comparación detallada analiza cómo se comparan estos dos influyentes modelos en términos de opciones arquitectónicas, velocidad de inferencia y aplicabilidad en el mundo real, lo que le ayudará a decidir qué marco se adapta mejor a sus necesidades de visión artificial.
Especificaciones técnicas clave
La siguiente tabla destaca las métricas de rendimiento de ambos modelos. Mientras que YOLOX muestra unos resultados teóricos sólidos, YOLOv5 ofrecer un perfil más equilibrado para su implementación práctica, especialmente si se tiene en cuenta la madurez de su ecosistema de exportación.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
YOLOX: El innovador sin anclajes
YOLOX, lanzado por Megvii en 2021, marcó un cambio significativo en la YOLO al descartar los cuadros de anclaje, un elemento básico de versiones anteriores como YOLOv2 y YOLOv3. Al adoptar un mecanismo sin anclajes, YOLOX simplificó el proceso de entrenamiento y eliminó la necesidad de ajustar manualmente los hiperparámetros de anclaje, lo que a menudo requería conocimientos específicos del dominio.
Aspectos Arquitectónicos Destacados
- Mecanismo sin anclajes: en lugar de predecir desplazamientos a partir de cuadros predefinidos, YOLOX predice directamente las coordenadas del cuadro delimitador. Este enfoque reduce la complejidad de la arquitectura principal y mejora la generalización entre formas de objetos variadas.
- Cabezal desacoplado: Las tareas de clasificación y localización se separan en diferentes ramas de la red. Este desacoplamiento resuelve el conflicto entre la confianza en la clasificación y la precisión en la localización, lo que conduce a una convergencia más rápida durante el entrenamiento.
- Asignación de etiquetas SimOTA: YOLOX introdujo SimOTA, una estrategia avanzada de asignación de etiquetas que considera el procedimiento de asignación como un problema de transporte óptimo. Esta asignación dinámica permite al modelo aprender muestras positivas más efectivas durante el entrenamiento.
- MixUp mosaicos y MixUp : Muy inspirado en Ultralytics de YOLOv4 y Ultralytics , YOLOX utiliza potentes estrategias de aumento de datos para mejorar la solidez sin aumentar el coste de inferencia.
Contexto de la investigación
YOLOX sirvió como puente fundamental entre la investigación académica y la aplicación industrial, demostrando que los detectores sin anclaje podían igualar el rendimiento de los sistemas optimizados basados en anclajes, como YOLOv5.
Detalles de YOLOX:
- Autores: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, y Jian Sun
- Organización:Megvii
- Fecha: 2021-07-18
- Arxiv:YOLOX: Superando la serie YOLO en 2021
- GitHub:Megvii-BaseDetection/YOLOX
YOLOv5: el estándar industrial
YOLOv5, desarrollado por Ultralytics, es posiblemente el modelo de detección de objetos más utilizado en el mundo. Da prioridad a la facilidad de uso, la estabilidad y una experiencia «que simplemente funciona». Mientras que YOLOX se centró en la novedad arquitectónica, YOLOv5 en la excelencia de la ingeniería, creando un modelo fácil de entrenar, implementar y escalar en miles de casos de uso del mundo real.
Por qué los desarrolladores eligen YOLOv5
- Facilidad de uso sin igual: la Ultralytics elimina la complejidad del entrenamiento de modelos de aprendizaje profundo. El usuario puede pasar del conjunto de datos al modelo entrenado con solo unas pocas líneas de Python , lo que reduce significativamente la barrera de entrada para la adopción de la IA.
- Ecosistema integral: a diferencia de los repositorios de investigación, que a menudo se abandonan tras su publicación, YOLOv5 el respaldo de un ecosistema masivo. Esto incluye integraciones perfectas con herramientas MLOps como Weights & Biases, Comety ClearML, lo que garantiza un flujo de trabajo de desarrollo profesional.
- Gestión eficiente de la memoria: YOLOv5 diseñado para ser eficiente. Por lo general, requiere menos GPU durante el entrenamiento en comparación con muchos de sus competidores, lo que permite a los usuarios entrenar modelos eficaces en hardware de consumo o incluso en recursos gratuitos en la nube como Google .
- Versatilidad más allá de la detección: aunque YOLOX es principalmente un marco de detección, YOLOv5 admite YOLOv5 la segmentación de instancias y la clasificación de imágenes, lo que lo convierte en una herramienta multifuncional para diversos requisitos de proyectos.
YOLOv5 :
- Autor: Glenn Jocher
- Organización:Ultralytics
- Fecha: 2020-06-26
- Documentación:Documentación de YOLOv5
- GitHub:ultralytics/yolov5
Análisis del rendimiento y la implementación
A la hora de seleccionar un modelo para la producción, mAP bruto rara vez mAP el único factor. Las limitaciones de implementación, la compatibilidad del hardware y el mantenimiento son igualmente importantes.
Velocidad y eficiencia de inferencia
YOLOv5 en escenarios de implementación. Su arquitectura está muy optimizada para la exportación a formatos como ONNX, TensorRT, CoreMLy TFLite. Como se puede ver en la tabla comparativa, YOLOv5n (Nano) alcanza velocidades de inferencia significativamente más rápidas (1,12 ms en T4 TensorRT) en comparación con modelos ligeros similares, lo que lo hace ideal para dispositivos periféricos en los que cada milisegundo cuenta.
YOLOX, aunque ofrece un buen rendimiento, a veces puede tener problemas de compatibilidad de exportación debido a sus componentes arquitectónicos específicos (como el cabezal desacoplado), que pueden requerir una ingeniería más personalizada para optimizarse para determinados motores de inferencia.
Experiencia formativa
La eficiencia del entrenamiento es una característica distintiva del Ultralytics . El mecanismo de anclaje automático YOLOv5 recalcula automáticamente los anclajes para que se adapten mejor a su conjunto de datos personalizado, lo que proporciona las ventajas de los anclajes personalizados sin intervención manual. Además, la disponibilidad de pesos preentrenados de alta calidad acelera el aprendizaje por transferencia, lo que permite que los modelos alcancen una alta precisión con conjuntos de datos más pequeños.
from ultralytics import YOLO
# Load a model (YOLOv5 or the newer YOLO26)
model = YOLO("yolov5su.pt") # YOLOv5s with newer head
# Train on custom data in one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
Flujo de Trabajo Optimizado
El fragmento de código anterior muestra la Ultralytics unificada Ultralytics . Esta misma interfaz sencilla funciona para YOLOv5, YOLOv8 y el innovador YOLO26, lo que le permite cambiar de modelo al instante sin tener que reescribir su código base.
Recomendaciones de casos de uso
Ideal para YOLOX
- Investigación académica: Su implementación limpia y sin anclajes lo convierte en una excelente base de referencia para los investigadores que estudian estrategias de asignación de etiquetas o arquitecturas de cabezales de detección.
- Escenarios específicos de alta precisión: para tareas en las que la prioridad única mAP maximizar mAP y la latencia de inferencia es menos crítica, las variantes más grandes de YOLOX (como YOLOX-x) ofrecen una precisión competitiva.
Ideal para YOLOv5
- Implementación comercial: Las sólidas vías de exportación y la estabilidad hacen que YOLOv5 ideal para las empresas que realizan implementaciones en miles de dispositivos, desde Raspberry Pis hasta servidores en la nube.
- Edge AI: Las variantes ligeras (Nano/Small) son excepcionalmente rápidas, perfectas para el análisis de vídeo en tiempo real en teléfonos móviles o drones.
- Prototipado rápido: la experiencia «de cero a héroe» significa que los desarrolladores pueden validar ideas en cuestión de horas en lugar de días.
El futuro: Ultralytics
Aunque YOLOv5 YOLOX siguen siendo herramientas potentes, el campo ha avanzado. Para los desarrolladores que buscan el mejor rendimiento absoluto, Ultralytics representa la próxima generación de IA visual.
YOLO26 combina lo mejor de ambos mundos:
- NMS de extremo a extremo: al igual que los modelos de investigación más avanzados, YOLO26 es nativamente de extremo a extremo, lo que elimina la necesidad de NMS . Esto da como resultado una inferencia más rápida y determinista, lo que simplifica los procesos de implementación.
- Optimizador MuSGD: Inspirado en las innovaciones en el entrenamiento de LLM, YOLO26 utiliza el optimizador MuSGD para lograr una mayor estabilidad y velocidad de convergencia.
- Optimización de borde: está diseñado específicamente para la computación de borde y ofrece CPU hasta un 43 % más rápida en comparación con las generaciones anteriores, lo que lo convierte en una opción superior para aplicaciones móviles y de IoT.
- Versatilidad: admite todas las tareas (detección, segmentación, clasificación, pose y OBB) dentro de un único marco unificado.
Conclusión
La elección entre YOLOX y YOLOv5 depende YOLOv5 de tus objetivos. Si eres un investigador que desea experimentar con arquitecturas sin anclajes, YOLOX es una buena opción. Sin embargo, para la gran mayoría de desarrolladores y empresas centrados en crear aplicaciones fiables y en tiempo real, YOLOv5—y su sucesor YOLO26—ofrece un equilibrio superior entre velocidad, precisión y facilidad de uso. El Ultralytics garantiza que tus proyectos cuenten con el respaldo de un mantenimiento activo, una amplia documentación y una comunidad dinámica.
Para profundizar más, quizá te interese comparar YOLOv8 YOLOv5 o conocer las capacidades en tiempo real de YOLOv10.