YOLOX frente a EfficientDet: comparación técnica de arquitecturas de detección de objetos
Seleccionar la arquitectura óptima para la detección de objetos es una decisión crítica que afecta a la latencia, la precisión y la escalabilidad de los sistemas de visión artificial. Esta comparación profundiza en las diferencias técnicas entre YOLOX, un detector sin anclajes de alto rendimiento de Megvii, y EfficientDet, la arquitectura escalable Google centrada en la eficiencia.
Si bien ambos modelos han dado forma al panorama de la visión artificial, las aplicaciones modernas exigen cada vez más soluciones que ofrezcan una implementación simplificada y un rendimiento nativo en el borde. También exploraremos cómo la tecnología de vanguardia YOLO26 se basa en estos legados para ofrecer resultados superiores.
Métricas de rendimiento y puntos de referencia
La siguiente tabla compara el rendimiento de varias escalas de modelos en el COCO . Las métricas clave incluyen la precisión media (mAP) y la latencia de inferencia, lo que pone de relieve las compensaciones entre velocidad y precisión.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
YOLOX: La evolución sin anclajes
YOLOX representa un cambio significativo en la YOLO al adoptar un mecanismo sin anclaje y desacoplar el cabezal de detección. Este diseño simplifica el proceso de entrenamiento y mejora el rendimiento en diversos conjuntos de datos.
Autor: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li y Jian Sun
Organización: Megvii
Fecha: 18/07/2021
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Características arquitectónicas clave
- Cabezal desacoplado: a diferencia de YOLO anteriores YOLO , que utilizaban un cabezal acoplado para la clasificación y la localización, YOLOX separa estas tareas. Esto permite una convergencia más rápida y una mayor precisión.
- Diseño sin anclajes: al eliminar las cajas de anclaje, YOLOX elimina la necesidad de ajustar manualmente los anclajes, lo que hace que el modelo sea más robusto ante formas de objetos variadas.
- Asignación de etiquetas SimOTA: YOLOX presenta SimOTA, una estrategia avanzada de asignación de etiquetas que compara dinámicamente los objetos reales con las predicciones, equilibrando eficazmente la función de pérdida.
Fortalezas y Debilidades
YOLOX destaca en escenarios que requieren un equilibrio entre velocidad y precisión, especialmente cuando los problemas tradicionales relacionados con los anclajes (como el desequilibrio) resultaban problemáticos. Sin embargo, su dependencia de pesadas canalizaciones de aumento de datos puede complicar en ocasiones la configuración del entrenamiento para conjuntos de datos personalizados.
EfficientDet: Eficiencia Escalable
EfficientDet se centra en optimizar la eficiencia mediante un método de escalado compuesto que escala uniformemente la resolución, la profundidad y la anchura de la red troncal, la red de características y las redes de predicción de cuadros/clases.
Autor: Mingxing Tan, Ruoming Pang y Quoc V. Le
Organización: Google
Fecha: 20-11-2019
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: google
Características arquitectónicas clave
- EfficientNet Backbone: utiliza EfficientNet, que está optimizado para FLOP y eficiencia de parámetros.
- BiFPN (Red piramidal de características bidireccionales): una capa de fusión de características ponderadas que permite una fusión de características multiescala fácil y rápida.
- Escalado compuesto: un método distinto que escala todas las dimensiones de la red simultáneamente, en lugar de aumentar solo la profundidad o la anchura de forma aislada.
Fortalezas y Debilidades
EfficientDet es muy eficaz para aplicaciones en las que el tamaño del modelo (almacenamiento) es una limitación importante, como las aplicaciones móviles. Aunque alcanza mAP elevado, su velocidad de inferencia en GPU suele quedar por detrás de YOLO debido a la complejidad de la BiFPN y las convoluciones separables en profundidad, que a veces están menos optimizadas en el hardware que las convoluciones estándar.
La Ventaja de Ultralytics: Presentamos YOLO26
Aunque YOLOX y EfficientDet fueron fundamentales en 2019-2021, el campo ha avanzado rápidamente. YOLO26, lanzado por Ultralytics enero de 2026, representa la vanguardia de la IA visual, ya que aborda las limitaciones de las generaciones anteriores con innovaciones revolucionarias.
Facilidad de uso y ecosistema
Los desarrolladores que eligen Ultralytics de un ecosistema unificado «de cero a héroe». A diferencia de los repositorios de investigación fragmentados de YOLOX o EfficientDet, la Ultralytics y la API Ultralytics le permiten entrenar, validar e implementar modelos sin problemas. El ecosistema admite iteraciones rápidas con funciones como la anotación automática y la exportación con un solo clic a formatos como ONNX y OpenVINO.
Características de rendimiento de última generación
YOLO26 presenta varias innovaciones arquitectónicas que lo hacen superior para implementaciones modernas:
Diseño integral NMS: YOLO26 es integral de forma nativa, lo que elimina la necesidad del posprocesamiento de supresión no máxima (NMS). Esto reduce la variación de la latencia y simplifica los procesos de implementación, un concepto introducido por primera vez en YOLOv10 y perfeccionado aquí.
Optimizador MuSGD: inspirado en el entrenamiento de modelos de lenguaje grandes (LLM), el optimizador MuSGD combina la estabilidad de SGD las propiedades de impulso de Muon. Esto da como resultado una convergencia más rápida durante el entrenamiento y pesos finales más robustos.
Eficiencia Edge-First: al eliminar la pérdida focal de distribución (DFL), YOLO26 simplifica la estructura de la capa de salida. Este cambio, combinado con optimizaciones arquitectónicas, da como resultado CPU hasta un 43 % más rápida en comparación con las generaciones anteriores, lo que lo hace significativamente más rápido que EfficientDet en hardware de borde.
ProgLoss + STAL: Las nuevas funciones de pérdida, ProgLoss y STAL, proporcionan mejoras notables en la detección de objetos pequeños, una debilidad común en los modelos anteriores sin anclajes. Esto es fundamental para aplicaciones en imágenes aéreas y robótica.
Consejo de entrenamiento
El optimizador MuSGD de YOLO26 permite tasas de aprendizaje más agresivas. Cuando se entrena con conjuntos de datos personalizados, considere utilizar la guía de ajusteUltralytics para maximizar el rendimiento.
Versatilidad y memoria
A diferencia de YOLOX y EfficientDet, que son principalmente detectores, YOLO26 es una potente herramienta multitarea. Admite de forma nativa:
Además, Ultralytics están optimizados para la eficiencia de la memoria. El entrenamiento de un modelo YOLO26 suele requerir menos CUDA que las alternativas basadas en transformadores, como RT-DETR, lo que permite tamaños de lote más grandes en GPU de consumo.
Ejemplo de Código: Entrenamiento de YOLO26
El cambio a YOLO26 es muy sencillo con laPython Ultralytics .
from ultralytics import YOLO
# Load the state-of-the-art YOLO26n model
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
# NMS-free output is generated natively
results = model("https://ultralytics.com/images/bus.jpg")
Conclusión
Mientras que YOLOX ofrece una sólida base para la investigación sin anclajes y EfficientDet proporciona un estudio sobre la eficiencia de escalado, YOLO26 destaca como la opción pragmática para 2026 y más allá. Su combinación de inferencia NMS, CPU superior y el sólido soporte del Ultralytics lo convierten en el candidato ideal para los desarrolladores que buscan ampliar los límites de la inferencia en tiempo real.
Si estás listo para actualizarte, explora todas las capacidades de YOLO26 en nuestra documentación o consulta otras opciones modernas como YOLO11 para comparaciones con versiones anteriores.