Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOX frente a EfficientDet#

La evolución de la detección de objetos ha estado impulsada por la búsqueda constante de un equilibrio entre velocidad, precisión y eficiencia computacional. Dos modelos emblemáticos que influyeron significativamente en esta trayectoria son YOLOX y EfficientDet. Mientras que YOLOX introdujo un diseño sin anclas altamente optimizado en la familia YOLO, EfficientDet se centró en una arquitectura escalable utilizando escalado compuesto y BiFPN. Esta guía proporciona una comparativa técnica detallada de sus arquitecturas, métricas de rendimiento y metodologías de entrenamiento, al tiempo que presenta alternativas modernas como el innovador modelo Ultralytics YOLO26.

Link to this sectionOrígenes del modelo y detalles técnicos#

Antes de profundizar en sus diferencias estructurales, es importante comprender los orígenes y la investigación fundamental detrás de ambos modelos.

Detalles de YOLOX:

Más información sobre YOLOX

Detalles de EfficientDet:

Aprende más sobre EfficientDet

Link to this sectionComparativa arquitectónica#

La diferencia fundamental entre YOLOX y EfficientDet radica en cómo extraen características y predicen los cuadros delimitadores. Comprender estas arquitecturas de detección de objetos es fundamental para seleccionar el modelo correcto para tu entorno de despliegue.

Link to this sectionYOLOX: El innovador sin anclas#

YOLOX revolucionó la serie YOLO al cambiar de un detector basado en anclas a un diseño sin anclas. Esta transición redujo drásticamente el número de parámetros de diseño y simplificó el pipeline de entrenamiento.

Las características arquitectónicas clave incluyen un cabezal desacoplado, que separa las tareas de clasificación y regresión. Esto resuelve el conflicto entre identificar qué es un objeto y predecir exactamente dónde está. Además, YOLOX utiliza estrategias avanzadas de asignación de etiquetas como SimOTA, que asigna dinámicamente muestras positivas a objetos de verdad fundamental (ground truth) durante el entrenamiento, lo que conduce a una convergencia más rápida y un equilibrio de rendimiento superior.

Link to this sectionEfficientDet: Escalado compuesto y BiFPN#

EfficientDet aborda la detección de objetos a través de la eficiencia y la escalabilidad. Desarrollado por Google, se basa en gran medida en el backbone de EfficientNet para la extracción de características.

Su característica distintiva es la red piramidal de características bidireccional (BiFPN). A diferencia de las FPN tradicionales, BiFPN permite una fusión de características multiescala fácil y rápida al introducir pesos aprendibles para conocer la importancia de diferentes características de entrada. Combinado con un método de escalado compuesto que escala uniformemente la resolución, la profundidad y la anchura para todos los backbones, redes de características y redes de predicción de cuadros/clases, EfficientDet puede escalar desde modelos de tamaño móvil (d0) hasta modelos masivos de servidor (d7).

Complejidad arquitectónica

Aunque el escalado compuesto de EfficientDet proporciona un camino predecible hacia una mayor precisión, a menudo resulta en grafos computacionales complejos que pueden ser difíciles de optimizar para computación perimetral en tiempo real en comparación con el diseño optimizado y sin anclas de YOLOX.

Link to this sectionAnálisis de rendimiento y métricas#

Al evaluar estos modelos para aplicaciones de visión artificial en el mundo real, métricas como la precisión media, la velocidad de inferencia y el recuento de parámetros son primordiales.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Link to this sectionAnálisis de las compensaciones#

Los datos destacan una clara divergencia en la filosofía de diseño. EfficientDet-d7 logra la mayor precisión general con un impresionante mAP del 53,7 %, pero a un costo enorme en la velocidad de inferencia (128,07 ms en una GPU T4). Por el contrario, YOLOXx logra un mAP altamente competitivo del 51,1 % mientras mantiene una rápida velocidad de inferencia de 16,1 ms, lo que lo hace muy superior para comprensión de video en tiempo real y robótica.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre YOLOX y EfficientDet depende de los requisitos específicos de tu proyecto, las limitaciones de despliegue y las preferencias del ecosistema.

Link to this sectionCuándo elegir YOLOX#

YOLOX es una opción sólida para:

  • Investigación en detección sin anclas: Investigación académica que utiliza la arquitectura limpia y sin anclas de YOLOX como base para experimentar con nuevas cabeceras de detección o funciones de pérdida.
  • Dispositivos de borde ultraligeros: Despliegue en microcontroladores o hardware móvil antiguo donde la huella extremadamente pequeña de la variante YOLOX-Nano (0.91M de parámetros) es crítica.
  • Estudios de asignación de etiquetas SimOTA: Proyectos de investigación que investigan estrategias de asignación de etiquetas basadas en transporte óptimo y su impacto en la convergencia del entrenamiento.

Link to this sectionCuándo elegir EfficientDet#

EfficientDet se recomienda para:

  • Google Cloud y pipelines de TPU: Sistemas profundamente integrados con las API de Google Cloud Vision o la infraestructura de TPU, donde EfficientDet cuenta con optimización nativa.
  • Investigación en escalado compuesto: Benchmarking académico centrado en el estudio de los efectos de un escalado equilibrado de profundidad, anchura y resolución de red.
  • Despliegue móvil mediante TFLite: Proyectos que requieren específicamente la exportación a TensorFlow Lite para dispositivos Android o Linux embebido.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

  • Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
  • Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
  • Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionLa alternativa moderna: Ultralytics YOLO26#

Aunque YOLOX y EfficientDet representaron hitos significativos, el panorama del aprendizaje automático ha avanzado rápidamente. Para los desarrolladores que buscan desplegar sistemas de visión de última generación hoy en día, la opción altamente recomendada es YOLO26, el último modelo insignia de Ultralytics lanzado en enero de 2026.

YOLO26 ofrece un ecosistema bien mantenido y un gran avance tanto en velocidad como en facilidad de uso, superando a las arquitecturas heredadas en varias áreas clave:

Link to this sectionInnovaciones clave de YOLO26#

  • Diseño integral sin NMS: YOLO26 elimina la necesidad de posprocesamiento de Supresión de no máximos (NMS). Este enfoque nativamente integral, iniciado en generaciones anteriores, simplifica el proceso de exportación y reduce drásticamente la latencia de despliegue.
  • Hasta un 43% más rápido en inferencia de CPU: Gracias a optimizaciones arquitectónicas profundas y la eliminación de Distribution Focal Loss (DFL), YOLO26 es notablemente rápido en dispositivos perimetrales que carecen de GPUs discretas, superando con creces a las pesadas variantes de EfficientDet.
  • Optimizador MuSGD: Al incorporar innovaciones de Modelos de Lenguaje Grande (LLM) a la visión, YOLO26 utiliza el optimizador MuSGD (un híbrido de SGD y Muon) para un entrenamiento altamente estable y una convergencia rápida, lo que resulta en una excelente eficiencia de entrenamiento.
  • ProgLoss + STAL: Estas funciones de pérdida avanzadas producen mejoras notables en el reconocimiento de objetos pequeños, lo cual es crítico para casos de uso como operaciones con drones y análisis de imágenes aéreas.
  • Versatilidad inigualable: A diferencia de YOLOX, que es estrictamente un detector de objetos, YOLO26 admite de forma nativa una amplia gama de tareas, incluyendo segmentación de instancias, clasificación de imágenes, estimación de pose y detección de Bounding Box Orientado (OBB).

Más información sobre YOLO26

Link to this sectionFacilidad de uso con la API de Ultralytics#

Una de las ventajas más significativas de los modelos de Ultralytics es la experiencia de usuario optimizada. Entrenar y desplegar un modelo YOLO26 requiere requisitos de memoria drásticamente menores que los modelos de Transformer complejos e implica solo unas pocas líneas de código Python:

from ultralytics import YOLO

# Initialize the natively end-to-end YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to TensorRT for blazing-fast inference
model.export(format="engine", dynamic=True)

Para los usuarios que prefieren interfaces visuales, la Plataforma Ultralytics proporciona herramientas potentes para la anotación de conjuntos de datos, el ajuste de hiperparámetros y un despliegue sin problemas.

Link to this sectionCasos de uso en el mundo real#

Elegir la arquitectura correcta depende en gran medida de tus limitaciones específicas de despliegue.

Link to this sectionCuándo considerar EfficientDet#

EfficientDet sigue siendo un tema de interés académico para entornos donde la velocidad de inferencia es completamente irrelevante, y la precisión teórica máxima en imágenes de alta resolución es el único objetivo. Su implementación dentro del ecosistema TensorFlow también puede atraer a equipos que mantienen infraestructuras heredadas de Google.

Link to this sectionCuándo considerar YOLOX#

YOLOX es adecuado para aplicaciones que requieren un equilibrio de velocidad y precisión sin las complejidades de los cuadros de anclaje. Históricamente, ha funcionado bien en escenarios de fabricación industrial donde se requiere una detección rápida de defectos en cintas transportadoras.

Link to this sectionPor qué YOLO26 es la opción superior#

Para casi todas las aplicaciones modernas, YOLO26 ofrece la mejor solución. Su diseño sin NMS garantiza una latencia determinista, lo que lo convierte en el candidato perfecto para la conducción autónoma, sistemas de alarma de seguridad rápidos y despliegues en ciudades inteligentes. Además, el sólido soporte de la comunidad y las actualizaciones frecuentes de Ultralytics aseguran que los desarrolladores nunca tengan que lidiar con dependencias obsoletas.

Los desarrolladores que exploran la visión artificial avanzada también deberían considerar otras arquitecturas versátiles dentro del ecosistema de Ultralytics, como YOLO11 para despliegues heredados estables o modelos especializados como FastSAM para tareas de segmentación basadas en prompts. Utilizar el conjunto completo de herramientas de Ultralytics garantiza un pipeline de IA de visión altamente optimizado y preparado para el futuro.

Colaboradores

Comentarios