Link to this sectionDAMO-YOLO frente a EfficientDet#

La evolución de la visión artificial ha dado lugar a una serie de arquitecturas potentes adaptadas a las diversas demandas del mundo real. Mientras que algunos marcos priorizan la escalabilidad masiva, otros se centran intensamente en la velocidad de inferencia en tiempo real. En esta comparativa técnica, exploramos DAMO-YOLO y EfficientDet, dos modelos altamente influyentes que muestran enfoques distintos para resolver el problema de la detección de objetos. Analizaremos sus arquitecturas, compararemos sus rendimientos en benchmarks y, en última instancia, exploraremos por qué el recién lanzado Ultralytics YOLO26 representa la opción óptima para implementaciones de producción modernas.

Link to this sectionVisión general de la arquitectura#

Ambos modelos fueron diseñados para abordar el equilibrio entre eficiencia y precisión, pero se basan en mecanismos fundamentalmente diferentes para lograr sus objetivos.

Link to this sectionDAMO-YOLO: velocidad mediante búsqueda de arquitectura neuronal#

Desarrollado para superar los límites de la detección en tiempo real, DAMO-YOLO aprovecha técnicas de búsqueda automatizada para construir redes altamente eficientes adaptadas a entornos de baja latencia.

Detalles de DAMO-YOLO:
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización: Alibaba Group
Fecha: 23-11-2022
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO se basa en una estructura (backbone) de Búsqueda de Arquitectura Neuronal (NAS) que optimiza tanto la velocidad como la precisión. Introduce la RepGFPN (Red de Pirámide de Características Generalizada Reparametrizada), que mejora la fusión de características manteniendo altas velocidades de inferencia. Además, su diseño ZeroHead minimiza la sobrecarga computacional asociada normalmente a las cabezas de detección. El modelo también se beneficia de AlignedOTA (Asignación de Transporte Óptimo Alineado) y mejora por destilación, asegurando que incluso las variantes más pequeñas aprendan representaciones ricas de modelos más grandes.

Más información sobre DAMO-YOLO

Link to this sectionEfficientDet: escalabilidad mediante escalado compuesto#

En contraste con el enfoque centrado en la velocidad, EfficientDet se centra en la escalabilidad sistemática a través de varios presupuestos de computación.

Detalles de EfficientDet:
Autores: Mingxing Tan, Ruoming Pang y Quoc V. Le
Organización: Google Brain
Fecha: 20-11-2019
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet

EfficientDet introduce la BiFPN (Red de Pirámide de Características Bidireccional), que permite una fusión de características multiescala fácil y rápida. A diferencia de los métodos tradicionales que escalan las arquitecturas añadiendo capas o canales arbitrariamente, EfficientDet utiliza un método de escalado compuesto que escala uniformemente la resolución, la profundidad y la anchura de la estructura (backbone), la red de características y las redes de predicción de cajas/clases simultáneamente. Esto le permite alcanzar una precisión de vanguardia en hardware de gama alta, al tiempo que ofrece variantes más pequeñas para entornos restringidos.

Más información sobre EfficientDet

Link to this sectionComparación de rendimiento y métricas#

Al comparar estos modelos lado a lado, el equilibrio entre la precisión pura y la velocidad de inferencia queda claro. La siguiente tabla describe las métricas clave de rendimiento, destacando cómo se comparan las capacidades de inferencia de DAMO-YOLO frente a la familia de modelos EfficientDet.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

Como se observa arriba, EfficientDet-d7 logra la mayor precisión general, lo que lo hace adecuado para aplicaciones rigurosas basadas en la nube. Por el contrario, la serie DAMO-YOLO proporciona una precisión altamente competitiva con una latencia significativamente menor en hardware GPU, lo que lo convierte en un candidato más fuerte para implementaciones de borde (edge) en tiempo real.

Link to this sectionCasos de uso y recomendaciones#

Elegir entre DAMO-YOLO y EfficientDet depende de los requisitos específicos de tu proyecto, las limitaciones de implementación y las preferencias de ecosistema.

Link to this sectionCuándo elegir DAMO-YOLO#

DAMO-YOLO es una buena opción para:

Analítica de vídeo de alto rendimiento: Procesamiento de flujos de vídeo de altos FPS en infraestructura de GPU NVIDIA fija, donde el rendimiento por lote (batch-1) es la métrica principal.
Líneas de fabricación industrial: Escenarios con restricciones estrictas de latencia de GPU en hardware dedicado, como la inspección de calidad en tiempo real en líneas de montaje.
Investigación en búsqueda de arquitectura neuronal: Estudio de los efectos de la búsqueda automatizada de arquitectura (MAE-NAS) y backbones reparametrizados eficientes en el rendimiento de detección.

Link to this sectionCuándo elegir EfficientDet#

EfficientDet se recomienda para:

Google Cloud y pipelines de TPU: Sistemas profundamente integrados con las API de Google Cloud Vision o la infraestructura de TPU, donde EfficientDet cuenta con optimización nativa.
Investigación en escalado compuesto: Benchmarking académico centrado en el estudio de los efectos de un escalado equilibrado de profundidad, anchura y resolución de red.
Despliegue móvil mediante TFLite: Proyectos que requieren específicamente la exportación a TensorFlow Lite para dispositivos Android o Linux embebido.

Link to this sectionCuándo elegir Ultralytics (YOLO26)#

Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:

Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.

Link to this sectionLa alternativa moderna: Ultralytics YOLO26#

Aunque tanto DAMO-YOLO como EfficientDet representan hitos académicos importantes, la implementación en el mundo real a menudo requiere un enfoque más equilibrado, rico en funciones y fácil para el desarrollador. Aquí es donde Ultralytics YOLO26 establece un nuevo estándar en la industria.

Lanzado en enero de 2026, YOLO26 aprovecha el legado de sus predecesores, incluyendo Ultralytics YOLO11 y YOLOv8, ofreciendo un cambio de paradigma en cómo abordamos la detección de objetos.

Simplicidad de extremo a extremo

YOLO26 presenta un diseño nativo End-to-End NMS-Free. Al eliminar la supresión de no máximos (NMS) durante el postprocesamiento —un cuello de botella que ha afectado a los detectores de objetos durante años—, YOLO26 ofrece una canalización de implementación más sencilla y mucho más rápida, especialmente en hardware de borde (edge).

Link to this sectionRendimiento y versatilidad inigualables#

YOLO26 no solo mejora la velocidad; redefine la estabilidad y la precisión del entrenamiento. Introduce el Optimizador MuSGD, un híbrido de SGD y Muon inspirado en las innovaciones de entrenamiento de LLM, lo que conduce a tasas de convergencia drásticamente más rápidas y una eficiencia de entrenamiento superior. A diferencia de las alternativas pesadas basadas en Transformer como RT-DETR, YOLO26 mantiene requisitos de memoria increíblemente bajos, asegurando que pueda entrenarse en hardware de consumo.

Además, YOLO26 incorpora ProgLoss + STAL, mejorando enormemente el reconocimiento de objetos pequeños, lo cual es vital para casos de uso como imágenes aéreas de drones y robótica. Para optimizar dispositivos de baja potencia, YOLO26 eliminó la Distribution Focal Loss (DFL), lo que resulta en una inferencia de CPU hasta un 43% más rápida en comparación con generaciones anteriores.

Link to this sectionEcosistema y facilidad de uso#

Uno de los mayores obstáculos con modelos como EfficientDet es el complejo proceso de integración. Por el contrario, la Plataforma Ultralytics ofrece un ecosistema de extremo a extremo bien mantenido. Con una API unificada, los usuarios pueden cambiar fácilmente entre detección, segmentación de instancias, estimación de pose, clasificación de imágenes y cajas delimitadoras orientadas (OBB).

Aquí tienes lo sencillo que es entrenar y ejecutar la inferencia con YOLO26 utilizando el paquete de Python de Ultralytics:

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run ultra-fast NMS-free inference
predictions = model.predict("image.jpg")

Más información sobre YOLO26

Link to this sectionConclusión#

Aunque explorar DAMO-YOLO frente a EfficientDet proporciona excelentes perspectivas sobre las compensaciones entre la Búsqueda de Arquitectura Neuronal y el escalado compuesto, los desarrolladores modernos requieren herramientas que cierren la brecha entre la investigación académica y la realidad de la producción.

Para los desarrolladores que priorizan la facilidad de uso, una comunidad de código abierto activa y un equilibrio inigualable entre velocidad y precisión, Ultralytics YOLO26 es la opción definitiva. Su arquitectura sin NMS, su baja sobrecarga de entrenamiento y su integración perfecta con el completo ecosistema de Ultralytics lo convierten en el marco definitivo para tu próximo proyecto de visión artificial.

Colaboradores

GLglenn-jocher¹⁵

Creado 27 ene 2025Actualizado hace 3 semanas