Link to this sectionDAMO-YOLO frente a YOLOv6-3.0#
La rápida evolución de la visión por computador ha generado arquitecturas altamente especializadas diseñadas para aplicaciones industriales. Entre ellas, destacan dos pesos pesados por su enfoque en el rendimiento en tiempo real y la eficiencia en la implementación: DAMO-YOLO y YOLOv6-3.0. Esta página ofrece una comparación técnica detallada de sus arquitecturas, métricas de rendimiento y metodologías de entrenamiento para ayudarte a orientar tus decisiones de implementación.
Link to this sectionDAMO-YOLO: La búsqueda de arquitectura neuronal se encuentra con la detección de objetos#
Desarrollado por investigadores de Alibaba Group, DAMO-YOLO introduce un enfoque novedoso en la familia YOLO al integrar intensivamente la búsqueda de arquitectura neuronal (NAS) en el diseño de su backbone.
- Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
- Organización: Alibaba Group
- Fecha: 23-11-2022
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
Link to this sectionInnovaciones arquitectónicas#
DAMO-YOLO utiliza un backbone optimizado por NAS llamado MAE-NAS, que busca automáticamente las estructuras de red óptimas bajo restricciones de latencia específicas. Esto garantiza que el modelo escale de manera eficiente en diferentes perfiles de hardware. Para mejorar la fusión de características, la arquitectura emplea un Efficient RepGFPN (Reparameterized Generalized Feature Pyramid Network), mejorando significativamente la representación multiescala.
Además, el modelo introduce un diseño "ZeroHead". Al eliminar estructuras complejas de múltiples ramas en la cabecera de detección, preserva la información espacial de manera más efectiva mientras reduce la carga computacional. La metodología de entrenamiento también aprovecha AlignedOTA (Aligned Optimal Transport Assignment) y una destilación de conocimiento robusta, permitiendo que modelos estudiantes más pequeños aprendan de redes profesor más pesadas.
Más información sobre DAMO-YOLO
Aunque la destilación de conocimiento ayuda a DAMO-YOLO a lograr una alta precisión, requiere una canalización de entrenamiento de varias etapas. Esto aumenta drásticamente el cómputo de GPU necesario en comparación con el entrenamiento de modelos estándar de una sola etapa.
Link to this sectionYOLOv6-3.0: Maximizando el rendimiento industrial#
Creado por el Departamento de IA de Visión de Meituan, YOLOv6-3.0 está etiquetado explícitamente como un detector de objetos industrial, diseñado específicamente para maximizar el rendimiento en hardware NVIDIA.
- Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu y Xiangxiang Chu
- Organización: Meituan
- Fecha: 13-01-2023
- Arxiv: 2301.05586
- GitHub: meituan/YOLOv6
Link to this sectionCaracterísticas y mejoras clave#
YOLOv6-3.0 se basa en el backbone EfficientRep, compatible con hardware, lo que lo hace excepcionalmente rápido al aprovechar optimizaciones como TensorRT en GPUs modernas. En su iteración v3.0, la red integra un módulo de concatenación bidireccional (BiC) para mejorar la localización de objetos de distintos tamaños.
Otra característica destacada es la estrategia de entrenamiento asistido por anclajes (AAT). AAT combina la estabilidad de los detectores basados en anclajes durante el entrenamiento con la velocidad de inferencia de un diseño sin anclajes. Este enfoque híbrido genera una convergencia excelente sin sacrificar la latencia de implementación, convirtiéndolo en una opción poderosa para procesar flujos de video masivos en analítica de ciudades inteligentes y sistemas de pago automatizado.
Link to this sectionComparación de rendimiento#
Al evaluar estos modelos para inferencia en tiempo real, es fundamental equilibrar los parámetros, los FLOPs y la precisión. A continuación, se presenta una evaluación detallada que compara su rendimiento.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Aunque DAMO-YOLO muestra una ligera ventaja en el nivel pequeño (46.0 mAP frente a 45.0 mAP), YOLOv6-3.0 demuestra una escalabilidad superior, ganando en los niveles mediano y grande mientras mantiene los parámetros absolutamente más bajos en su configuración nano.
Si tu entorno de hardware permite realizar búsquedas automatizadas intensivas para personalizar tu backbone, el enfoque NAS de DAMO-YOLO es altamente efectivo. Sin embargo, si dependes totalmente de la aceleración estándar de GPU (como T4 o A100), las estructuras EfficientRep de YOLOv6 a menudo se traducen en más FPS brutos.
Link to this sectionCasos de uso y recomendaciones#
Elegir entre DAMO-YOLO y YOLOv6 depende de los requisitos específicos de tu proyecto, las restricciones de implementación y tus preferencias de ecosistema.
Link to this sectionCuándo elegir DAMO-YOLO#
DAMO-YOLO es una buena opción para:
- Analítica de vídeo de alto rendimiento: Procesamiento de flujos de vídeo de altos FPS en infraestructura de GPU NVIDIA fija, donde el rendimiento por lote (batch-1) es la métrica principal.
- Líneas de fabricación industrial: Escenarios con restricciones estrictas de latencia de GPU en hardware dedicado, como la inspección de calidad en tiempo real en líneas de montaje.
- Investigación en búsqueda de arquitectura neuronal: Estudio de los efectos de la búsqueda automatizada de arquitectura (MAE-NAS) y backbones reparametrizados eficientes en el rendimiento de detección.
Link to this sectionCuándo elegir YOLOv6#
YOLOv6 se recomienda para:
- Despliegue consciente del hardware industrial: Escenarios donde el diseño del modelo consciente del hardware y la reparametrización eficiente proporcionan un rendimiento optimizado en hardware de destino específico.
- Detección rápida en una sola etapa: Aplicaciones que priorizan la velocidad de inferencia bruta en GPU para el procesamiento de vídeo en tiempo real en entornos controlados.
- Integración con el ecosistema Meituan: Equipos que ya trabajan dentro de la pila tecnológica y la infraestructura de despliegue de Meituan.
Link to this sectionCuándo elegir Ultralytics (YOLO26)#
Para la mayoría de los proyectos nuevos, Ultralytics YOLO26 ofrece la mejor combinación de rendimiento y experiencia de desarrollo:
- Implementación en el borde sin NMS: Aplicaciones que requieren una inferencia consistente y de baja latencia sin la complejidad del posprocesamiento de supresión de no máximos.
- Entornos solo de CPU: Dispositivos sin aceleración de GPU dedicada, donde la inferencia en CPU hasta un 43% más rápida de YOLO26 proporciona una ventaja decisiva.
- Detección de objetos pequeños: Escenarios desafiantes como imágenes de drones aéreos o análisis de sensores IoT donde ProgLoss y STAL aumentan significativamente la precisión en objetos pequeños.
Link to this sectionLa ventaja de Ultralytics: Presentamos YOLO26#
Aunque tanto DAMO-YOLO como YOLOv6-3.0 son muy capaces, sufren de ecosistemas fragmentados, limitaciones de tarea única y canalizaciones de implementación complejas. Para los equipos de ingeniería modernos, los modelos de Ultralytics proporcionan una experiencia de desarrollador sustancialmente mejor, culminando en el innovador YOLO26.
Lanzado en enero de 2026, YOLO26 representa el nuevo estándar para la implementación en el borde y en la nube, optimizando intensamente los requisitos de memoria y la eficiencia computacional.
Link to this section¿Por qué elegir YOLO26?#
- Diseño de extremo a extremo sin NMS: Sobre la base de conceptos de YOLOv10, YOLO26 elimina de forma nativa el posprocesamiento de supresión de no máximos (Non-Maximum Suppression). Esto simplifica significativamente el código de implementación y reduce la varianza de la latencia de inferencia en todos los dispositivos de borde.
- Optimización superior: YOLO26 emplea el optimizador MuSGD, un híbrido de SGD y Muon (inspirado en grandes modelos de lenguaje), que produce ejecuciones de entrenamiento altamente estables y una convergencia más rápida.
- Versatilidad de hardware: Al implementar DFL Removal (Distribution Focal Loss), las cabeceras de salida se simplifican, impulsando la compatibilidad con dispositivos de borde. De hecho, YOLO26 logra una inferencia de CPU hasta un 43% más rápida, lo que lo hace vastamente superior a YOLOv6 para entornos de borde móviles o IoT.
- Precisión mejorada: Al utilizar ProgLoss + STAL, YOLO26 logra mejoras drásticas en la detección de objetos pequeños, lo que lo convierte en la opción óptima para imágenes aéreas y la inspección de defectos.
- Versatilidad inigualable: A diferencia de los modelos industriales que solo realizan cajas delimitadoras (bounding boxes), la familia YOLO26 admite tareas multimodales, incluyendo Clasificación de imágenes, Segmentación de instancias, Estimación de pose y Cajas delimitadoras orientadas (OBB).
Link to this sectionExperiencia de ecosistema fluida#
La Plataforma Ultralytics transforma todo el ciclo de vida del aprendizaje automático. Entrenar un modelo ya no es un quebradero de cabeza de destilación de varias etapas. Con aumento de datos automático, ajuste de hiperparámetros unificado y exportaciones con un solo clic a formatos como ONNX, OpenVINO y CoreML, pasas del conjunto de datos a la producción en horas, no semanas.
Además, los modelos de Ultralytics son conocidos por su eficiencia de memoria, evitando los cuellos de botella masivos de VRAM que plagan las arquitecturas de transformadores como RT-DETR.
Link to this sectionEjemplo de código de inicio rápido#
Entrenar e inferir con un modelo de Ultralytics como YOLO26 es elegantemente sencillo. El siguiente script de Python demuestra cómo puedes empezar a rastrear objetos de inmediato con solo unas pocas líneas de código:
from ultralytics import YOLO
# Load the highly efficient, NMS-free YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a sample image
prediction = model("https://ultralytics.com/images/bus.jpg")
# Export to TensorRT for maximum GPU throughput
model.export(format="engine", dynamic=True)Link to this sectionConclusión#
Tanto DAMO-YOLO como YOLOv6-3.0 son proezas de ingeniería impresionantes que superan los límites de la detección industrial de objetos. Sin embargo, son herramientas altamente especializadas que a menudo requieren configuraciones intrincadas y restricciones de hardware rígidas.
Para los desarrolladores e investigadores que exigen un equilibrio de rendimiento perfecto, capacidades multitarea y un ecosistema bien mantenido, Ultralytics YOLO26 no tiene igual. Al combinar optimizadores inspirados en LLM con una arquitectura limpia y sin NMS, YOLO26 simplifica la implementación de IA mientras ofrece una precisión de última generación en entornos de borde y nube.
Si estás evaluando modelos para un nuevo proyecto de visión por computador, te recomendamos encarecidamente explorar las capacidades del ecosistema Ultralytics YOLO. También puede resultarte útil comparar estos con otras arquitecturas como EfficientDet o hitos anteriores como YOLO11 para comprender completamente la evolución de la IA de visión en tiempo real.