YOLO11 vs DAMO-YOLO: Una comparación técnica
En el panorama en rápida evolución de la visión por ordenador, elegir el modelo de detección de objetos adecuado es fundamental para el éxito del proyecto. Esta página presenta una comparación técnica detallada entre Ultralytics YOLO11 y YOLO, dos arquitecturas de alto rendimiento diseñadas para ofrecer velocidad y precisión. Mientras que YOLO introduce técnicas innovadoras procedentes de la investigación académica, YOLO11 destaca como una solución versátil y lista para la producción respaldada por un sólido ecosistema.
Resumen ejecutivo
Ultralytics YOLO11 representa la última evolución de la serie YOLO y optimiza la inferencia en tiempo real a través de hardware diverso, desde dispositivos periféricos hasta servidores en la nube. Es compatible de forma nativa con múltiples tareas, como la detección, la segmentación y la estimación de la pose, lo que la convierte en una solución unificada para complejos procesos de IA.
YOLO, desarrollado por Alibaba Group, se centra en equilibrar la velocidad y la precisión de la detección mediante la búsqueda de arquitectura neuronal (NAS) y novedosas técnicas de fusión de características. Se trata principalmente de un detector orientado a la investigación y optimizado para el rendimiento de GPU .
Ultralytics YOLO11
Autores: Glenn Jocher, Jing Qiu
Organización:Ultralytics
Fecha: 2024-09-27
GitHubultralytics
Docsyolo11
YOLO11 perfecciona el estado del arte introduciendo mejoras arquitectónicas que mejoran la extracción de características al tiempo que mantienen una alta eficiencia. Utiliza una red troncal CSPNet modificada y un cabezal avanzado sin anclajes para ofrecer una precisión superior con menos parámetros en comparación con las generaciones anteriores.
Características Clave y Puntos Fuertes
- Versatilidad: A diferencia de muchos modelos especializados, YOLO11 es un marco multitarea. Admite la detección de objetos, la segmentación de instancias, la clasificación de imágenes, la estimación de poses y los recuadros delimitadores orientados (OBB).
- Arquitectura refinada: Incorpora bloques C3k2 y módulos C2PSA (Cross-Stage Partial with Spatial Attention) para capturar patrones complejos con eficacia, mejorando el rendimiento en objetos pequeños y fondos difíciles.
- Amplia compatibilidad de hardware: Optimizado para CPU y GPU , ofreciendo diferentes escalas de modelos (de Nano a X-Large) para adaptarse a limitaciones que van desde Raspberry Pi a clusters NVIDIA A100.
- Facilidad de uso: la APIPython y la CLI Ultralytics permiten a los desarrolladores entrenar, validar y desplegar modelos con un código mínimo.
Ecosistema listo para la producción
YOLO11 se integra perfectamente con el ecosistemaUltralytics , incluyendo herramientas para la gestión de datos, formación de modelos a través de Ultralytics HUB, y exportaciones con un solo clic a formatos como ONNX, TensorRTy CoreML.
DAMO-YOLO
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización:Alibaba Group
Fecha: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHubYOLO
YOLO se ha diseñado para aplicaciones industriales de baja latencia y alto rendimiento. Introduce varios componentes de "nueva tecnología" en la familia YOLO para superar los límites de la relación velocidad-precisión.
Innovaciones arquitectónicas
- Red troncal MAE-NAS: Utiliza la búsqueda de arquitectura neuronal (NAS) guiada por el error medio absoluto (MAE) para descubrir automáticamente una topología de red eficiente.
- RepGFPN eficiente: Una red piramidal de características generalizadas (GFPN) que emplea la re-parametrización, lo que permite la fusión de características complejas durante el entrenamiento mientras se colapsa en una estructura más rápida y simple durante la inferencia.
- ZeroHead: un cabezal de detección ligero que desacopla las tareas de clasificación y regresión, reduciendo significativamente la sobrecarga computacional de las capas finales de salida.
- AlignedOTA: Una estrategia mejorada de asignación de etiquetas que resuelve el desajuste entre la confianza de clasificación y la precisión de regresión durante el entrenamiento.
Aunque YOLO destaca en métricas específicas, es principalmente un repositorio de investigación. Carece de la extensa documentación, las actualizaciones continuas y el amplio apoyo de la comunidad que se encuentra en el ecosistema Ultralytics .
Más información sobre DAMO-YOLO
Métricas de rendimiento: Head-to-Head
La siguiente tabla compara el rendimiento de YOLO11 y YOLO en el conjunto de datosCOCO val2017. Las métricas clave incluyen la precisión mediamAP) y la velocidad de inferencia en hardware de CPU y GPU .
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Análisis de los resultados
- Dominio de la eficiencia: YOLO11 demuestra una eficiencia de parámetros superior. Por ejemplo, el modelo YOLO11m alcanza 51,5 mAP con solo 20,1 millones de parámetros, mientras que el modelo comparable DAMO-YOLOm se queda atrás con 49,2 mAP y una huella mayor de 28,2 millones de parámetros.
- Máxima precisión: La variante más grande, YOLO11x, alcanza una notable precisión de 54,7 mAP, superando al mayor modelo YOLO de la lista. Esto convierte YOLO11 en la opción preferida para tareas de alta precisión, como la obtención de imágenes médicas o la detección de defectos.
- Despliegue en el borde: El modelo YOLO11n (Nano) es excepcionalmente ligero (2,6 millones de parámetros) y rápido (1,5 ms en T4), lo que lo hace perfecto para sistemas integrados en los que escasea la memoria. En cambio, el modelo más pequeño de YOLO es bastante más pesado (8,5 millones de parámetros).
- Rendimiento deCPU CPU: Ultralytics proporciona pruebas comparativas transparentes de CPU CPU, lo que pone de relieve la viabilidad de YOLO11 para implantaciones sin aceleradores dedicados. YOLO no informa oficialmente de la velocidad de CPU , lo que limita su evaluación para aplicaciones IoT de bajo consumo.
Profundización técnica
Formación y arquitectura
YOLO se basa en gran medida en la búsqueda de arquitectura neuronal (NAS) para definir su columna vertebral. Aunque esto puede producir estructuras teóricamente óptimas, a menudo da lugar a bloques irregulares que pueden no ser compatibles con el hardware de todos los dispositivos. En cambio, YOLO11 utiliza bloques elaborados a mano y refinados (C3k2, C2PSA) que se han diseñado de forma intuitiva para los procesadores de GPU y CPU estándar.
YOLO11 también hace hincapié en la eficacia del entrenamiento. Converge rápidamente gracias a hiperparámetros optimizados y estrategias de aumento de datos. Sus requisitos de memoria durante el entrenamiento suelen ser inferiores a los de las complejas arquitecturas basadas en transformadores o NAS, lo que permite a los investigadores entrenar modelos eficaces en hardware de consumo.
Ecosistema y usabilidad
Uno de los elementos diferenciadores más significativos es el ecosistema. YOLO es principalmente un repositorio de código para reproducir los resultados de trabajos de investigación.
Ultralytics YOLO11, sin embargo, es una plataforma de servicio completo:
- Documentación: Guías completas sobre cada aspecto de la tubería.
- Integraciones: Soporte nativo para MLFlow, TensorBoard y Weights & Biases para el seguimiento de experimentos.
- Comunidad: Una comunidad masiva y activa en GitHub y Discord que garantiza la rápida corrección de errores y la respuesta a las preguntas.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for deployment
path = model.export(format="onnx")
Recomendaciones de uso
¿Cuándo elegir Ultralytics YOLO11?
- Despliegue en el mundo real: Si necesita desplegar en hardware diverso (iOSAndroid, Edge TPU, Jetson), las capacidades de exportación de YOLO11 son inigualables.
- Procesos de visión complejos: Cuando su proyecto requiere algo más que cuadros delimitadores, como el seguimiento de objetos o la estimación de la pose corporal,YOLO11 los gestiona de forma nativa.
- Creación rápida de prototipos: La facilidad de uso permite a los desarrolladores pasar de los datos a una demo funcional en cuestión de minutos.
- Limitación de recursos: Los modelos Nano y Small ofrecen la mejor relación precisión/tamaño para los dispositivos alimentados por batería.
¿Cuándo considerar DAMO-YOLO?
- Investigación académica: Los investigadores que estudian la eficacia del NAS en la detección de objetos o las técnicas de re-parametrización podrían encontrar en YOLO una valiosa línea de base.
- Configuraciones de GPU específicas: En situaciones en las que los bloques arquitectónicos específicos de YOLO se alinean perfectamente con la jerarquía de caché de un acelerador, puede ofrecer un rendimiento competitivo.
Conclusión
Mientras que YOLO introduce impresionantes conceptos académicos como MAE-NAS y RepGFPN, Ultralytics YOLO11 sigue siendo la opción superior para la gran mayoría de desarrolladores y empresas. Su combinación de precisión de última generación, arquitectura ligera y un próspero ecosistema garantiza que los proyectos no solo sean eficaces, sino también mantenibles y escalables.
Para los desarrolladores que buscan una solución de visión por ordenador fiable, versátil y de alto rendimiento, YOLO11 ofrece las herramientas y métricas necesarias para triunfar en 2025 y más allá.
Explore otras comparaciones de modelos
Para comprender mejor el panorama de los modelos de detección de objetos, explore estas comparaciones relacionadas: