DAMO-YOLO vs. YOLO11: Una comparación técnica
En el panorama en rápida evolución de la visión por ordenador, elegir el modelo de detección de objetos adecuado es fundamental para el éxito de la aplicación. Esta exhaustiva comparativa analiza dos importantes arquitecturas: YOLO, desarrollada por Alibaba Group, y Ultralytics YOLO11el modelo más avanzado de Ultralytics. Aunque ambos modelos pretenden optimizar el equilibrio entre velocidad y precisión, sirven a objetivos primarios diferentes y ofrecen ventajas distintas en función del escenario de despliegue.
Esta guía ofrece una visión en profundidad de sus arquitecturas, métricas de rendimiento y casos de uso ideales para ayudar a desarrolladores e investigadores a tomar decisiones con conocimiento de causa.
DAMO-YOLO
Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización:Alibaba Group
Fecha: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHubYOLO
DocsYOLO
YOLO es un marco de detección de objetos que integra varias tecnologías de vanguardia para lograr un alto rendimiento. Se centra en reducir la latencia manteniendo una precisión competitiva mediante una serie de innovaciones arquitectónicas impulsadas por la investigación de Alibaba.
Más información sobre DAMO-YOLO
Arquitectura e innovación
YOLO introduce un enfoque de "destilar y seleccionar" e incorpora los siguientes componentes clave:
- Red troncal MAE-NAS: Utilizando la Búsqueda de Arquitectura Neuronal (NAS), la columna vertebral se optimiza bajo restricciones específicas para garantizar una extracción eficiente de las características.
- RepGFPN eficiente: Una red piramidal de características generalizadas (GFPN) utiliza en gran medida mecanismos de re-parametrización para mejorar la fusión de características a través de diferentes escalas sin incurrir en grandes costes computacionales durante la inferencia.
- ZeroHead: este ligero cabezal de detección desacopla las tareas de clasificación y regresión, con el objetivo de maximizar la velocidad de inferencia.
- AlignedOTA: Una estrategia de asignación de etiquetas que resuelve la desalineación entre los objetivos de clasificación y regresión, mejorando la convergencia durante el entrenamiento.
Aunque YOLO presenta impresionantes avances teóricos, se trata principalmente de un marco orientado a la investigación y centrado en la detección de objetos. Por lo general, carece del soporte multitarea nativo que se encuentra en ecosistemas más completos.
Ultralytics YOLO11
Autores: Glenn Jocher, Jing Qiu
Organización:Ultralytics
Fecha: 2024-09-27
GitHubultralytics
Docsyolo11
Ultralytics YOLO11 representa la cúspide de la visión por ordenador en tiempo real, perfeccionando el legado de la serie YOLO con mejoras significativas en arquitectura, eficiencia y facilidad de uso. Está diseñado no sólo como un modelo, sino como una herramienta versátil para su despliegue práctico en el mundo real a través de diversos entornos de hardware.
Arquitectura y ecosistema
YOLO11 se basa en éxitos anteriores con una arquitectura sin anclajes perfeccionada. Presenta una columna vertebral mejorada para una extracción de características superior y un diseño de cuello modificado que mejora el flujo de información a varias escalas.
Entre las principales ventajas del marco Ultralytics YOLO11 se incluyen:
- Versatilidad: A diferencia de muchos competidores, YOLO11 admite de forma nativa una amplia gama de tareas, como la detección de objetos, la segmentación de instancias, la estimación de poses, la clasificación de imágenes y los recuadros delimitadores orientados (OBB).
- Facilidad de uso: El modelo está envuelto en una APIPython fácil de usar y una CLIlo que lo hace accesible tanto para principiantes como para expertos.
- Eficiencia del entrenamiento: Optimizado para una convergencia más rápida, YOLO11 utiliza funciones eficientes de aumento y pérdida de datos, lo que permite a los usuarios entrenar modelos personalizados en conjuntos de datos como COCO con una menor sobrecarga de recursos.
- Ecosistema bien mantenido: Respaldado por Ultralytics los usuarios se benefician de actualizaciones frecuentes, amplia documentación y una perfecta integración con herramientas de MLOps como Ultralytics HUB.
¿Lo sabías?
YOLO11 está diseñado para ser altamente eficiente en dispositivos Edge AI. Su arquitectura optimizada garantiza un bajo uso de memoria y altas velocidades de inferencia en hardware como NVIDIA Jetson y Raspberry Pi, lo que la convierte en una opción superior para aplicaciones integradas en comparación con modelos más pesados basados en transformadores.
Comparación de rendimiento
El gráfico y la tabla siguientes ilustran las diferencias de rendimiento entre YOLO y YOLO11. Ultralytics YOLO11 demuestra sistemáticamente una precisión superiormAP) y velocidades de inferencia favorables, sobre todo en hardware de CPU donde YOLO carece de referencias oficiales.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Análisis de los resultados
- Precisión: YOLO11 supera con creces a los modelos comparables YOLO . Por ejemplo, YOLO11m alcanza un 51,5 mAP, notablemente superior a DAMO-YOLOm con 49,2 mAP, a pesar de tener menos parámetros (20,1M frente a 28,2M).
- Velocidad de inferencia: En GPU (T4 TensorRT), YOLO11 ofrece una latencia muy competitiva. YOLO11n es increíblemente rápido, con 1,5 ms, lo que lo hace idóneo para aplicaciones de latencia ultrabaja.
- Rendimiento deCPU : Una gran ventaja de los modelos Ultralytics es su transparencia en cuanto al rendimiento de CPU . YOLO11 está optimizado para la inferencia en CPU mediante ONNX y OpenVINO, mientras que YOLO se centra en gran medida en GPU, dejando a menudo sin definir el rendimiento de despliegue de CPU .
- Eficacia del modelo: YOLO11 demuestra un mejor equilibrio entre parámetros y rendimiento. La eficiencia arquitectónica permite archivos de modelo más pequeños, lo que se traduce en descargas más rápidas y menores requisitos de almacenamiento en los dispositivos de borde.
Diferenciadores Clave y Casos de Uso
Puntos fuertes de Ultralytics YOLO11
Desarrolladores que utilizan Ultralytics YOLO11 acceden a un sólido entorno de producción.
- Equilibrio de rendimiento: La arquitectura del modelo se ajusta meticulosamente para ofrecer el mejor equilibrio entre velocidad de inferencia y precisión, algo crucial para el análisis de vídeo en tiempo real.
- Capacidad multitarea: Si el alcance de su proyecto se amplía de la detección al seguimiento o la segmentación, YOLO11 lo gestiona sin problemas dentro de la misma base de código.
- Facilidad de uso: El
ultralyticssimplifica todo el proceso. La carga de un modelo, la ejecución de predicciones y la exportación a formatos como CoreML, TFLite o TensorRT pueden realizarse con unas pocas líneas de código. - Menor consumo de memoria: En comparación con los detectores basados en transformadores o las arquitecturas no optimizadas, YOLO11 suele requerir menos memoria CUDA durante el entrenamiento, lo que permite a los investigadores entrenarse en GPU de consumo.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Puntos fuertes de YOLO
YOLO es un fuerte competidor en los círculos de investigación académica.
- Innovación en investigación: Funciones como MAE-NAS y ZeroHead ofrecen interesantes perspectivas sobre la búsqueda de arquitecturas neuronales y el desacoplamiento de cabezas.
- Rendimiento deGPU : En el caso de aplicaciones industriales específicas que se ejecutan exclusivamente en GPU compatibles, YOLO proporciona un alto rendimiento, aunque a menudo va a la zaga de YOLO11 en cuanto a eficiencia de precisión por parámetro.
Conclusión
Mientras que YOLO introduce conceptos novedosos del equipo de investigación de Alibaba, Ultralytics YOLO11 destaca como la opción superior para la gran mayoría de desarrolladores y empresas. Su dominio se define no solo por su mayor mAP y una inferencia más rápida, sino por el amplio ecosistema que lo respalda.
Desde la facilidad de uso y la versatilidad hasta una base de código bien mantenida y el apoyo activo de la comunidad, YOLO11 reduce la barrera de entrada para la creación de soluciones avanzadas de IA. YOLO11 ofrece la fiabilidad y el rendimiento necesarios para las aplicaciones modernas de visión por ordenador, tanto si se implementa en servidores en la nube como en dispositivos de última generación con recursos limitados.
Explore otras comparaciones de modelos
Para comprender mejor cómo se comparan los modelos Ultralytics con otras arquitecturas, explore nuestras páginas de comparación detallada: