YOLOv6.0 frente a EfficientDet: Equilibrio entre velocidad y precisión en la detección de objetos
En el panorama en rápida evolución de la visión por ordenador, seleccionar la arquitectura de detección de objetos adecuada es fundamental para el éxito de su proyecto. Esta comparativa profundiza en YOLOv6.0 y EfficientDet, dos destacados modelos que abordan el reto del reconocimiento visual desde ángulos distintos. Mientras que EfficientDet se centra en la eficiencia de los parámetros y la escalabilidad, YOLOv6.0 está diseñado específicamente para aplicaciones industriales en las que la latencia de inferencia y la velocidad en tiempo real no son negociables.
Métricas de rendimiento y análisis técnico
La diferencia fundamental entre estas dos arquitecturas radica en su filosofía de diseño. EfficientDet se basa en un sofisticado mecanismo de fusión de características conocido como BiFPN, que mejora la precisión pero a menudo a costa de la velocidad de cálculo en las GPU. Por el contrario, YOLOv6.0 adopta un diseño que tiene en cuenta el hardware y utiliza la reparametrización para agilizar las operaciones durante la inferencia, lo que se traduce en un aumento significativo de los FPS (fotogramas por segundo).
La tabla siguiente ilustra este equilibrio. Aunque EfficientDet-d7 consigue un mAP elevado, su latencia es considerable. En cambio, YOLOv6.0l ofrece una precisión comparable con tiempos de inferencia drásticamente reducidos, lo que lo hace mucho más adecuado para escenarios de inferencia en tiempo real.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6,0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Optimización del rendimiento
Para implantaciones industriales, la combinación de YOLOv6.0 con TensorRT puede generar enormes mejoras de velocidad. La simplicidad arquitectónica de YOLOv6 le permite asignarse de forma muy eficiente a las instrucciones de hardware GPU en comparación con las complejas redes piramidales de características de los modelos anteriores.
YOLOv6.0: Creado para la industria
YOLOv6.0 es un detector de objetos de una sola etapa diseñado para salvar la distancia entre la investigación académica y los requisitos industriales. Prioriza la velocidad sin sacrificar la precisión necesaria para tareas como la inspección de calidad.
Autores: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu y Xiangxiang Chu
Organización:Meituan
Fecha: 2023-01-13
Arxiv:YOLOv6 v3.0: A Full-Scale Reloading
GitHub:YOLOv6
Docs:DocumentaciónYOLOv6
Arquitectura y puntos fuertes
El núcleo de YOLOv6.0 es su eficiente columna vertebral y su diseño "RepOpt". Al utilizar la reparametrización, el modelo desacopla las estructuras de múltiples ramas en tiempo de entrenamiento de las estructuras de una sola rama en tiempo de inferencia. El resultado es un modelo fácil de entrenar con gradientes ricos, pero extremadamente rápido de ejecutar.
- Autodestilación: La estrategia de entrenamiento emplea la autodestilación, donde la predicción del propio modelo actúa como una etiqueta blanda para guiar el aprendizaje, mejorando la precisión sin datos adicionales.
- Soporte de cuantización: Se ha diseñado teniendo en cuenta la cuantización de modelos, lo que minimiza las caídas de precisión al convertir a INT8 para la implantación en el borde.
- Enfoque industrial: Ideal para IA en fabricación y robótica, donde la latencia en milisegundos cuenta.
Más información sobre YOLOv6.0
EfficientDet: Precisión escalable
EfficientDet revolucionó este campo al introducir el concepto de escalado compuesto en la detección de objetos. Optimiza simultáneamente la profundidad, la anchura y la resolución de la red para lograr un rendimiento excelente por parámetro.
Autores: Mingxing Tan, Ruoming Pang y Quoc V. Le
Organización:Google
Fecha: 2019-11-20
Arxiv:EfficientDet: Detección de objetos escalable y eficiente
GitHub:google
Arquitectura y puntos fuertes
EfficientDet se basa en la columna vertebral de EfficientNet e introduce la red piramidal bidireccional de características (BiFPN). Esta compleja estructura de cuello permite fusionar características multiescala de forma sencilla y rápida.
- BiFPN: A diferencia de las FPN tradicionales, BiFPN permite que la información fluya tanto de arriba abajo como de abajo arriba, aplicando ponderaciones a las distintas características de entrada para resaltar su importancia.
- Escalado compuesto: Un simple coeficiente $\phi$ permite a los usuarios escalar el modelo (de d0 a d7) en función de los recursos disponibles, proporcionando una curva predecible precisión-cálculo.
- Eficiencia de los parámetros: Las variantes más pequeñas (d0-d2) son extremadamente ligeras en términos de tamaño de disco y FLOPs, lo que las hace útiles para entornos con limitaciones de almacenamiento.
Complejidad arquitectónica
Aunque la BiFPN es muy eficaz en cuanto a precisión, sus patrones irregulares de acceso a la memoria pueden hacerla más lenta en las GPU en comparación con los bloques de convolución densos y regulares utilizados en las arquitecturas YOLO . Esta es la razón por la que EfficientDet suele presentar una latencia de inferencia más alta a pesar de tener menos parámetros.
Más información sobre EfficientDet
Casos de uso en el mundo real
La elección entre estos modelos depende a menudo de las limitaciones específicas del entorno de implantación.
Escenarios ideales para YOLOv6.0
- Fabricación a alta velocidad: Detección de defectos en cintas transportadoras de alta velocidad donde se requiere un alto FPS para track cada artículo.
- Navegación autónoma: Habilitación de la robótica para navegar por entornos dinámicos mediante el procesamiento de señales de vídeo en tiempo real.
- Edge Computing: Implementación en dispositivos como NVIDIA Jetson, donde los recursos de GPU deben maximizarse para obtener rendimiento.
Escenarios ideales para EfficientDet
- Análisis médico: análisis de imágenes estáticas de alta resolución, como la detección de tumores en radiografías, donde el tiempo de procesamiento es menos crítico que la precisión.
- Teledetección: Procesamiento offline de imágenes de satélite para identificar cambios medioambientales o desarrollo urbano.
- IoT de bajo almacenamiento: Dispositivos con una capacidad de almacenamiento extremadamente limitada que requieren un modelo de archivo de pequeño tamaño (como EfficientDet-d0).
La ventaja de Ultralytics: ¿Por qué elegir YOLO11?
Mientras que YOLOv6.0 y EfficientDet son modelos capaces, el Ultralytics YOLO11 representa la vanguardia de la tecnología de visión por ordenador. YOLO11 refina los mejores atributos de las generaciones anteriores de YOLO y los integra en un ecosistema fluido y fácil de usar.
Principales ventajas de YOLO11
- Facilidad de uso: Ultralytics prioriza la experiencia del desarrollador. Con una API Pythonic, puede entrenar, validar y desplegar modelos en unas pocas líneas de código, a diferencia de los complejos archivos de configuración que a menudo se requieren para EfficientDet.
- Versatilidad: A diferencia de YOLOv6 y EfficientDet, que son principalmente modelos de detección de objetos, YOLO11 admite de forma nativa múltiples tareas, como la segmentación de instancias, la estimación de poses, los recuadros delimitadores orientados (OBB) y la clasificación.
- Equilibrio de rendimiento: YOLO11 logra un equilibrio de vanguardia entre velocidad y precisión. Supera sistemáticamente a las arquitecturas más antiguas en el conjunto de datosCOCO , al tiempo que mantiene una baja latencia.
- Ecosistema bien mantenido: Los modelos de Ultralytics están respaldados por una comunidad activa y actualizaciones frecuentes. Tendrá acceso a una amplia documentación, tutoriales e integraciones perfectas con herramientas como Ultralytics HUB para la formación en la nube y la gestión de conjuntos de datos.
- Eficiencia del entrenamiento: YOLO11 está diseñado para ahorrar recursos durante el entrenamiento, por lo que suele converger más rápido y requerir menos memoria deGPU que los complejos modelos basados en transformadores o arquitecturas más antiguas.
from ultralytics import YOLO
# Load the YOLO11 model (recommended over older versions)
model = YOLO("yolo11n.pt")
# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
results[0].show()
Explorar Otros Modelos
Si está evaluando opciones para su canal de visión por ordenador, considere la posibilidad de explorar otros modelos del catálogo de Ultralytics . El sitio YOLOv8 ofrece un rendimiento sólido para una amplia gama de tareas, mientras que el modelo basado en transformador RT-DETR ofrece una alternativa para escenarios que requieren un conocimiento global del contexto. Para aplicaciones móviles específicas, YOLOv10 también merece la pena. Compararlos con EfficientDet puede ayudar a ajustar la selección a los requisitos específicos de hardware y precisión.