Ir al contenido

EfficientDet frente a YOLOv10: la evolución de la eficacia en la detección de objetos

En el panorama en rápida evolución de la visión por ordenador, la búsqueda del equilibrio óptimo entre eficiencia computacional y precisión de detección es constante. Dos arquitecturas que han definido sus respectivas épocas son EfficientDet, una familia de modelos escalable de Google Research, y YOLOv10el último detector de extremo a extremo en tiempo real de los investigadores de la Universidad de Tsinghua.

Esta comparación explora los matices técnicos de ambos modelos, examinando cómo la moderna filosofía de diseño de YOLOv10 mejora los conceptos fundacionales introducidos por EfficientDet. Analizaremos sus arquitecturas, métricas de rendimiento e idoneidad para el despliegue en el mundo real.

Orígenes y visión general del modelo

Comprender el contexto histórico de estos modelos ayuda a apreciar los saltos tecnológicos realizados en los últimos años.

EfficientDet

EfficientDet se introdujo a finales de 2019, con el objetivo de resolver la ineficacia de escalar los modelos de detección de objetos. Propone un método de escalado compuesto que escala uniformemente la resolución, la profundidad y la anchura.

YOLOv10

Lanzado en mayo de 2024, YOLOv10 amplía los límites de la detección en tiempo real al eliminar la necesidad de supresión no máximaNMS) durante el posprocesamiento, lo que se traduce en una menor latencia y una implantación simplificada.

Más información sobre YOLOv10

Análisis Arquitectónico en Profundidad

La principal diferencia entre estos modelos radica en su enfoque de la fusión de características y el posprocesamiento.

EfficientDet: Escalado compuesto y BiFPN

EfficientDet se basa en la columna vertebral de EfficientNet. Su característica definitoria es la red piramidal bidireccional de características (BiFPN). A diferencia de las FPN tradicionales, que suman características de diferentes escalas, BiFPN introduce pesos aprendibles para enfatizar las características más importantes durante la fusión. También añade vías descendentes y ascendentes para facilitar un mejor flujo de la información.

A pesar de su eficiencia teórica en términos de FLOPs (operaciones en coma flotante por segundo), el uso intensivo de convoluciones separables en profundidad y la compleja estructura BiFPN pueden reducir en ocasiones el rendimiento del hardware de GPU en comparación con arquitecturas más sencillas.

YOLOv10: detección de extremo a extremo NMS

YOLOv10 introduce un cambio de paradigma al eliminar la dependencia de NMS. Los detectores tradicionales en tiempo real generan numerosas predicciones redundantes que deben filtrarse, creando un cuello de botella de latencia. YOLOv10 emplea asignaciones duales coherentes durante el entrenamiento: un cabezal uno a muchos para señales de supervisión ricas y un cabezal uno a uno para una inferencia precisa y NMS.

Además, YOLOv10 utiliza un diseño de modelo holístico basado en la eficiencia y la precisión. Esto incluye cabezales de clasificación ligeros, muestreo descendente desacoplado de canales espaciales y diseño de bloques guiado por rangos, lo que garantiza que cada parámetro contribuya eficazmente al rendimiento del modelo.

La ventaja de la inferencia NMS

La supresión no máximaNMS) es un paso de postprocesamiento utilizado para filtrar los recuadros delimitadores superpuestos. Es secuencial y costoso desde el punto de vista computacional, y su velocidad suele variar en función del número de objetos detectados. Al diseñar una arquitectura que predice de forma natural una caja por objeto (de extremo a extremo), YOLOv10 estabiliza la latencia de la inferencia, haciéndola altamente predecible para las aplicaciones de IA de borde.

Análisis de rendimiento: Velocidad vs. Precisión

Al comparar el rendimiento, YOLOv10 demuestra ventajas significativas en el hardware moderno, especialmente en las GPU. Mientras que EfficientDet estaba optimizado para FLOPs, YOLOv10 lo está para latencia y rendimiento reales.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Puntos clave

  • Latencia deGPU : YOLOv10 ofrece una reducción drástica del tiempo de inferencia. Por ejemplo, YOLOv10b logra un mAP más alto (52,7) que EfficientDet-d6 (52,6) y es 13 veces más rápido en una GPU T4 (6,54 ms frente a 89,29 ms).
  • Eficacia de los parámetros: Los modelos YOLOv10 suelen requerir menos parámetros para una precisión comparable. La variante YOLOv10n es extremadamente ligera (2,3M de parámetros), lo que la hace ideal para despliegues móviles.
  • Precisión: En el extremo superior, YOLOv10x alcanza un mAP de última generación de 54,4, superando a la mayor variante de EfficientDet-d7 y manteniendo una fracción de la latencia.

Eficacia de la formación y facilidad de uso

Uno de los factores más críticos para los desarrolladores es la facilidad de integración de estos modelos en los flujos de trabajo existentes.

Ventajas del ecosistema Ultralytics

YOLOv10 está integrado en el ecosistema Ultralytics , lo que proporciona una ventaja significativa en facilidad de uso y mantenimiento. Los usuarios se benefician de una APIPython unificada que estandariza la formación, la validación y el despliegue en diferentes generaciones de modelos.

  • API sencilla: Entrene un modelo en 3 líneas de código.
  • Documentación: Guías completas y ejemplos.
  • Comunidad: Una comunidad amplia y activa que proporciona apoyo y actualizaciones.
  • Eficiencia de memoria: Los modelosYOLO Ultralytics están optimizados para un menor uso de memoria CUDA durante el entrenamiento en comparación con arquitecturas más antiguas o modelos basados en transformadores pesados.

Ejemplo de código

Entrenar YOLOv10 con Ultralytics es muy sencillo. El marco gestiona automáticamente el aumento de datos, el ajuste de hiperparámetros y el registro.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Train the model on your custom dataset
# efficiently using available GPU resources
model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16)

# Run inference on an image
results = model("path/to/image.jpg")

En cambio, reproducir los resultados de EfficientDet suele requerir complejas configuraciones de TensorFlow o versiones específicas de las bibliotecas AutoML, que pueden resultar menos fáciles de usar para la creación rápida de prototipos.

Casos de Uso Ideales

Ambos modelos tienen sus méritos, pero sus ámbitos de aplicación ideales difieren en función de sus características arquitectónicas.

YOLOv10: aplicaciones en tiempo real y en los bordes

Gracias a su diseño NMS y a su baja latencia, YOLOv10 es la mejor opción para las tareas urgentes.

  • Sistemas autónomos: Fundamental para coches autoconducidos y drones, donde las decisiones con una latencia de milisegundos evitan accidentes.
  • Fabricación: Control de calidad a alta velocidad en cintas transportadoras donde los objetos se mueven rápidamente.
  • Comercio minorista inteligente: Gestión de inventarios en tiempo real y análisis de clientes mediante dispositivos periféricos.
  • Aplicaciones móviles: El tamaño compacto de YOLOv10n permite una implementación sin problemas en dispositivos iOS y Android a través de CoreML o TFLite.

EfficientDet: Sistemas académicos y heredados

EfficientDet sigue siendo pertinente en contextos específicos:

  • CPU con recursos limitados: Las variantes más pequeñas de EfficientDet (d0, d1) están muy optimizadas para regímenes de bajo FLOP, y a veces rinden bien en hardware antiguo CPU.
  • Líneas de base de investigación: Sirve como excelente línea de base para la investigación académica que compara leyes de escalado en redes neuronales.
  • Canalizaciones existentes: Las organizaciones con canalizaciones TensorFlow heredadas pueden encontrar más fácil mantener los despliegues EfficientDet existentes en lugar de migrar.

Resumen de puntos fuertes y débiles

YOLOv10

  • Ventajas:
    • NMS: la verdadera implantación de extremo a extremo simplifica la integración.
    • Equilibrio de rendimiento: una relación inigualable entre velocidad y precisión en las GPU.
    • Versatilidad: Capaz de manejar diversas tareas de detección de manera eficiente.
    • Bien mantenido: Respaldado por el ecosistema Ultralytics con actualizaciones frecuentes.
  • Debilidades:
    • Al tratarse de una arquitectura más reciente, es posible que cuente con menos años de pruebas de estabilidad a largo plazo en comparación con los modelos de la era 2019, aunque la rápida adopción lo mitiga.

EfficientDet

  • Ventajas:
    • Escalabilidad: El método de escalado compuesto es teóricamente elegante y eficaz.
    • Eficacia de los parámetros: Buena relación precisión-parámetro para su época.
  • Debilidades:
    • Inferencia lenta: El uso intensivo de convoluciones en profundidad suele ser más lento en las GPU que las convoluciones estándar de YOLO.
    • Complejidad: BiFPN añade complejidad arquitectónica que puede ser más difícil de depurar u optimizar para aceleradores de hardware personalizados.

Conclusión

Mientras que EfficientDet fue una arquitectura pionera que introdujo conceptos importantes en el escalado de modelos, YOLOv10 representa el estándar moderno para la detección de objetos. El cambio hacia arquitecturas de extremo a extremo NMS permite a YOLOv10 ofrecer un rendimiento superior que resulta crucial para las aplicaciones actuales en tiempo real.

Para desarrolladores e investigadores que deseen crear sistemas de visión robustos y de alto rendimiento, YOLOv10-y el ecosistema Ultralytics en general- ofrece una combinación convincente de velocidad, precisión y experiencia del desarrollador. La capacidad de entrenar, exportar y desplegar modelos sin problemas utilizando una plataforma unificada reduce significativamente el tiempo de comercialización.

Los interesados en los últimos avances también deberían explorar Ultralytics YOLO11que perfecciona aún más estas capacidades para una gama más amplia de tareas de visión por ordenador, como la segmentación, la estimación de la pose y la detección de objetos orientados.

Explorar otras comparaciones

Para tomar la decisión más informada, considere revisar estas comparaciones técnicas relacionadas:


Comentarios