Ir al contenido

YOLOv9 EfficientDet: comparación técnica de arquitectura y rendimiento

En el cambiante panorama de la visión artificial, seleccionar la arquitectura adecuada para la detección de objetos es una decisión fundamental que afecta a la latencia, la precisión y la complejidad de implementación del sistema. Esta guía ofrece una comparación técnica detallada entre YOLOv9, un modelo de última generación introducido a principios de 2024, y EfficientDet, una arquitectura muy influyente de Google por su escalabilidad eficiente. Analizamos sus diferencias estructurales, métricas de rendimiento y idoneidad para aplicaciones del mundo real.

Análisis de las métricas de rendimiento

La siguiente tabla compara el rendimiento de varias escalas de modelos. YOLOv9 muestra, en general, ratios de precisión-parámetro superiores y velocidades de inferencia más rápidas en hardware moderno en comparación con la arquitectura EfficientDet más antigua.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Descripciones generales del modelo

YOLOv9

Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 21/02/2024
Enlaces:Arxiv | GitHub | Docs

YOLOv9 importantes innovaciones arquitectónicas para abordar el problema del «cuello de botella de la información» en las redes profundas. La contribución principal es la información de gradiente programable (PGI), que genera gradientes fiables a través de una rama de supervisión auxiliar para garantizar que las capas profundas conserven la información crítica de las características. Además, utiliza la red de agregación de capas eficiente generalizada (GELAN), una arquitectura ligera que maximiza la eficiencia de los parámetros.

Más información sobre YOLOv9

EfficientDet

Autores: Mingxing Tan, Ruoming Pang, Quoc V. Le
Organización:Google
Fecha: 20-11-2019
Enlaces:Arxiv | GitHub

EfficientDet fue un trabajo pionero en AutoML que introdujo la red piramidal de características bidireccionales (BiFPN). A diferencia de las FPN tradicionales, BiFPN permite una fácil fusión de características multiescala mediante la introducción de pesos aprendibles. El modelo también emplea el escalado compuesto, un método que escala uniformemente la resolución, la profundidad y la anchura, lo que le permite alcanzar un rendimiento excelente en un amplio espectro de limitaciones de recursos (de D0 a D7).

Análisis Arquitectónico en Profundidad

Fusión de características: GELAN frente a BiFPN

La principal diferencia radica en cómo estos modelos agregan características. EfficientDet se basa en la compleja estructura BiFPN, que, aunque teóricamente es eficiente en FLOP, puede consumir mucha memoria y ser más difícil de optimizar para aceleradores de hardware específicos como TensorRT.

Por el contrario, la arquitectura GELAN YOLOv9 combina los mejores aspectos de CSPNet y ELAN. Da prioridad a la planificación de la ruta del gradiente frente a las complejas conexiones de fusión. El resultado es una red que no solo es más ligera en cuanto a parámetros, sino también más «compatible con el hardware», lo que se traduce en GPU mayor GPU durante el entrenamiento y la inferencia.

Flujo de gradiente y pérdida de información

EfficientDet se basa en la retropropagación estándar a través de una columna vertebral EfficientNet muy profunda. YOLOv9 el problema por el cual las redes profundas «olvidan» los detalles de los datos de entrada. A través de PGI, YOLOv9 una rama reversible auxiliar que guía el proceso de aprendizaje, lo que garantiza que la rama principal capture características semánticas robustas sin el costo computacional de mantener esas ramas auxiliares durante la inferencia.

Advertencia: Beneficio PGI

La información de gradiente programable (PGI) permite YOLOv9 una mejor convergencia con menos datos, lo que lo hace especialmente eficaz para conjuntos de datos personalizados en los que los ejemplos anotados pueden ser escasos.

Ecosistema y facilidad de uso

Una de las diferencias más profundas para los desarrolladores es el ecosistema que rodea a estos modelos.

EfficientDet tiene sus raíces principalmente en el TensorFlow . Aunque es potente, su uso a menudo requiere navegar por complejas cadenas de dependencias o repositorios antiguos que pueden carecer de actualizaciones frecuentes.

YOLOv9, integrado en el Ultralytics , ofrece una experiencia optimizada. Los desarrolladores pueden acceder al modelo a través de una sencilla Python , lo que permite el entrenamiento, la validación y la implementación en cuestión de minutos. El Ultralytics se encarga del aumento de datos, el registro (por ejemplo, en MLflow o Comet) y la exportación automáticamente.

from ultralytics import YOLO

# Load a pretrained YOLOv9c model
model = YOLO("yolov9c.pt")

# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX for deployment
model.export(format="onnx")

Este fragmento muestra la facilidad de uso inherente a Ultralytics . El marco también admite la precisión mixta automática (AMP) yGPU desde el primer momento, lo que garantiza la eficiencia del entrenamiento.

Versatilidad y despliegue

Soporte de Tareas

EfficientDet está diseñado fundamentalmente para la detección de objetos. Adaptarlo para tareas como la segmentación o la estimación de la pose requiere modificaciones arquitectónicas significativas y código personalizado.

Ultralytics , incluidos YOLOv9 sus sucesores, se basan en un código base versátil que admite de forma nativa:

Compatibilidad con Edge y memoria

Aunque EfficientDet-D0 es pequeño, ampliarlo a D7 conlleva unos costes de memoria enormes debido al escalado de la resolución (hasta 1536x1536). YOLOv9 una entrada estándar de 640x640 para la mayoría de los benchmarks, al tiempo que alcanza una precisión superior. Esta resolución de entrada más baja reduce significativamente los requisitos de memoria para VRAM, lo que permite tamaños de lote más grandes y experimentos más rápidos en GPU de consumo.

Además, Ultralytics admiten la exportación con un solo clic a formatos como TFLite para móviles, OpenVINO para Intel y CoreML dispositivos Apple, lo que garantiza una amplia compatibilidad con Edge.

Casos de uso en el mundo real

La elección del modelo suele determinar el éxito de una aplicación específica:

  • Análisis minorista: para contar productos en estantes, YOLOv9 es superior debido a su alta precisión (mAP) en objetos pequeños, impulsada por la capacidad de PGI para retener detalles muy precisos.
  • Drones autónomos: en escenarios que requieren inferencia en tiempo real en hardware integrado (por ejemplo, Jetson Orin), la eficiente arquitectura GELAN YOLOv9 proporciona los FPS necesarios que las complejas capas BiFPN de EfficientDet a menudo tienen dificultades para igualar.
  • Sistemas heredados:EfficientDet sigue siendo relevante en comparaciones de investigación o TPU heredadas Google TPU , donde la arquitectura específica del modelo está codificada en el pipeline del hardware.

El futuro: YOLO26

Aunque YOLOv9 un rendimiento excepcional, el campo de la IA avanza rápidamente. Ultralytics innovando con YOLO26, la opción recomendada para nuevos proyectos.

YOLO26 se basa en los puntos fuertes de YOLO anteriores YOLO , pero introduce un diseño nativo integral NMS, lo que elimina la latencia y la complejidad del posprocesamiento de supresión no máxima. Cuenta con el optimizador MuSGD, un híbrido de SGD Muon, y elimina la pérdida focal de distribución (DFL) para facilitar la exportación. Estos cambios dan como resultado CPU hasta un 43 % más rápida y una mayor estabilidad en el entrenamiento.

Más información sobre YOLO26

Además, YOLO26 incorpora ProgLoss + STAL (Soft-Target Anchor Loss), lo que ofrece mejoras notables en el reconocimiento de objetos pequeños, algo fundamental para la robótica y las imágenes aéreas. Para los desarrolladores que buscan el equilibrio definitivo entre velocidad, precisión y facilidad de implementación, YOLO26 representa el nuevo estándar.

Conclusión

Ambas arquitecturas se han ganado un lugar en la historia de la visión artificial. EfficientDet demostró el poder del escalado compuesto, mientras que YOLOv9 mostró cómo los gradientes programables pueden recuperar información en redes profundas. Sin embargo, para los entornos de producción modernos, el Ultralytics , que admite tanto YOLOv9 el más reciente YOLO26, ofrece una ventaja distintiva en términos de mantenibilidad, velocidad de entrenamiento y flexibilidad de implementación.

Ver También


Comentarios