Ir al contenido

YOLOv9 vs. YOLO: una comparación técnica exhaustiva

En el panorama en rápida evolución de la visión por ordenador, la selección de la arquitectura óptima de detección de objetos es fundamental para el éxito del proyecto. Este análisis ofrece una comparación técnica detallada entre dos modelos formidables: YOLOv9célebre por sus innovaciones arquitectónicas en información de gradiente, y YOLO, un modelo del grupo Alibaba diseñado para la inferencia de alta velocidad. Examinamos sus arquitecturas únicas, métricas de rendimiento y escenarios ideales de despliegue para guiar a desarrolladores e investigadores en la toma de decisiones informadas.

YOLOv9: información de gradiente programable para una mayor precisión

YOLOv9 marca una evolución significativa en la serie You Only Look OnceYOLO), centrándose en resolver el problema del cuello de botella de información inherente a las redes neuronales profundas. Al garantizar que los datos de entrada cruciales se conservan en todas las capas de la red, YOLOv9 logra una precisión de vanguardia.

Autores: Chien-Yao Wang y Hong-Yuan Mark Liao
Organización:Institute of Information Science, Academia Sinica, Taiwan
Fecha: 2024-02-21
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9
Docs:Ultralytics YOLOv9 Documentation

Arquitectura e innovaciones básicas

La arquitectura de YOLOv9 se basa en dos conceptos innovadores diseñados para optimizar la eficiencia del aprendizaje profundo:

  1. Información de gradiente programable (PGI): PGI es un marco de supervisión auxiliar que aborda el problema de la pérdida de información a medida que los datos se propagan a través de capas profundas. Garantiza que la función de pérdida reciba gradientes fiables, lo que permite al modelo aprender características más eficaces sin añadir costes de inferencia.
  2. Red Generalizada de Agregación Eficiente de Capas (GELAN): Esta novedosa arquitectura combina los puntos fuertes de CSPNet y ELAN. GELAN está diseñada para maximizar la utilización de parámetros y la eficiencia computacional, proporcionando una red troncal ligera pero potente que soporta varios bloques computacionales.

Fortalezas y ecosistema

  • Máxima precisión: YOLOv9 alcanza un nivel excepcional mAP en el conjunto de datosCOCO , estableciendo puntos de referencia para los detectores de objetos en tiempo real.
  • Eficacia de los parámetros: Gracias a GELAN, el modelo ofrece un alto rendimiento con menos parámetros en comparación con muchos predecesores.
  • Integración conUltralytics : Formar parte del ecosistema Ultralytics significa que YOLOv9 se beneficia de una APIPython unificada, opciones de exportación de modelos sin fisurasONNX, TensorRT, CoreML) y una sólida documentación.
  • Estabilidad del entrenamiento: El marco PGI mejora significativamente la velocidad de convergencia y la estabilidad durante el entrenamiento del modelo.

Debilidades

  • Intensidad de recursos: Si bien son eficientes para su clase de precisión, las variantes más grandes (como YOLOv9) requieren una importante GPU para el entrenamiento.
  • Enfoque de la tarea: La investigación central se centra principalmente en la detección de objetos, mientras que otros modelos Ultralytics como YOLO11 admiten de forma nativa una gama más amplia de tareas, como la estimación de la pose y el OBB.

Más información sobre YOLOv9

YOLO: arquitectura neuronal en busca de la velocidad

YOLO es una prueba del poder del diseño automatizado de arquitecturas. Desarrollada por Alibaba, aprovecha la búsqueda de arquitecturas neuronales (NAS) para encontrar el equilibrio óptimo entre latencia de inferencia y rendimiento de detección, orientada específicamente a aplicaciones industriales.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización:Alibaba Group
Fecha: 2022-11-23
Arxiv:2211.15444
GitHub:YOLO

Arquitectura y Características Clave

YOLO se distingue por varios avances tecnológicos destinados a maximizar el rendimiento:

  • Red troncal MAE-NAS: Utiliza una estructura troncal derivada de la Búsqueda de Arquitectura Neural Eficiente Consciente de los Métodos, optimizando la topología de la red para restricciones de hardware específicas.
  • RepGFPN eficiente: El modelo emplea una red piramidal de características generalizadas reparametrizadas para su cuello, lo que mejora la fusión de características al tiempo que mantiene una baja latencia.
  • ZeroHead: un diseño de cabezal de detección ligero que reduce la sobrecarga computacional asociada normalmente a las capas de predicción finales.
  • AlignedOTA: Una estrategia mejorada de asignación de etiquetas que resuelve la desalineación entre las tareas de clasificación y regresión durante el entrenamiento.

Fortalezas

  • Baja latencia: YOLO está diseñado para la velocidad, por lo que es muy eficaz para la inferencia en tiempo real en los dispositivos de borde y GPUs.
  • Diseño automatizado: El uso de NAS garantiza que la arquitectura se ajusta matemáticamente para lograr la eficiencia en lugar de depender únicamente de la heurística manual.
  • Sin an clas: adopta un enfoque sin anclas, lo que simplifica el proceso de ajuste de hiperparámetros relacionado con las cajas de anclas.

Debilidades

  • Ecosistema limitado: En comparación con la amplia gama de herramientas disponibles para los modelos de Ultralytics , YOLO cuenta con una comunidad más reducida y menos herramientas de integración listas para MLOps.
  • Versatilidad: Está especializado principalmente en la detección, y carece de las capacidades multitarea nativas (segmentación, clasificación) que se encuentran en marcos más completos.

Más información sobre DAMO-YOLO

Análisis de rendimiento: Velocidad vs. Precisión

Cuando se comparan las métricas de rendimiento, las compensaciones entre las dos arquitecturas quedan claras. YOLOv9 da prioridad a la conservación de la información para lograr una mayor precisión, superando a menudo a YOLO en las puntuaciones mAP en modelos de tamaño similar. Por el contrario, YOLO se centra en el rendimiento bruto.

Sin embargo, la eficiencia de la arquitectura GELAN de YOLOv9 le permite seguir siendo muy competitivo en velocidad al tiempo que ofrece una mejor calidad de detección. Por ejemplo, YOLOv9 alcanza un mAP significativamente mayor (53,0%) en comparación con YOLO (50,8%) al tiempo que utiliza menos parámetros (25,3M frente a 42,1M). Esto pone de relieve la capacidad de YOLOv9 para ofrecer "más por menos" en términos de complejidad del modelo.

Interpretación de resultados

A la hora de evaluar los modelos, hay que tener en cuenta las operaciones en coma flotante (FLOPs ) junto con el recuento de parámetros. Un recuento de FLOPs inferior suele indicar un modelo más ligero desde el punto de vista computacional y potencialmente más rápido en hardware de IA móvil o de vanguardia.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Casos de Uso Ideales

Las diferencias arquitectónicas dictan los escenarios de despliegue ideales para cada modelo.

Aplicaciones YOLOv9

YOLOv9 es la elección preferida para aplicaciones en las que la precisión no es negociable.

  • Imágenes médicas: Detección de anomalías sutiles en el análisis de imágenes médicas en las que omitir una detección podría ser crítico.
  • Navegación autónoma: Sistemas avanzados de percepción para coches autónomos que requieren una alta confianza en la detección de objetos.
  • Vigilancia detallada: Sistemas de seguridad que necesitan identificar objetos pequeños u operar en entornos complejos con mucho desorden.

Aplicaciones YOLO

YOLO destaca en entornos limitados por estrictos presupuestos de latencia.

  • Fabricación a alta velocidad: Líneas industriales en las que los sistemas de visión por ordenador deben seguir el ritmo de las rápidas cintas transportadoras.
  • Análisis de vídeo: Procesamiento de volúmenes masivos de flujos de vídeo en los que el coste de rendimiento es una preocupación primordial.

La ventaja Ultralytics

Aunque ambos modelos son técnicamente impresionantes, la elección de un modelo dentro del ecosistemaUltralytics -como YOLOv9 o el vanguardista YOLO11-ofrece distintas ventajas a desarrolladores y empresas.

Flujo de trabajo y facilidad de uso sin fisuras

Ultralytics da prioridad a la facilidad de uso. Los modelos son accesibles a través de una interfaz unificada que abstrae el complejo código boilerplate. El proceso es coherente e intuitivo, tanto si se trata de entrenar con datos personalizados como de realizar inferencias.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Ecosistema bien mantenido

Los modelos de Ultralytics están respaldados por una comunidad activa y actualizaciones frecuentes. Características como Ultralytics HUB permiten la gestión de conjuntos de datos y la formación a través de Internet, mientras que las amplias integraciones con herramientas como TensorBoard y MLflow agilizan el ciclo de vida de MLOps. Por el contrario, los modelos de investigación como YOLO a menudo carecen de este nivel de soporte continuo e integración de herramientas.

Versatilidad y eficacia

Los modelos de Ultralytics están diseñados para ser versátiles. Mientras que YOLO es específico de la detección, los modelos de Ultralytics como YOLO11 amplían sus capacidades a la segmentación de instancias, la estimación de poses y la detección de recuadros delimitadores orientados (OBB). Además, están optimizados para un uso eficiente de la memoria, por lo que a menudo requieren menos memoria CUDA durante el entrenamiento en comparación con otras arquitecturas, lo que supone un ahorro en costes de hardware.

Conclusión

En la comparación de YOLOv9 frente a YOLO, ambos modelos muestran los rápidos avances de la IA. YOLO ofrece una arquitectura convincente para la optimización de la velocidad pura. Sin embargo, YOLOv9 destaca como la solución más robusta para la mayoría de las aplicaciones prácticas. Ofrece una precisión superior por parámetro, utiliza una arquitectura avanzada para evitar la pérdida de información y reside en el próspero ecosistema Ultralytics . Para los desarrolladores que buscan el mejor equilibrio entre rendimiento, facilidad de uso y soporte a largo plazo, los modelos de Ultralytics siguen siendo la opción recomendada.

Explorar Otros Modelos

Descubra cómo se comparan otros modelos de última generación en nuestra documentación:


Comentarios