Ir al contenido

YOLOv9 YOLOv6. YOLOv6: innovación arquitectónica y análisis del rendimiento

El panorama de la detección de objetos en tiempo real cambia rápidamente, y los investigadores amplían constantemente los límites de la precisión y la eficiencia. Dos hitos importantes en esta evolución son YOLOv9, presentado por Academia Sinica a principios de 2024, y YOLOv6.YOLOv6, una sólida versión de Meituan de 2023. Aunque ambos modelos tienen como objetivo resolver retos industriales, adoptan enfoques arquitectónicos fundamentalmente diferentes para lograr un alto rendimiento.

Filosofías Arquitectónicas

La diferencia fundamental entre estos dos modelos radica en cómo gestionan el flujo de información y la extracción de características a lo largo de la red neuronal.

YOLOv9: Recuperación de información perdida

YOLOv9 aborda un problema fundamental del aprendizaje profundo: la pérdida de información a medida que los datos se propagan a través de capas profundas. Los autores, Chien-Yao Wang y Hong-Yuan Mark Liao, introdujeron la información de gradiente programable (PGI). La PGI proporciona una rama de supervisión auxiliar que garantiza la conservación de la información semántica crítica, lo que permite al modelo aprender características más robustas sin añadir costes de inferencia.

Además, YOLOv9 la arquitectura GELAN (Red de Agregación de Capas Eficiente Generalizada). GELAN optimiza la utilización de parámetros, combinando las fortalezas de CSPNet y ELAN para lograr una precisión superior con menos FLOP en comparación con las generaciones anteriores.

Más información sobre YOLOv9

YOLOv6-3.0: Optimización Industrial

YOLOv6.YOLOv6, desarrollado por el equipo de visión de Meituan, se centra principalmente en la implementación industrial práctica. Denominada «A Full-Scale Reloading» (Recarga a gran escala), esta versión introdujo el Anchor-Aided Training (AAT), que combina las ventajas de los detectores basados en anclajes y sin anclajes para estabilizar el entrenamiento. También cuenta con un diseño renovado del cuello que utiliza la concatenación bidireccional (BiC) para mejorar la fusión de características.

YOLOv6 conocido por su uso intensivo de la reparametrización al estilo RepVGG, lo que permite estructuras de entrenamiento complejas que se reducen a bloques de inferencia más simples y rápidos.

Más información sobre YOLOv6

Comparación de rendimiento

Al comparar el rendimiento, YOLOv9 muestra una precisión media (mAP) más alta con costes computacionales similares o inferiores. La arquitectura GELAN permite YOLOv9 procesar imágenes con gran eficiencia, lo que lo convierte en una opción formidable para tareas que requieren alta precisión.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Mientras que YOLOv6. YOLOv6 muestra TensorRT competitivas, debido en gran parte a su diseño de backbone compatible con el hardware,YOLOv9 alcanzar una mayor precisión por parámetro. Por ejemplo, YOLOv9m supera a YOLOv6.YOLOv6 en precisión (51,4 % frente a 50,0 %) y utiliza un número significativamente menor de parámetros (20,0 millones frente a 34,9 millones).

Ecosistema y facilidad de uso

Uno de los factores más importantes para los desarrolladores es el ecosistema que rodea a un modelo. Aquí es donde la Ultralytics y la biblioteca Ultralytics ofrecen una ventaja clara.

La ventaja de Ultralytics

YOLOv9 totalmente integrado en el Ultralytics y ofrece una API unificada que simplifica todo el ciclo de vida de las operaciones de aprendizaje automático (MLOps).

  • Entrenamiento sencillo: puedes entrenar un YOLOv9 con datos personalizados en solo unas pocas líneas de Python.
  • Eficiencia de memoria: Ultralytics están optimizados para reducir el uso GPU durante el entrenamiento, lo que evita los errores de memoria insuficiente (OOM) habituales en otros repositorios.
  • Versatilidad: El ecosistema admite la exportación sencilla a formatos como ONNX, OpenVINOy TensorRT.

Flujo de Trabajo Optimizado

El uso de Ultralytics una cantidad significativa de tiempo de ingeniería en comparación con la configuración de repositorios de investigación independientes.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset with default augmentations
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Por el contrario, utilizar YOLOv6 implicar clonar el repositorio específico de Meituan, configurar un entorno dedicado y gestionar manualmente los archivos de configuración y los procesos de aumento de datos.

Aplicaciones en el mundo real

La elección entre estos modelos suele depender de las limitaciones específicas de su entorno de implementación.

Escenarios de alta precisión (YOLOv9)

La capacidad YOLOv9 para retener información semántica lo hace ideal para tareas de detección complejas en las que los pequeños detalles son importantes.

  • Imágenes médicas: en tareas como la detección de tumores, la arquitectura PGI ayuda a preservar características débiles que, de otro modo, podrían perderse en las capas profundas de la red.
  • Vigilancia aérea: para detectar objetos pequeños, como vehículos o personas, a partir de imágenes tomadas por drones, la retención de características mejorada YOLOv9 aumenta las tasas de recuperación.

Automatización industrial (YOLOv6.0)

YOLOv6 diseñó explícitamente para aplicaciones industriales en las que el hardware es fijo y el rendimiento es lo más importante.

  • Líneas de fabricación: en entornos controlados como la fabricación de baterías, donde las cámaras inspeccionan las piezas en una cinta transportadora, las TensorRT YOLOv6 ser muy eficaces.

Perspectivas Futuras: El Poder de YOLO26

Aunque YOLOv9 YOLOv6. YOLOv6 son modelos excelentes, el campo ha seguido avanzando. El último YOLO26 representa lo último en tecnología para los desarrolladores que buscan el equilibrio definitivo entre velocidad, precisión y facilidad de uso.

YOLO26 introduce varias características innovadoras:

  • NMS de extremo a extremo: al eliminar la supresión no máxima (NMS), YOLO26 simplifica los procesos de implementación y reduce la variabilidad de la latencia.
  • Optimizador MuSGD: un híbrido de SGD y Muon, este optimizador aporta mejoras de estabilidad inspiradas en el entrenamiento de modelos de lenguaje grandes (LLM).
  • Eficiencia mejorada: con la eliminación de la pérdida focal de distribución (DFL) y otras optimizaciones, YOLO26 logra CPU hasta un 43 % más rápida, lo que lo hace perfecto para dispositivos periféricos como Raspberry Pi.
  • Versatilidad de tareas: más allá de la detección, YOLO26 ofrece mejoras especializadas para la estimación de poses (utilizando la estimación de la log-verosimilitud residual) y la segmentación.

Más información sobre YOLO26

Conclusión

Ambos YOLOv9 que YOLOv6.YOLOv6 ofrecen unas capacidades impresionantes. YOLOv6. YOLOv6 sigue siendo un fuerte competidor para flujos de trabajo industriales específicos TensorRT. Sin embargo, para la mayoría de los investigadores y desarrolladores, YOLOv9 ofrece una eficiencia y precisión de parámetros superiores. Además, al formar parte del Ultralytics , garantiza un soporte a largo plazo, un fácil acceso a pesos preentrenados y una ruta de actualización fluida a arquitecturas más nuevas como YOLO26.

Referencias

  1. YOLOv9: Wang, C.-Y., y Liao, H.-Y. M. (2024).YOLOv9: Aprender lo que quieres aprender utilizando información de gradiente programable». arXiv:2402.13616.
  2. YOLOv6 .0: Li, C., et al. (2023). «YOLOv6 .0: A Full-Scale Reloading». arXiv:2301.05586.
  3. Ultralytics :ultralytics

Comentarios