Saltar al contenido

YOLOv9: Un salto adelante en la tecnolog铆a de detecci贸n de objetos

YOLOv9 marca un avance significativo en la detecci贸n de objetos en tiempo real, introduciendo t茅cnicas revolucionarias como la Informaci贸n de Gradiente Programable (PGI) y la Red de Agregaci贸n de Capas Eficiente Generalizada (GELAN). Este modelo demuestra notables mejoras en eficacia, precisi贸n y adaptabilidad, estableciendo nuevos puntos de referencia en el conjunto de datos MS COCO. El proyecto YOLOv9, aunque desarrollado por un equipo independiente de c贸digo abierto, se basa en la s贸lida base de c贸digo proporcionada por Ultralytics YOLOv5mostrando el esp铆ritu de colaboraci贸n de la comunidad de investigaci贸n en IA.

Comparaci贸n del rendimiento de YOLOv9

Introducci贸n a YOLOv9

En la b煤squeda de una detecci贸n 贸ptima de objetos en tiempo real, YOLOv9 destaca por su enfoque innovador para superar los retos de p茅rdida de informaci贸n inherentes a las redes neuronales profundas. Al integrar PGI y la vers谩til arquitectura GELAN, YOLOv9 no s贸lo mejora la capacidad de aprendizaje del modelo, sino que tambi茅n garantiza la retenci贸n de informaci贸n crucial durante todo el proceso de detecci贸n, logrando as铆 una precisi贸n y un rendimiento excepcionales.

Innovaciones b谩sicas de YOLOv9

Los avances de YOLOv9 est谩n profundamente arraigados en abordar los retos que plantea la p茅rdida de informaci贸n en las redes neuronales profundas. El Principio del Cuello de Botella de la Informaci贸n y el uso innovador de Funciones Reversibles son fundamentales en su dise帽o, garantizando que YOLOv9 mantenga una alta eficiencia y precisi贸n.

Principio del cuello de botella informativo

El principio del cuello de botella informativo revela un reto fundamental en el aprendizaje profundo: a medida que los datos pasan por las capas sucesivas de una red, aumenta el potencial de p茅rdida de informaci贸n. Este fen贸meno se representa matem谩ticamente como

I(X, X) >= I(X, f_theta(X)) >= I(X, g_phi(f_theta(X)))

donde I denota la informaci贸n mutua, y f y g representan funciones de transformaci贸n con par谩metros theta y phirespectivamente. YOLOv9 contrarresta este reto implementando la Informaci贸n de Gradiente Programable (PGI), que ayuda a preservar los datos esenciales a trav茅s de la profundidad de la red, garantizando una generaci贸n de gradiente m谩s fiable y, en consecuencia, una mejor convergencia y rendimiento del modelo.

Funciones reversibles

El concepto de Funciones Reversibles es otra piedra angular del dise帽o de YOLOv9. Se considera que una funci贸n es reversible si puede invertirse sin p茅rdida de informaci贸n, como se expresa mediante:

X = v_zeta(r_psi(X))

con psi y zeta como par谩metros de la funci贸n reversible y de su funci贸n inversa, respectivamente. Esta propiedad es crucial para las arquitecturas de aprendizaje profundo, ya que permite que la red conserve un flujo de informaci贸n completo, permitiendo as铆 actualizaciones m谩s precisas de los par谩metros del modelo. YOLOv9 incorpora funciones reversibles en su arquitectura para mitigar el riesgo de degradaci贸n de la informaci贸n, especialmente en las capas m谩s profundas, garantizando la conservaci贸n de datos cr铆ticos para las tareas de detecci贸n de objetos.

Impacto en los modelos ligeros

Abordar la p茅rdida de informaci贸n es especialmente vital para los modelos ligeros, que a menudo est谩n infraparametrizados y son propensos a perder informaci贸n significativa durante el proceso feedforward. La arquitectura de YOLOv9, mediante el uso de funciones PGI y reversibles, garantiza que, incluso con un modelo simplificado, se conserve y utilice eficazmente la informaci贸n esencial necesaria para la detecci贸n precisa de objetos.

Informaci贸n de gradiente programable (IGP)

PGI es un concepto novedoso introducido en YOLOv9 para combatir el problema del cuello de botella de la informaci贸n, garantizando la conservaci贸n de los datos esenciales en las capas profundas de la red. Esto permite generar gradientes fiables, facilitando actualizaciones precisas del modelo y mejorando el rendimiento general de la detecci贸n.

Red de Agregaci贸n de Capas Eficiente Generalizada (GELAN)

GELAN representa un avance arquitect贸nico estrat茅gico, que permite a YOLOv9 lograr una utilizaci贸n de par谩metros y una eficiencia computacional superiores. Su dise帽o permite la integraci贸n flexible de varios bloques computacionales, haciendo que YOLOv9 se adapte a una amplia gama de aplicaciones sin sacrificar la velocidad ni la precisi贸n.

Comparaci贸n de la arquitectura de YOLOv9

Rendimiento en el conjunto de datos MS COCO

El rendimiento de YOLOv9 en el conjunto de datos COCO ejemplifica sus importantes avances en la detecci贸n de objetos en tiempo real, estableciendo nuevos puntos de referencia en varios tama帽os de modelos. La Tabla 1 presenta una comparaci贸n exhaustiva de los detectores de objetos en tiempo real m谩s avanzados, que ilustra la eficacia y precisi贸n superiores de YOLOv9.

Tabla 1. Comparaci贸n de los detectores de objetos en tiempo real m谩s avanzados

驴Cu谩ndo estar谩n disponibles otras escalas de modelos?

A pesar de todas las m茅tricas mostradas para las distintas escalas del modelo en la tabla siguiente, s贸lo las configuraciones para YOLOv9c y YOLOv9e se han publicado. El equipo de Ultralytics trabajar谩 r谩pidamente para a帽adir otras configuraciones a medida que est茅n disponibles, as铆 que no dejes de consultar esta p谩gina regularmente para estar al d铆a.

Rendimiento

Modelo tama帽o
(p铆xeles)
mAPval
50-95
mAPval
50
par谩metros
(M)
FLOPs
(B)
YOLOv9t 640 38.3 53.1 2.0 7.7
YOLOv9s 640 46.8 63.4 7.2 26.7
YOLOv9m 640 51.4 68.1 20.1 76.8
YOLOv9c 640 53.0 70.2 25.5 102.8
YOLOv9e 640 55.6 72.8 58.1 192.5
Modelo tama帽o
(p铆xeles)
mAPbox
50-95
mAPmask
50-95
par谩metros
(M)
FLOPs
(B)
YOLOv9c-seg 640 52.4 42.2 27.9 159.4
YOLOv9e-seg 640 55.1 44.3 60.5 248.4

Las iteraciones de YOLOv9, que van desde el diminuto t variante a la amplia e demuestran mejoras no s贸lo en la precisi贸n (m茅trica mAP), sino tambi茅n en la eficiencia con un n煤mero reducido de par谩metros y necesidades computacionales (FLOPs). Esta tabla subraya la capacidad de YOLOv9 para ofrecer una gran precisi贸n manteniendo o reduciendo la sobrecarga computacional en comparaci贸n con versiones anteriores y modelos de la competencia.

Comparativamente, YOLOv9 presenta ganancias notables:

  • Modelos ligeros: YOLOv9s supera al YOLO MS-S en eficiencia de par谩metros y carga computacional, al tiempo que consigue una mejora del 0,4鈭0,6% en AP.
  • Modelos medianos y grandes: YOLOv9m y YOLOv9e muestran avances notables en el equilibrio entre la complejidad del modelo y el rendimiento de la detecci贸n, ofreciendo reducciones significativas de los par谩metros y los c谩lculos en un contexto de mejora de la precisi贸n.

El modelo YOLOv9c, en particular, pone de relieve la eficacia de las optimizaciones de la arquitectura. Funciona con un 42% menos de par谩metros y un 21% menos de demanda computacional que YOLOv7 AF, y sin embargo consigue una precisi贸n comparable, lo que demuestra las importantes mejoras de eficiencia de YOLOv9. Adem谩s, el modelo YOLOv9e establece un nuevo est谩ndar para los modelos grandes, con un 15% menos de par谩metros y un 25% menos de necesidad computacional que YOLOv8xjunto con una mejora incremental del 1,7% en AP.

Estos resultados muestran los avances estrat茅gicos de YOLOv9 en el dise帽o del modelo, destacando su mayor eficacia sin comprometer la precisi贸n esencial para las tareas de detecci贸n de objetos en tiempo real. El modelo no s贸lo ampl铆a los l铆mites de las m茅tricas de rendimiento, sino que tambi茅n subraya la importancia de la eficiencia computacional, lo que lo convierte en un avance fundamental en el campo de la visi贸n por ordenador.

Conclusi贸n

YOLOv9 representa un avance fundamental en la detecci贸n de objetos en tiempo real, ya que ofrece mejoras significativas en t茅rminos de eficacia, precisi贸n y adaptabilidad. Al abordar retos cr铆ticos mediante soluciones innovadoras como PGI y GELAN, YOLOv9 sienta un nuevo precedente para futuras investigaciones y aplicaciones en este campo. Mientras la comunidad de la IA sigue evolucionando, YOLOv9 es un testimonio del poder de la colaboraci贸n y la innovaci贸n para impulsar el progreso tecnol贸gico.

Ejemplos de uso

Este ejemplo proporciona ejemplos sencillos de entrenamiento e inferencia de YOLOv9. Para obtener documentaci贸n completa sobre estos y otros modos, consulta las p谩ginas de documentaci贸n Predecir, Entrenar, Val y Exportar.

Ejemplo

PyTorch preentrenado *.pt modelos, as铆 como la configuraci贸n *.yaml pueden pasarse a la funci贸n YOLO() para crear una instancia del modelo en python:

from ultralytics import YOLO

# Build a YOLOv9c model from scratch
model = YOLO("yolov9c.yaml")

# Build a YOLOv9c model from pretrained weight
model = YOLO("yolov9c.pt")

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the YOLOv9c model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

CLI para ejecutar directamente los modelos:

# Build a YOLOv9c model from scratch and train it on the COCO8 example dataset for 100 epochs
yolo train model=yolov9c.yaml data=coco8.yaml epochs=100 imgsz=640

# Build a YOLOv9c model from scratch and run inference on the 'bus.jpg' image
yolo predict model=yolov9c.yaml source=path/to/bus.jpg

Tareas y modos admitidos

La serie YOLOv9 ofrece una gama de modelos, cada uno de ellos optimizado para la Detecci贸n de Objetos de alto rendimiento. Estos modelos responden a distintas necesidades de c谩lculo y requisitos de precisi贸n, lo que los hace vers谩tiles para una amplia gama de aplicaciones.

Modelo Nombres de archivo Tareas Inferencia Validaci贸n Formaci贸n Exportar
YOLOv9 yolov9c.pt yolov9e.pt Detecci贸n de objetos
YOLOv9-seg yolov9c-seg.pt yolov9e-seg.pt Segmentaci贸n de instancias

Esta tabla proporciona una visi贸n detallada de las variantes del modelo YOLOv9, destacando sus capacidades en tareas de detecci贸n de objetos y su compatibilidad con diversos modos operativos, como Inferencia, Validaci贸n, Entrenamiento y Exportaci贸n. Esta amplia compatibilidad garantiza que los usuarios puedan aprovechar plenamente las capacidades de los modelos YOLOv9 en una amplia gama de escenarios de detecci贸n de objetos.

Nota

El entrenamiento de los modelos YOLOv9 requerir谩 m谩s recursos y llevar谩 m谩s tiempo que el modeloYOLOv8 de tama帽o equivalente.

Citas y agradecimientos

Queremos agradecer a los autores de YOLOv9 sus importantes contribuciones en el campo de la detecci贸n de objetos en tiempo real:

@article{wang2024yolov9,
  title={{YOLOv9}: Learning What You Want to Learn Using Programmable Gradient Information},
  author={Wang, Chien-Yao  and Liao, Hong-Yuan Mark},
  booktitle={arXiv preprint arXiv:2402.13616},
  year={2024}
}

El art铆culo original de YOLOv9 puede consultarse en arXiv. Los autores han puesto su trabajo a disposici贸n del p煤blico, y se puede acceder al c贸digo base en GitHub. Agradecemos sus esfuerzos por hacer avanzar el campo y poner su trabajo a disposici贸n de la comunidad en general.



Creado 2024-02-26, Actualizado 2024-05-18
Autores: glenn-jocher (5), Burhan-Q (2), Laughing-q (1)

Comentarios