YOLOv9 frente a RTDETRv2: Comparación técnica para la detección de objetos

Seleccionar la arquitectura de detección de objetos adecuada es una decisión fundamental en el desarrollo de la visión por ordenador, que a menudo exige a los desarrolladores sopesar las compensaciones entre precisión, latencia de la inferencia y sobrecarga computacional. Este análisis ofrece una comparación técnica exhaustiva entre YOLOv9una arquitectura basada en CNN optimizada para la eficiencia, y RTDETRv2, un modelo basado en transformadores diseñado para la detección de alta fidelidad.

YOLOv9: redefinir la eficiencia de la CNN

YOLOv9 representa una evolución significativa en la serie You Only Look OnceYOLO), centrada en resolver el problema del cuello de botella de información inherente a las redes neuronales profundas. Mediante la introducción de novedosos conceptos arquitectónicos, consigue un rendimiento de vanguardia manteniendo el peso ligero característico de la familia YOLO .

Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organización:Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2024-02-21
Arxiv:arXiv:2402.13616
GitHub:WongKinYiu/yolov9
Documentación:Documentación deUltralytics YOLOv9

Arquitectura básica

YOLOv9 introduce dos innovaciones principales: La Información de Gradiente Programable (PGI) y la Red Generalizada de Agregación Eficiente de Capas (GELAN). PGI aborda el problema de la pérdida de información de los datos a medida que se propagan por las capas profundas, garantizando la conservación de una información de gradiente fiable para las actualizaciones del modelo. GELAN optimiza la utilización de parámetros, lo que permite al modelo alcanzar una mayor precisión con menos operaciones de coma flotante (FLOPs) en comparación con las arquitecturas convolucionales tradicionales.

Integración del ecosistema Ultralytics

YOLOv9 está totalmente integrado en el ecosistema Ultralytics , lo que ofrece a los desarrolladores un acceso sin fisuras a las herramientas de formación, validación e implantación. Esta integración garantiza que los usuarios puedan aprovechar la misma API sencilla utilizada para YOLO11 y YOLOv8reduciendo significativamente la barrera de entrada para tareas avanzadas de visión por computador.

Más información sobre YOLOv9

RTDETRv2: El Transformer Challenger

RTDETRv2 se basa en el éxito del transformador de detección en tiempo realRT-DETR), perfeccionando la línea de base para mejorar el manejo de la escala dinámica y la estabilidad de la formación. Como modelo basado en transformadores, aprovecha los mecanismos de autoatención para captar el contexto global, lo que puede resultar ventajoso para distinguir objetos en escenas complejas.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, y Yi Liu
Organización:Baidu
Fecha: 2024-07-24
Arxiv:arXiv:2407.17140
GitHub:RT-DETR Repositorio GitHub

Arquitectura básica

A diferencia de las CNN que procesan las imágenes en parches locales, RTDETRv2 utiliza una columna vertebral transformadora para procesar las características de la imagen. Este enfoque permite al modelo comprender las relaciones entre partes distantes de una imagen, lo que puede mejorar la precisión en entornos desordenados. Sin embargo, este mecanismo de atención global suele conllevar mayores costes computacionales y de memoria, sobre todo durante el entrenamiento.

Más información sobre RT-DETR

Comparación de rendimiento

Los siguientes datos ponen de relieve las métricas de rendimiento de varios tamaños de modelos en el conjunto de datosCOCO . La comparación se centra en la precisión mediamAP), la velocidad de inferencia y la complejidad computacional.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Análisis de métricas

Precisión máxima: El modelo YOLOv9e alcanza un notable 55,6% de mAP, superando al mayor modelo RTDETRv2-x (54,3% de mAP). Esto demuestra que las innovaciones arquitectónicas de YOLOv9 cierran efectivamente la brecha entre las CNN y los Transformers, superándolos incluso en precisión máxima.
Eficacia: YOLOv9 ofrece sistemáticamente un mayor rendimiento por parámetro. Por ejemplo, YOLOv9c alcanza el 53,0% de mAP con sólo 25,3M de parámetros y 102,1B FLOPs, mientras que el RTDETRv2-l comparable requiere 42M de parámetros y 136B FLOPs para alcanzar el 53,4% de mAP. Esta eficiencia hace que YOLOv9 sea mucho más ligero de almacenar y más rápido de ejecutar.
Velocidad de inferencia: En las aplicaciones en tiempo real, la velocidad es fundamental. Las variantes más pequeñas YOLOv9 , como YOLOv9t, ofrecen una latencia extremadamente baja (2,3 ms en TensorRT), lo que las hace ideales para despliegues de IA en el borde donde los modelos RTDETRv2 pueden ser demasiado pesados.

Eficacia de la formación y ecosistema

Uno de los factores más críticos para los desarrolladores es la facilidad de entrenamiento y los recursos necesarios para afinar los modelos en conjuntos de datos personalizados.

Requisitos de memoria

Los modelos basados en transformadores como RTDETRv2 son conocidos por su elevado consumo de memoria durante el entrenamiento debido a la complejidad cuadrática de los mecanismos de autoatención. Esto suele requerir GPU empresariales de gama alta con VRAM masiva. Por el contrario, YOLOv9 mantiene la eficiencia de memoria de las CNN, lo que permite el entrenamiento en hardware de consumo. Esta menor barrera de entrada democratiza el acceso a la detección de objetos de última generación.

La ventaja Ultralytics

La elección de un modelo dentro del ecosistema deUltralytics proporciona claras ventajas más allá de las métricas de rendimiento en bruto:

Facilidad de uso: la APIPython Ultralytics reduce los complejos bucles de formación a unas pocas líneas de código.
Ecosistema bien mantenido: Las actualizaciones frecuentes garantizan la compatibilidad con las últimas versiones PyTorch , formatos de exportaciónONNX, TensorRT, CoreML) y controladores de hardware.
Versatilidad: Aunque RTDETRv2 es principalmente un detector de objetos, el marco de Ultralytics admite una amplia gama de tareas, como la segmentación de instancias, la estimación de poses y la detección de recuadros delimitadores orientados (OBB ) en todas sus familias de modelos.

Ejemplo de código

Entrenar YOLOv9 es sencillo utilizando el paquete Ultralytics . El siguiente fragmento de código muestra cómo cargar un modelo preentrenado y entrenarlo en un conjunto de datos personalizado:

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Capacidad de exportación

Los modelos de Ultralytics pueden exportarse fácilmente a varios formatos para su despliegue. Por ejemplo, exportar a ONNX para ampliar la compatibilidad:

model.export(format="onnx")

Casos de Uso Ideales

Cuándo elegir YOLOv9

YOLOv9 es la opción recomendada para la mayoría de las aplicaciones de visión por ordenador, especialmente cuando se requiere un equilibrio entre velocidad, precisión y eficiencia de recursos.

Despliegue Edge: Dispositivos como NVIDIA Jetson o Raspberry Pi se benefician del menor número de FLOPs y parámetros de YOLOv9.
Análisis de vídeo en tiempo real: Las fuentes de seguridad y los sistemas de supervisión del tráfico requieren las altas frecuencias de imagen que proporciona YOLOv9 .
Entrenamiento con recursos limitados: Los equipos que no tienen acceso a clústeres de GPU masivos pueden perfeccionar los modelos más avanzados.

Cuándo considerar RTDETRv2

RTDETRv2 es adecuado para nichos de mercado en los que:

El contexto global es crucial: Escenas con alta oclusión o en las que el contexto de píxeles distantes es estrictamente necesario para la clasificación.
El hardware es ilimitado: Implantaciones en GPU de nivel servidor en las que las limitaciones de memoria y computación son insignificantes.
Preferencia sin anclaje: Investigadores que deseen experimentar con arquitecturas basadas en transformadores y sin anclajes.

Conclusión

Aunque RTDETRv2 demuestra el potencial de los transformadores en la detección de objetos, YOLOv9 se perfila como la opción práctica superior para la mayoría de desarrolladores e investigadores. Ofrece una mayor precisión máxima (55,6% mAP) con una eficiencia significativamente mejor, un menor uso de memoria y velocidades de inferencia más rápidas. Cuando se combina con el sólido soporte, la extensa documentación y la facilidad de uso que proporciona el ecosistema Ultralytics , YOLOv9 ofrece un camino más ágil desde el prototipo hasta la producción.

Si desea conocer lo último en tecnología de visión por ordenador, le recomendamos que eche un vistazo a YOLO11que lleva aún más lejos los límites de la velocidad y la precisión.

Explorar Otros Modelos

YOLO11: La última evolución de la serie YOLO , optimizada para diversas tareas, como la segmentación y la estimación de la pose.
YOLOv8: Un modelo muy popular y versátil conocido por su fiabilidad y el amplio apoyo de la comunidad.
RT-DETR: Explore la implementación original del transformador de detección en tiempo real en el marco de Ultralytics .

YOLOv9 frente a RTDETRv2: Comparación técnica para la detección de objetos

YOLOv9: redefinir la eficiencia de la CNN

Arquitectura básica

RTDETRv2: El Transformer Challenger

Arquitectura básica

Comparación de rendimiento

Análisis de métricas

Eficacia de la formación y ecosistema

Requisitos de memoria

La ventaja Ultralytics

Ejemplo de código

Casos de Uso Ideales

Cuándo elegir YOLOv9

Cuándo considerar RTDETRv2

Conclusión

Explorar Otros Modelos

Comentarios