RTDETRv2 frente a YOLOv9: comparación técnica de los modelos de detección más avanzados

En el campo de la visión por ordenador, en rápida evolución, elegir la arquitectura de detección de objetos adecuada es fundamental para equilibrar precisión, velocidad y recursos informáticos. Esta guía ofrece una comparación técnica detallada entre RTDETRv2 (Real-Time Detection Transformer v2), un modelo avanzado basado en transformadores, y YOLOv9un modelo de vanguardia centrado en la eficiencia e integrado en el ecosistemaUltralytics .

Mientras que RTDETRv2 amplía los límites de la detección basada en transformadores, YOLOv9 introduce conceptos arquitectónicos novedosos como la información de gradiente programable (PGI) para maximizar la eficiencia de los parámetros. A continuación, analizamos sus arquitecturas, métricas de rendimiento y escenarios de implantación ideales para ayudarle a decidir qué modelo se ajusta a las necesidades de su proyecto.

Métricas de rendimiento: Precisión y velocidad

La siguiente tabla presenta una comparación directa de las principales métricas de rendimiento evaluadas en el conjunto de datosCOCO . Destaca cómo YOLOv9 logra una precisión competitiva o superiormAP) con unos costes computacionales (FLOPs) significativamente menores y una mayor velocidad de inferencia en comparación con RTDETRv2.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

YOLOv9e supera a RTDETRv2-x en precisión(55,6% frente a 54,3% mAP) y utiliza menos FLOPs (189B frente a 259B). Esta eficiencia convierte a YOLOv9 en una opción convincente para aplicaciones en tiempo real en las que los recursos de hardware son un factor a tener en cuenta.

RTDETRv2: Perfeccionamiento del transformador de detección

RTDETRv2 es una evolución del original RT-DETRoriginal, diseñada para abordar las limitaciones de los detectores tradicionales basados en anclas aprovechando la arquitectura de un transformador. Se centra en la mejora de la estabilidad y el rendimiento de los transformadores de detección en tiempo real a través de un enfoque "Bag-of-Freebies", la optimización de las estrategias de formación y el dimensionamiento dinámico del vocabulario.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, y Yi Liu
Organización:Baidu
Fecha: 2024-07-24
Arxiv:https://arxiv.org/abs/2407.17140
GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Docs:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

Arquitectura y características principales

RTDETRv2 utiliza una arquitectura híbrida codificador-decodificador. El codificador procesa las características de la imagen, mientras que el decodificador transformador genera consultas de objetos. Entre las principales mejoras arquitectónicas se incluye un mecanismo de atención optimizado que permite la selección dinámica de consultas, lo que reduce la sobrecarga computacional asociada normalmente a los transformadores.

A diferencia de los modelos YOLO estándar que se basan en backbones y cabezales basados en CNN, RTDETRv2 separa el concepto de "anclas" del cabezal de detección, tratando la detección de objetos como un problema directo de predicción de conjuntos. Esto elimina la necesidad de Supresión No Máxima (NMS ) en muchas configuraciones, simplificando teóricamente el pipeline de post-procesamiento.

Fortalezas y Debilidades

Ventajas:

Precisión: Sobresale en la detección de objetos con interacciones u oclusiones complejas gracias al conocimiento global del contexto.
Sin anclajes: elimina la necesidad de ajustar manualmente las cajas de anclaje, lo que simplifica la configuración para diversos conjuntos de datos.
Adaptabilidad: El vocabulario dinámico permite que el modelo se adapte mejor a las condiciones variables de entrenamiento.

Debilidades:

Intensidad de recursos: Las arquitecturas de transformadores suelen requerir más memoria de GPU y potencia de cálculo para el entrenamiento en comparación con las CNN.
Latencia de inferencia: A pesar de las optimizaciones, los transformadores pueden ser más lentos en los dispositivos de IA de borde en comparación con las CNN altamente optimizadas como YOLOv9.
Complejidad: El proceso de formación y el ajuste de hiperparámetros para los transformadores pueden ser más complejos que para los modelos YOLO .

Casos de Uso Ideales

RTDETRv2 es idóneo para implantaciones de servidores de gama alta en las que la precisión es primordial, como:

Imágenes médicas: Análisis de exploraciones complejas en las que el contexto global ayuda a identificar anomalías.
Vigilancia aérea: Detección de objetos pequeños en imágenes de satélite de gran tamaño y alta resolución.
Control de calidad detallado: Inspección de defectos de fabricación en la que los pequeños detalles importan más que la velocidad bruta.

Más información sobre RT-DETR

YOLOv9: Eficiencia mediante gradientes programables

YOLOv9 representa un salto significativo en la familia YOLO , introduciendo innovaciones arquitectónicas que resuelven el problema del cuello de botella de la información en las redes neuronales profundas. Al garantizar la conservación de la información de gradiente en las capas profundas, YOLOv9 logra un rendimiento de vanguardia con una eficiencia de parámetros notable.

Autores: Chien-Yao Wang, Hong-Yuan Mark Liao
Organización:Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Docs:https://docs.ultralytics.com/models/yolov9/

Arquitectura: PGI y GELAN

YOLOv9 introduce dos conceptos innovadores:

Información de gradiente programable (PGI): Un marco de supervisión auxiliar que genera gradientes fiables para actualizar los pesos de la red, garantizando que las capas profundas conserven la información crucial de las características. Imita las ventajas de la reparametrización sin el coste de la inferencia.
Red de Agregación de Capas Eficiente Generalizada (GELAN): Una arquitectura de red ligera que optimiza el uso de parámetros y el rendimiento computacional (FLOPs). GELAN permite que YOLOv9 funcione más rápido y utilice menos memoria que sus predecesores y competidores.

¿Por qué elegir YOLOv9?

La integración de YOLOv9 en el ecosistemaUltralytics ofrece claras ventajas a los desarrolladores:

Eficiencia del entrenamiento: YOLOv9 requiere mucha menos memoria GPU durante el entrenamiento que los modelos basados en transformadores como RTDETRv2. Esto permite entrenar con hardware de consumo o con lotes de mayor tamaño en clústeres empresariales.
Facilidad de uso: Con la APIPython Ultralytics , los usuarios pueden entrenar, validar y desplegar YOLOv9 con solo unas líneas de código.
Versatilidad: Aunque se trata principalmente de un modelo de detección de objetos, la arquitectura subyacente es lo suficientemente flexible como para admitir tareas como la segmentación de instancias y la detección de recuadros delimitadores orientados (OBB ).
Equilibrio de rendimiento: Consigue un equilibrio óptimo, ofreciendo una precisión de primer nivel con la velocidad necesaria para el análisis de vídeo en tiempo real.

Ventaja del ecosistema

Ultralytics proporciona una interfaz unificada para todos sus modelos. Para pasar de YOLOv9 o YOLO11 a YOLOv9 solo es necesario cambiar la cadena de nombre del modelo, lo que permite realizar pruebas comparativas y experimentos sin esfuerzo.

Casos de Uso Ideales

YOLOv9 es la opción preferida para las implantaciones en el mundo real que requieren velocidad y eficacia:

Edge Computing: Implementación en dispositivos integrados como NVIDIA Jetson o Raspberry Pi.
Análisis en tiempo real: Supervisión del tráfico, análisis de comercios minoristas y análisis de deportes en los que son esenciales altas frecuencias de imagen.
Aplicaciones móviles: funcionan eficazmente en dispositivos iOS y Android a través de CoreML o TFLite exportación.
Robótica: Percepción rápida para la navegación y la interacción autónomas.

Más información sobre YOLOv9

Análisis comparativo: Arquitectura y flujo de trabajo

A la hora de decidir entre RTDETRv2 y YOLOv9, hay que tener en cuenta las diferencias arquitectónicas fundamentales. RTDETRv2 se basa en la potencia de Transformers, que utiliza mecanismos de autoatención para comprender el contexto global. Esto a menudo da como resultado una mayor precisión en imágenes estáticas difíciles, pero tiene el coste de un mayor consumo de memoria de entrenamiento y una inferencia más lenta en hardware sin GPU .

Por el contrario, YOLOv9 utiliza una arquitectura de CNN evolucionada (GELAN) mejorada por PGI. Este diseño es intrínsecamente más compatible con el hardware, ya que se beneficia de años de optimización de CNN en bibliotecas como TensorRT y OpenVINO.

Metodología de Entrenamiento

El entrenamiento de RTDETRv2 suele implicar un mayor tiempo de convergencia y mayores requisitos de memoria para acomodar los mapas de atención. Por el contrario, YOLOv9 se beneficia de procesos de entrenamiento eficientes perfeccionados por el equipo de Ultralytics . La disponibilidad de pesos preentrenados y la capacidad de integrarse a la perfección con Ultralytics HUB simplifican el flujo de trabajo desde la anotación de datos hasta el despliegue del modelo.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your dataset with excellent memory efficiency
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with high speed
results = model("path/to/image.jpg")

Conclusión: ¿Qué modelo se adapta a sus necesidades?

Para la gran mayoría de aplicaciones comerciales y de investigación, YOLOv9 es la opción recomendada. Ofrece un equilibrio superior entre precisión y velocidad, respaldado por el sólido ecosistemaUltralytics . Su menor consumo de memoria y sus versátiles opciones de despliegue lo hacen adecuado para todo, desde servidores en la nube hasta dispositivos periféricos.

RTDETRv2 sigue siendo una poderosa herramienta para la investigación académica y escenarios especializados en los que las propiedades únicas de los transformadores de visión proporcionan una ventaja específica, y las restricciones computacionales no son una preocupación primordial.

Explore otros modelos de Ultralytics

Si busca aún más opciones, considere estas alternativas dentro del marco de Ultralytics :

YOLO11: la última iteración de la serie YOLO , que ofrece nuevos refinamientos en velocidad y precisión para aplicaciones de vanguardia.
YOLOv8: un modelo muy versátil que admite detección, segmentación, estimación de la pose y clasificación, conocido por su estabilidad y amplia adopción.
RT-DETR : Ultralytics también es compatible con el modelo original RT-DETR , lo que le permite experimentar con la detección basada en transformadores dentro de la conocida API de Ultralytics .

RTDETRv2 frente a YOLOv9: comparación técnica de los modelos de detección más avanzados

Métricas de rendimiento: Precisión y velocidad

RTDETRv2: Perfeccionamiento del transformador de detección

Arquitectura y características principales

Fortalezas y Debilidades

Casos de Uso Ideales

YOLOv9: Eficiencia mediante gradientes programables

Arquitectura: PGI y GELAN

¿Por qué elegir YOLOv9?

Casos de Uso Ideales

Análisis comparativo: Arquitectura y flujo de trabajo

Metodología de Entrenamiento

Conclusión: ¿Qué modelo se adapta a sus necesidades?

Explore otros modelos de Ultralytics

Comentarios