YOLOv7 frente a RTDETRv2: Comparación técnica de detectores de objetos modernos

La selección de la arquitectura óptima de detección de objetos es un paso fundamental en el desarrollo de soluciones robustas de visión por ordenador. Esta decisión suele implicar la búsqueda de un equilibrio complejo entre la velocidad de inferencia, la precisión de la detección y los requisitos de recursos informáticos. Esta guía ofrece una comparación técnica en profundidad entre YOLOv7un detector basado en CNN altamente optimizado y conocido por su velocidad, y RTDETRv2, un modelo basado en transformadores de última generación diseñado para aportar una comprensión global del contexto a las aplicaciones en tiempo real.

YOLOv7: El pináculo de la eficiencia de la CNN

YOLOv7 representa una importante evolución en la familia You Only Look OnceYOLO), lanzada para ampliar los límites de lo que las redes neuronales convolucionales (CNN) pueden lograr en escenarios de tiempo real. Al centrarse en mejoras arquitectónicas y estrategias de entrenamiento avanzadas, proporciona una velocidad impresionante en hardware de GPU .

Autores: Chien-Yao Wang, Alexey Bochkovskiy y Hong-Yuan Mark Liao
Organización: Instituto de Ciencias de la Información, Academia Sinica, Taiwán
Fecha: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docs:https://docs.ultralytics.com/models/yolov7/

Innovaciones arquitectónicas

YOLOv7 introduce la Red de Agregación de Capas Eficiente Ampliada (E-ELAN), un novedoso diseño de columna vertebral que mejora la capacidad de aprendizaje de la red sin destruir la ruta de gradiente. Esto permite crear redes más profundas que siguen siendo eficientes de entrenar. Una característica definitoria de YOLOv7 es el "bag-of-freebies entrenable", una colección de métodos de optimización -como la re-parametrización del modelo y la asignación de etiquetas guiada de grueso a fino- que mejoran la precisión sin aumentar la latencia de la inferencia.

Fortalezas y Debilidades

YOLOv7 destaca en entornos en los que la inferencia en tiempo real en GPU estándar es la prioridad. Su arquitectura está muy optimizada para CUDA, lo que proporciona altos FPS en las transmisiones de vídeo. Sin embargo, como CNN pura, puede tener problemas con las dependencias de largo alcance en comparación con los transformadores. Además, personalizar su compleja arquitectura puede resultar complicado para los principiantes.

Más información sobre YOLOv7

RTDETRv2: Transformadores para la detección en tiempo real

RTDETRv2 se basa en el éxito del Transformador de Detección en Tiempo RealRT-DETR), aprovechando la potencia de los Transformadores de Visión (ViT ) para captar información global de una imagen. A diferencia de las CNN, que procesan vecindarios locales de píxeles, los transformadores utilizan mecanismos de autoatención para comprender las relaciones entre objetos distantes.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, y Yi Liu
Organización: Baidu
Fecha: 2023-04-17 ( RT-DETR original), 2024-07 (RTDETRv2)
Arxiv:https://arxiv.org/abs/2304.08069
GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch

Innovaciones arquitectónicas

RTDETRv2 emplea una arquitectura híbrida. Utiliza una red troncal CNN para la extracción eficaz de características y un transformador codificador-decodificador para el cabezal de detección. Y lo que es más importante, no tiene anclajes, lo que elimina la necesidad de ajustar manualmente las cajas de anclaje y el postprocesamiento de supresión no máximaNMS) en algunas configuraciones. Las mejoras de la "v2" se centran en una columna vertebral flexible y en estrategias de formación mejoradas para reducir aún más la latencia y mantener al mismo tiempo una elevada precisión media (mAP).

Fortalezas y Debilidades

La principal ventaja de RTDETRv2 es su precisión en escenas complejas con oclusiones, gracias a su conocimiento global del contexto. A menudo supera a las CNN de escala similar en mAP. Sin embargo, esto tiene un coste: los modelos de transformador consumen mucha memoria durante el entrenamiento y pueden tardar más en converger. Por lo general, necesitan GPU más potentes que CNN como YOLOv7 para entrenarse con eficacia.

Más información sobre RT-DETR

Comparación de resultados: Métricas y análisis

En la tabla siguiente se comparan los principales parámetros de rendimiento. Mientras que RTDETRv2-x logra una precisión superior, YOLOv7 ofrecen a menudo una ventaja competitiva en velocidad de inferencia pura en configuraciones de hardware específicas debido a su diseño nativo CNN.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Comprender las compensaciones

A la hora de elegir entre estas arquitecturas, tenga en cuenta su hardware de implementación. Los transformadores como RTDETRv2 suelen requerir optimizaciones específicas TensorRT para alcanzar todo su potencial de velocidad en las GPU NVIDIA , mientras que las CNN como YOLOv7 suelen funcionar eficientemente en una gama más amplia de hardware con menos ajustes.

Metodología y recursos de formación

Las metodologías de entrenamiento difieren significativamente entre las dos arquitecturas. YOLOv7 utiliza optimizadores estándar de descenso por gradiente estocástico (SGD ) o Adam centrados en canalizaciones de aumento de datos como Mosaic. Es relativamente eficiente en términos de memoria, por lo que es factible entrenarlo en GPU de gama media.

En cambio, RTDETRv2 requiere un régimen de entrenamiento que consume más recursos. Los mecanismos de autoatención de los transformadores aumentan cuadráticamente con la longitud de la secuencia (tamaño de la imagen), lo que conlleva un mayor uso de VRAM. Los usuarios suelen necesitar GPUNVIDIA de gama alta con gran capacidad de memoria (por ejemplo, A100) para entrenar con eficacia las variantes RT-DETR de mayor tamaño. Además, los transformadores suelen requerir programas de entrenamiento más largos (más épocas) para converger en comparación con las CNN.

Por qué los modelos Ultralytics son la opción recomendada

Aunque YOLOv7 y RTDETRv2 son modelos excelentes por derecho propio, el ecosistemaUltralytics -encabezadopor el vanguardista YOLO11-ofrece una solución más completa para el desarrollo de la IA moderna.

Facilidad de uso y ecosistema superiores

Los modelos de Ultralytics se han diseñado dando prioridad a la experiencia del desarrollador. A diferencia de los complejos archivos de configuración y la configuración manual que a menudo requiere YOLOv7 o las necesidades específicas del entorno de RTDETRv2, Ultralytics proporciona una API Python unificada y sencilla. Esto le permite cargar, entrenar y desplegar modelos en unas pocas líneas de código.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on your custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Rendimiento y versatilidad equilibrados

YOLO11 consigue un equilibrio excepcional entre velocidad y precisión, superando a menudo en eficacia tanto a YOLOv7 como a RT-DETR . Los modelos de Ultralytics no se limitan a la detección de objetos. Admiten de forma nativa una amplia gama de tareas de visión por ordenador dentro del mismo marco:

Segmentación de instancias: Delineación precisa de objetos.
Estimación de la pose: Detección de puntos clave para la pose humana o animal.
Clasificación: Categorización de imágenes completas.
Detección de objetos orientados (OBB): Detección de objetos girados (por ejemplo, en imágenes aéreas).

Eficacia y formación

Los modelos Ultralytics están optimizados para ahorrar memoria. Normalmente requieren mucha menos memoria CUDA durante el entrenamiento que las alternativas basadas en transformadores como RTDETRv2, lo que democratiza el acceso a la IA de alto rendimiento. Con pesos preentrenados ampliamente disponibles y eficientes capacidades de aprendizaje por transferencia, puede obtener resultados listos para la producción en una fracción del tiempo.

Conclusión

YOLOv7 sigue siendo un fuerte competidor para los sistemas heredados que requieren una inferencia CNN estrictamente optimizada, mientras que RTDETRv2 ofrece una precisión de vanguardia para escenas complejas en las que abundan los recursos computacionales. Sin embargo, para la mayoría de desarrolladores e investigadores que buscan una solución moderna, versátil y fácil de usar, Ultralytics YOLO11 es la mejor opción.

Al elegir Ultralytics, tendrá acceso a una próspera comunidad, actualizaciones frecuentes y un sólido conjunto de herramientas que simplifican todo el ciclo de vida de MLOps, desde la gestión de datos hasta la implantación.

Explore otras comparaciones de modelos

Para tomar una decisión más informada, explore estas comparaciones técnicas adicionales:

YOLOv7 frente a RTDETRv2: Comparación técnica de detectores de objetos modernos

YOLOv7: El pináculo de la eficiencia de la CNN

Innovaciones arquitectónicas

Fortalezas y Debilidades

RTDETRv2: Transformadores para la detección en tiempo real

Innovaciones arquitectónicas

Fortalezas y Debilidades

Comparación de resultados: Métricas y análisis

Metodología y recursos de formación

Por qué los modelos Ultralytics son la opción recomendada

Facilidad de uso y ecosistema superiores

Rendimiento y versatilidad equilibrados

Eficacia y formación

Conclusión

Explore otras comparaciones de modelos

Comentarios