YOLOv5 frente a RTDETRv2: Comparación detallada de modelos

Elegir el modelo de detección de objetos adecuado es crucial para los proyectos de visión por ordenador. Ultralytics ofrece un conjunto de modelos adaptados a distintas necesidades, entre los que se incluye el altamente eficaz Ultralytics YOLOv5 y comparándolo con otras arquitecturas como RTDETRv2. Esta página ofrece una comparación técnica entre YOLOv5 y RTDETRv2, destacando sus diferencias arquitectónicas, métricas de rendimiento, metodologías de entrenamiento y aplicaciones ideales.

YOLOv5: velocidad y eficacia

Autor: Glenn Jocher
Organización: Ultralytics
Fecha: 2020-06-26
GitHub: https:yolov5
Documentación: https:yolov5

Ultralytics YOLOv5 es un detector de objetos de una etapa ampliamente adoptado y célebre por su excepcional velocidad de inferencia y eficacia operativa. Desarrollado por Ultralytics, se ha convertido en una referencia para las tareas de detección de objetos en tiempo real.

Arquitectura

YOLOv5 emplea una arquitectura basada en CNN optimizada para la velocidad:

Red troncal: CSPDarknet53 para una extracción eficaz de características.
Cuello: PANet para la fusión eficaz de características a través de escalas.
Cabezal: Cabezal de detección YOLOv5 para la predicción y clasificación de recuadros delimitadores. Está disponible en varios tamaños (n, s, m, l, x), lo que permite a los usuarios seleccionar el mejor equilibrio entre velocidad y precisión para sus necesidades específicas.

Puntos fuertes

YOLOv5 ofrece importantes ventajas, sobre todo para los desarrolladores que buscan una implantación práctica:

Facilidad de uso: Ofrece una experiencia de usuario optimizada con una API sencilla, amplia documentación y numerosos tutoriales.
Ecosistema bien mantenido: Se beneficia del ecosistema integrado de Ultralytics , que incluye un desarrollo activo, un fuerte apoyo de la comunidad a través de GitHub y Discord, actualizaciones frecuentes y plataformas como Ultralytics HUB para la formación y el despliegue sin código.
Equilibrio de rendimiento: Consigue un gran equilibrio entre velocidad de inferencia y precisión, lo que lo hace adecuado para diversos escenarios del mundo real.
Requisitos de memoria: Normalmente requiere menos memoria (especialmente memoria CUDA durante el entrenamiento) en comparación con los modelos basados en transformadores como RTDETRv2.
Eficacia de la formación: Ofrece procesos de entrenamiento eficientes, convergencia más rápida y pesos preentrenados fácilmente disponibles en conjuntos de datos como COCO.
Versatilidad: Aunque se centra principalmente en la detección, el repositorio YOLOv5 también admite tareas de segmentación de instancias y clasificación de imágenes.

Puntos débiles

Precisión: Aunque son muy precisos, los modelos más grandes y complejos como RTDETRv2-x pueden lograr un mAP ligeramente superior en conjuntos de datos difíciles, aunque a costa de la velocidad y los recursos.

Casos de uso ideales

YOLOv5 destaca en:

Detección de objetos en tiempo real: Videovigilancia, sistemas de alarma de seguridad e IA en la gestión del tráfico.
Edge computing: Despliegue en dispositivos con recursos limitados como Raspberry Pi y NVIDIA Jetson.
Aplicaciones móviles: Modelos ligeros adecuados para el despliegue móvil.
Creación rápida de prototipos: Configuración y formación rápidas para diversas tareas de visión por ordenador.

Más información sobre YOLOv5

RTDETRv2: Detección en tiempo real de alta precisión

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
Organización: Baidu
Fecha: 2023-04-17 ( RT-DETR inicial), 2024-07-24 (mejoras RT-DETRv2)
Arxiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https:RT-DETR
Documentación: https:RT-DETR

RTDETRv2 (Real-Time Detection Transformer v2) es un detector de objetos de última generación que aprovecha la potencia de los transformadores de visión (ViT) para lograr una gran precisión manteniendo el rendimiento en tiempo real.

Arquitectura

RTDETRv2 utiliza un enfoque híbrido:

Red troncal: Normalmente una CNN (como las variantes de ResNet) para la extracción inicial de características.
Codificador-Decodificador: Una estructura codificador-decodificador basada en transformadores que utiliza mecanismos de autoatención para captar el contexto global dentro de las características de la imagen. Esto permite al modelo comprender mejor las relaciones entre objetos distantes y escenas complejas.

Puntos fuertes

Gran precisión: La arquitectura del transformador permite a RTDETRv2 obtener excelentes puntuaciones mAP, sobre todo en conjuntos de datos complejos con objetos densos o pequeños.
Capacidad en tiempo real: Optimizada para proporcionar velocidades de inferencia competitivas, especialmente cuando se acelera utilizando herramientas como NVIDIA TensorRT.
Extracción robusta de características: Captura eficazmente el contexto global, lo que mejora el rendimiento en situaciones difíciles como la oclusión.

Puntos débiles

Coste computacional: Generalmente tiene un mayor número de parámetros y FLOPs en comparación con YOLOv5, lo que requiere recursos computacionales más significativosGPU memoria deGPU , potencia de procesamiento).
Complejidad del entrenamiento: El entrenamiento de modelos basados en transformadores puede requerir más recursos y ser potencialmente más lento que el entrenamiento de modelos basados en CNN como YOLOv5.
Velocidad de inferencia: Aunque es capaz de trabajar en tiempo real en hardware potente, puede ser más lento que las variantes más rápidas YOLOv5 , especialmente en CPUs o dispositivos de borde menos potentes.
Ecosistema: Carece del ecosistema extenso y unificado, las herramientas (como Ultralytics HUB) y el amplio apoyo de la comunidad que proporciona Ultralytics para los modelos YOLO .

Casos de uso ideales

RTDETRv2 es el más adecuado para aplicaciones en las que la precisión es primordial y se dispone de recursos computacionales suficientes:

Conducción autónoma: Percepción precisa para la IA en coches autoconducidos.
Imágenes médicas: Detección detallada de anomalías en AI in Healthcare.
Análisis de imágenes de alta resolución: Análisis de imágenes de satélite o datos de inspección industrial(mejora de la fabricación con visión por ordenador).
Comprensión de escenas complejas: Escenarios con mucha oclusión o numerosos objetos pequeños.

Más información sobre RTDETRv2

Comparación de rendimiento: YOLOv5 frente a RTDETRv2

Modelo	tamaño ^(píxeles)	mAPval^50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad T4^{TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

El cuadro destaca las compensaciones:

YOLOv5 (especialmente n/s/m) ofrecen velocidades de inferencia significativamente más rápidas tanto en CPU como en GPU TensorRT) con recuentos de parámetros y FLOPs mucho menores, lo que los hace ideales para entornos con recursos limitados.
Los modelos RTDETRv2 alcanzan puntuaciones mAP máximas más altas (especialmente las variantes l/x), pero conllevan mayores requisitos de latencia y computación. En particular, RTDETRv2-s/m ofrece una precisión competitiva con YOLOv5l/x con velocidades TensorRT potencialmente más rápidas, pero carece de rendimiento de CPU .

Formación y ecosistema

Ultralytics YOLOv5 destaca por su facilidad de formación y su completo ecosistema. La formación es sencilla a través de la CLI o la API Python , y está respaldada por una amplia documentación y tutoriales. El ecosistema de Ultralytics ofrece herramientas como Ultralytics HUB para simplificar la formación y el despliegue, soporte activo de la comunidad e integraciones sin fisuras con herramientas como Weights & Biases y ClearML. Además, la arquitectura CNN de YOLOv5 suele requerir menos memoria de GPU y se entrena más rápido que los modelos de transformador.

RTDETRv2, aunque potente, implica el entrenamiento de una arquitectura de transformadores más compleja. Esto suele requerir más recursos informáticos (especialmente una memoria GPU elevada) y tiempos de entrenamiento potencialmente más largos. Aunque el repositorio de GitHub proporciona scripts de entrenamiento, el ecosistema circundante y la estructura de soporte son menos amplios que los que ofrece Ultralytics.

Conclusión

Tanto YOLOv5 como RTDETRv2 son modelos capaces de detectar objetos, pero atienden a prioridades diferentes.

Ultralytics YOLOv5 es la opción recomendada para aplicaciones que exigen alta velocidad, eficiencia, facilidad de uso y versatilidad de despliegue, especialmente en dispositivos periféricos o donde los recursos computacionales son limitados. Su sólido ecosistema y sus reducidos requisitos de formación lo hacen muy accesible para desarrolladores e investigadores.
RTDETRv2 es adecuado cuando la máxima precisión es la prioridad absoluta y se dispone de recursos computacionales suficientes (incluidas GPU potentes para el entrenamiento y la inferencia).

Para la mayoría de las aplicaciones prácticas, YOLOv5 ofrece un equilibrio excelente y a menudo superior entre rendimiento, velocidad y facilidad de uso, respaldado por el sólido soporte y las herramientas del ecosistema Ultralytics .

Explorar otros modelos

Si está explorando alternativas, considere otros modelos dentro del ecosistema Ultralytics :

YOLOv8: sucesor de YOLOv5, ofrece mayor precisión y velocidad en varias tareas, como la detección, la segmentación, la pose y el seguimiento.
YOLOv10: incorpora innovaciones como el entrenamiento sin NMS para aumentar aún más la eficiencia.
YOLO11: la última generación de Ultralytics, que amplía los límites del rendimiento y la eficacia.

Comparar modelos como YOLOv8 frente a RTDETRv2 o YOLOv10 frente a RTDETRv2 puede aportar más información sobre la mejor opción para su proyecto.

Creado hace 1 año ✏️ Actualizado hace 1 mes

YOLOv5 frente a RTDETRv2: Comparación detallada de modelos

YOLOv5: velocidad y eficacia

Arquitectura

Puntos fuertes

Puntos débiles

Casos de uso ideales

RTDETRv2: Detección en tiempo real de alta precisión

Arquitectura

Puntos fuertes

Puntos débiles

Casos de uso ideales

Comparación de rendimiento: YOLOv5 frente a RTDETRv2

Formación y ecosistema

Conclusión

Explorar otros modelos

Comentarios