YOLOv5 RT-DETRv2: comparación técnica de detectores de objetos en tiempo real
La evolución de la detección de objetos en tiempo real ha estado marcada por dos grandes paradigmas arquitectónicos: la YOLO , basada en redes neuronales convolucionales (CNN), y los modelos de detección basados en transformadores. Esta comparación explora las diferencias técnicas entre Ultralytics YOLOv5, el detector basado en CNN estándar del sector, y RT-DETRv2, una versión reciente del transformador de detección en tiempo real diseñado para desafiar el dominio tradicional de las CNN.
Ambos modelos tienen como objetivo resolver el reto crítico de equilibrar la velocidad de inferencia con una alta precisión, pero abordan este objetivo utilizando metodologías fundamentalmente diferentes.
Ultralytics YOLOv5: El estándar de la industria
YOLOv5 uno de los modelos de visión artificial más utilizados a nivel mundial debido a su excepcional equilibrio entre velocidad, precisión y practicidad técnica. Lanzado a mediados de 2020 por Ultralytics, redefinió la usabilidad en el ámbito de la IA, poniendo la detección de última generación al alcance de ingenieros e investigadores por igual a través de una Python sin fisuras.
- Autores: Glenn Jocher
- Organización:Ultralytics
- Fecha: 2020-06-26
- GitHub:https://github.com/ultralytics/yolov5
- Documentación:https://docs.ultralytics.com/models/yolov5/
Arquitectura y Diseño
YOLOv5 una estructura CSPDarknet, que integra redes Cross Stage Partial para mejorar el flujo de gradientes y reducir el coste computacional. Su cuello utiliza una PANet (Path Aggregation Network) para una agregación eficaz de la pirámide de características, lo que garantiza que las características de diferentes escalas se fusionen de manera eficiente.
Las características arquitectónicas clave incluyen:
- Detección basada en anclajes: utiliza cuadros de anclaje predefinidos para predecir la ubicación de los objetos, un método probado para una localización robusta.
- Aumento de datos mosaico: una técnica de entrenamiento que une cuatro imágenes, enseñando al modelo a detect en diversos contextos y escalas.
- Activación SiLU: Funciones de activación más suaves que mejoran la convergencia de las redes neuronales profundas en comparación con la ReLU tradicional.
Fortalezas en la implementación
YOLOv5 por su facilidad de uso. Su flujo de trabajo «zero-to-hero» permite a los desarrolladores pasar del conjunto de datos al modelo implementado en cuestión de minutos. El Ultralytics lo respalda con herramientas integradas para la anotación de datos, el entrenamiento en la nube y la exportación con un solo clic a formatos como ONNX, TensorRTy CoreML.
A diferencia de los modelos transformadores, que pueden consumir mucha memoria, YOLOv5 unos requisitos de memoria significativamente menores durante el entrenamiento. Esta eficiencia le permite funcionar en GPU de consumo e incluso en dispositivos periféricos como NVIDIA , lo que lo hace muy versátil para aplicaciones del mundo real que van desde la conservación de la vida silvestre hasta el análisis minorista.
RT-DETRv2: El retador del transformador
RT-DETRv2 Real-Time Detection Transformer versión 2) se basa en el éxito del RT-DETR original y tiene como objetivo llevar la precisión de los transformadores a velocidades en tiempo real. Aborda el alto coste computacional que suele asociarse a los transformadores de visión (ViT) mediante la optimización de la estructura del codificador-decodificador.
- Autores: Wenyu Lv, Yian Zhao, et al.
- Organización: Baidu
- Fecha: 17 de abril de 2023 (v1), 24 de julio de 2024 (v2)
- Arxiv:https://arxiv.org/abs/2304.08069
- GitHub:RT-DETR
Arquitectura y Diseño
RT-DETRv2 una arquitectura híbrida que combina una red neuronal convolucional (CNN) como columna vertebral (normalmente ResNet o HGNet) con un eficiente codificador-decodificador transformador.
- Codificador híbrido: Desacopla la interacción intraescala y la fusión entre escalas para reducir la sobrecarga computacional.
- Selección de consultasIoU: mejora la inicialización de las consultas de objetos al dar prioridad a las características de alta confianza.
- Sin anclajes: predice los rectángulos delimitadores directamente sin anclajes predefinidos, lo que en teoría simplifica el cabezal de salida.
- NMS: un punto clave es la eliminación de la supresión no máxima (NMS), que puede reducir la variación de latencia en el posprocesamiento.
Consideraciones para la implementación
Aunque RT-DETRv2 una precisión competitiva, requiere más recursos. El entrenamiento de modelos basados en transformadores suele requerir más GPU y tiempos de entrenamiento más largos en comparación con las CNN como YOLOv5. Además, aunque la eliminación de NMS ventajosa para la estabilidad de la latencia, las pesadas multiplicaciones matriciales en las capas de atención pueden ser más lentas en hardware antiguo o dispositivos periféricos que carecen de tensor dedicados.
Comparación de métricas de rendimiento
La siguiente tabla compara el rendimiento de YOLOv5 RT-DETRv2 el conjunto de datos COCO . Mientras que RT-DETRv2 una gran precisión (mAP), YOLOv5 ofrecer una relación velocidad-por-parámetro superior, especialmente en hardware estándar.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Equilibrio del rendimiento
Aunque RT-DETRv2 mAP máximo más alto, hay que tener en cuenta la diferencia significativa en cuanto al tamaño y la velocidad del modelo. YOLOv5n funciona casi cinco veces más rápido en las GPU T4 que el RT-DETRv2 más pequeño, lo que lo convierte en la opción ideal para aplicaciones periféricas con recursos extremadamente limitados.
Diferencias Clave y Casos de Uso
1. Eficiencia de la formación y ecosistema
Una de las ventajas más significativas de Ultralytics YOLOv5 es su eficiencia en el entrenamiento. La capacidad de entrenar eficazmente con conjuntos de datos más pequeños y hardware menos potente democratiza el acceso a la IA. La Ultralytics integrada Ultralytics permite a los usuarios visualizar métricas de entrenamiento, gestionar conjuntos de datos e implementar modelos sin problemas.
Por el contrario, el entrenamiento RT-DETRv2 requerir más CUDA y épocas de entrenamiento prolongadas para alcanzar la convergencia debido a la naturaleza de los mecanismos de atención del transformador. Para los desarrolladores que iteran rápidamente, los ciclos de entrenamiento rápidos de YOLOv5 un importante impulsor de la productividad.
2. Versatilidad
YOLOv5 no YOLOv5 solo un detector de objetos. El Ultralytics amplía sus capacidades a:
- Segmentación de instancias: segmentación de objetos a nivel de píxeles.
- Clasificación de imágenes: categorización eficiente de imágenes completas.
- Estimación de la pose: Detección de puntos clave en cuerpos humanos.
Esta versatilidad significa que una sola biblioteca puede alimentar todo un conjunto de aplicaciones, desde análisis deportivos hasta imágenes médicas, lo que reduce la complejidad del código y los gastos generales de mantenimiento. RT-DETRv2 centra principalmente en la detección, con un soporte menos maduro para estas tareas auxiliares en un flujo de trabajo unificado.
3. CPU de borde y CPU
Para su implementación en CPU (habituales en cámaras IP o funciones en la nube) o dispositivos móviles, la arquitectura CNN YOLOv5 está altamente optimizada. Admite la exportación a TFLite y CoreML con un amplio soporte de cuantificación. Los modelos Transformer como RT-DETRv2 tener dificultades con la latencia enGPU debido a las complejas operaciones matriciales que no se aceleran tan fácilmente con CPU estándar CPU .
Recomendación: La Ventaja Ultralytics
Si bien RT-DETRv2 resultados académicos impresionantes, YOLO Ultralytics ofrecen una solución más integral para los sistemas de producción. El ecosistema bien mantenido, que garantiza la compatibilidad con las últimas Python , controladores de hardware y formatos de exportación, brinda tranquilidad para proyectos a largo plazo.
Para aquellos que inicien nuevos proyectos en 2026, recomendamos encarecidamente considerar Ultralytics YOLO26.
¿Por qué elegir YOLO26?
YOLO26 representa la cúspide de la eficiencia, ya que combina las mejores características de las CNN y los transformadores.
- De extremo a extremo de forma nativa: al igual que RT-DETRv2, YOLO26 NMS utiliza NMS, lo que simplifica los procesos de implementación.
- MuSGD Optimizer: un innovador optimizador híbrido que ofrece una convergencia y estabilidad más rápidas.
- Optimización de bordes: Diseñado específicamente para CPU hasta un 43 % más rápida en comparación con las generaciones anteriores.
- Eliminación de DFL: funciones de pérdida simplificadas para una mejor exportabilidad a dispositivos periféricos.
Ejemplo de código: Ejecución de YOLOv5
La simplicidad de la Ultralytics es una de las principales razones de su amplia adopción. Así de fácil es cargar y ejecutar inferencias.
import torch
# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)
# Define an image URL or local path
img = "https://ultralytics.com/images/zidane.jpg"
# Perform inference
results = model(img)
# Print results to the console
results.print()
# Show the image with bounding boxes
results.show()
A modo de comparación, Ultralytics admite RT-DETR a través de la misma interfaz sencilla:
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
for result in results:
result.show()
Conclusión
Tanto YOLOv5 RT-DETRv2 modelos capaces. RT-DETRv2 una visión del futuro de la detección basada en transformadores con su arquitectura NMS y su alta precisión. Sin embargo, YOLOv5 sigue siendo una potencia para el despliegue práctico en el mundo real, ya que ofrece una velocidad inigualable en dispositivos periféricos, menores costes de recursos y un rico ecosistema de herramientas.
Para los desarrolladores que desean «lo mejor de ambos mundos» —la velocidad de las CNN y la comodidad de los transformadores NMS—,Ultralytics es la opción definitiva para 2026 y más allá.