YOLOv5 frente a RTDETRv2: Equilibrio entre la velocidad en tiempo real y la precisión del transformador
En el panorama en rápida evolución de la visión por ordenador, seleccionar el modelo de detección de objetos adecuado es fundamental para el éxito del proyecto. Esta exhaustiva comparación técnica examina dos enfoques distintos: YOLOv5el legendario detector basado en CNN conocido por su versatilidad y velocidad, y RTDETRv2, un moderno modelo basado en transformadores que se centra en la alta precisión.
Mientras que RTDETRv2 aprovecha Vision Transformers (ViT) para captar el contexto global, Ultralytics YOLOv5 sigue siendo la mejor opción para los desarrolladores que necesitan una solución robusta y lista para su despliegue con una baja sobrecarga de recursos.
Especificaciones y orígenes de los modelos
Antes de entrar de lleno en las métricas de rendimiento, es esencial comprender los antecedentes y la filosofía arquitectónica de cada modelo.
| Característica | Ultralytics YOLOv5 | RTDETRv2 |
|---|---|---|
| Arquitectura | Basado en CNN (Anchor-based) | Híbrido (CNN Backbone + Transformador) |
| Objetivo principal | Velocidad en tiempo real, versatilidad y facilidad de uso | Alta precisión, contexto global |
| Autores | Glenn Jocher | Wenyu Lv, Yian Zhao, et al. |
| Organización | Ultralytics | Baidu |
| Fecha de publicación | 2020-06-26 | 2023-04-17 |
| Tareas | Detectar, segmentar, clasificar | Detección |
Arquitectura y filosofía del diseño
La diferencia fundamental entre estos modelos radica en cómo procesan los datos visuales.
Ultralytics YOLOv5
YOLOv5 emplea una arquitectura de red neuronal convolucional (CNN ) altamente optimizada. Utiliza una red troncal CSPDarknet modificada y un cuello de red de agregación de rutas (PANet) para extraer mapas de características.
- Basado en anclajes: Se basa en cajas de anclaje predefinidas para predecir la ubicación de los objetos, lo que simplifica el proceso de aprendizaje para las formas de objetos comunes.
- Eficacia: Diseñado para obtener la máxima velocidad de inferencia en una amplia variedad de hardware, desde dispositivos de última generación como la NVIDIA Jetson hasta CPU estándar.
- Versatilidad: Admite múltiples tareas, incluida la segmentación de instancias y la clasificación de imágenes dentro de un único marco unificado.
RTDETRv2
RTDETRv2 (Real-Time Detection Transformer v2) representa un cambio hacia las arquitecturas de transformadores.
- Diseño híbrido: Combina una columna vertebral CNN con un codificador-decodificador transformador, utilizando mecanismos de autoatención para procesar las relaciones entre objetos.
- Contexto global: El componente transformador permite al modelo "ver" toda la imagen a la vez, lo que mejora el rendimiento en escenas complejas con oclusión.
- Coste computacional: Esta sofisticada arquitectura suele demandar bastante más memoria y capacidad de cálculo (FLOPs) GPU en comparación con las soluciones basadas puramente en CNN.
Análisis de rendimiento
La tabla siguiente ofrece una comparación directa de las principales métricas de rendimiento. Mientras que RTDETRv2 muestra una precisión impresionantemAP) en el conjunto de datosCOCO , YOLOv5 demuestra una velocidad de inferencia superior, especialmente en el hardware de CPU , donde los transformadores suelen tener dificultades.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Interpretación de los datos
Mientras que RTDETRv2 alcanza cifras de mAP más altas, fíjate en las columnas Speed y FLOPs. YOLOv5n se ejecuta a 73,6 ms en una CPU, lo que lo hace viable para aplicaciones en tiempo real en hardware no acelerado. Los modelos RTDETRv2 son significativamente más pesados y requieren GPU potentes para mantener la velocidad de fotogramas en tiempo real.
Eficacia del entrenamiento y uso de memoria
Una ventaja crucial de YOLOv5 es su eficacia de entrenamiento. Los modelos basados en transformadores, como RTDETRv2, son conocidos por su elevado consumo de VRAM y su lenta convergencia.
- Menor huella de memoria: YOLOv5 puede entrenarse en GPU de consumo con una memoria CUDA modesta, lo que democratiza el acceso al desarrollo de la IA.
- Convergencia más rápida: Los usuarios a menudo pueden lograr resultados utilizables en menos épocas, ahorrando un tiempo valioso y costes de computación en la nube.
Puntos fuertes de Ultralytics YOLOv5
Para la mayoría de desarrolladores y aplicaciones comerciales, YOLOv5 ofrece un conjunto de ventajas más equilibrado y práctico:
- Facilidad de uso inigualable: LaAPIPython Ultralytics es el estándar de simplicidad del sector. Cargar un modelo, ejecutar la inferencia y entrenar con datos personalizados se puede hacer con solo unas pocas líneas de código.
- Ecosistema enriquecido: Respaldado por una comunidad masiva de código abierto, YOLOv5 se integra perfectamente con Ultralytics HUB para la formación sin código, herramientas MLOps para el seguimiento y diversos formatos de exportación como ONNX y TensorRT.
- Flexibilidad de despliegue: Desde aplicaciones móviles iOS y Android hasta Raspberry Pi y servidores en la nube, la arquitectura ligera de YOLOv5 le permite funcionar donde los modelos transformadores más pesados no pueden.
- Versatilidad de tareas: A diferencia de RTDETRv2, que es principalmente un detector de objetos, YOLOv5 soporta clasificación y segmentación, reduciendo la necesidad de mantener múltiples bases de código para diferentes tareas de visión.
Ruta de actualización
Si necesita una precisión aún mayor que la YOLOv5 sin perder las ventajas del ecosistema, piense en el nuevo YOLO11. Incorpora modernas mejoras arquitectónicas para rivalizar o superar la precisión del transformador con la eficiencia que espera de YOLO.
Comparación de códigos: facilidad de uso
El siguiente ejemplo demuestra la sencillez de uso de YOLOv5 con el paquete Ultralytics .
from ultralytics import YOLO
# Load a pre-trained YOLOv5 model
model = YOLO("yolov5s.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
for result in results:
result.show() # show to screen
result.save(filename="result.jpg") # save to disk
Casos de Uso Ideales
Cuándo elegir Ultralytics YOLOv5
- Computación de borde: Despliegue en dispositivos alimentados por batería o con recursos limitados (drones, teléfonos móviles, IoT).
- Análisis de vídeo en tiempo real: Procesamiento simultáneo de múltiples secuencias de vídeo para la gestión del tráfico o la seguridad.
- Creación rápida de prototipos: Cuando necesita pasar de un conjunto de datos a un modelo desplegado en horas, no en días.
- Requisitos multitarea: Proyectos que necesiten tanto detección de objetos como segmentación de imágenes.
Cuándo elegir RTDETRv2
- Investigación académica: Comparación con el estado del arte absoluto en conjuntos de datos estáticos en los que la velocidad es secundaria.
- Disponibilidad de GPU de gama alta: Entornos en los que se dispone de GPU de nivel de servidor dedicadas (como las NVIDIA A100) tanto para el entrenamiento como para la inferencia.
- Escenarios estáticos complejos: Escenarios con oclusión densa en los que el mecanismo de autoatención proporciona una ventaja crítica en precisión.
Conclusión
Aunque RTDETRv2 muestra el potencial de los transformadores en la visión por ordenador con cifras de precisión impresionantes, conlleva costes significativos en términos de recursos de hardware y complejidad de entrenamiento. Para la inmensa mayoría de las aplicaciones del mundo real, Ultralytics YOLOv5 sigue siendo la mejor opción. Su combinación perfecta de velocidad, precisión y bajo consumo de memoria, junto con un ecosistema de apoyo y una amplia documentación, garantizaque los desarrolladores puedan crear soluciones de IA escalables, eficientes y eficaces.
Para aquellos que buscan lo último en rendimiento sin sacrificar la facilidad de uso del marco Ultralytics , recomendamos encarecidamente explorar YOLO11que tiende un puente entre la eficiencia de la CNN y la precisión a nivel de transformador.