Ir al contenido

RTDETRv2 frente a YOLOv8: comparación técnica

En el panorama en rápida evolución de la visión por ordenador, elegir el modelo de detección de objetos adecuado es fundamental para el éxito del proyecto. Dos filosofías arquitectónicas distintas dominan actualmente el campo: los enfoques basados en transformadores representados por RTDETRv2 y los diseños de redes neuronales convolucionales (CNN) altamente optimizados ejemplificados por Ultralytics YOLOv8.

Mientras que RTDETRv2 amplía los límites de la precisión mediante transformadores de visión, YOLOv8 perfecciona el equilibrio entre velocidad, precisión y facilidad de despliegue. Esta comparativa explora las especificaciones técnicas, las diferencias arquitectónicas y las métricas prácticas de rendimiento para ayudar a desarrolladores e investigadores a seleccionar la solución óptima para sus aplicaciones.

Métricas de rendimiento: Velocidad, precisión y eficacia

El panorama del rendimiento pone de manifiesto un claro equilibrio. RTDETRv2 se centra en maximizar la precisión mediamAP) a través de complejos mecanismos de atención, mientras que YOLOv8 prioriza un equilibrio versátil de velocidad de inferencia en tiempo real y alta precisión adecuada para el despliegue en el borde y en la nube.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Análisis de los resultados

Los datos revelan varias ideas fundamentales para las estrategias de despliegue:

  • Eficiencia computacional: YOLOv8 demuestra una eficiencia superior. Por ejemplo YOLOv8l alcanza casi la paridad en precisión (52,9 mAP) con RTDETRv2-l (53,4 mAP) a la vez que funciona a mayor velocidad de inferencia en GPU.
  • Rendimiento deCPU : YOLOv8 ofrece un rendimiento documentado y sólido en hardware de CPU , lo que lo convierte en la opción práctica para los dispositivos de IA de borde que carecen de aceleradores dedicados. Las pruebas de RTDETRv2 para CPU no suelen estar disponibles debido al elevado coste computacional de las capas de transformación.
  • Eficiencia de parámetros: Los modelos YOLOv8 requieren sistemáticamente menos parámetros y operaciones en coma flotante (FLOPs) para lograr resultados competitivos, lo que se traduce directamente en un menor consumo de memoria y tiempos de entrenamiento más rápidos.

Consideraciones sobre el hardware

Si su objetivo de despliegue incluye CPU estándar (como procesadores Intel ) o dispositivos integrados (como Raspberry Pi), la arquitectura basada en CNN de YOLOv8 proporciona una ventaja significativa en latencia frente a las operaciones intensivas en transformadores de RTDETRv2.

RTDETRv2: Detección en tiempo real con Transformers

RTDETRv2 (Real-Time Detection Transformer v2) representa la evolución continua de la aplicación de los Transformadores de Visión (ViT) a la detección de objetos. Desarrollado por investigadores de Baidu, su objetivo es resolver los problemas de latencia asociados tradicionalmente a los modelos basados en DETR, conservando al mismo tiempo su capacidad para comprender el contexto global.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
Organización:Baidu
Fecha: 2024-07-24 (v2 release)
Arxiv:https://arxiv.org/abs/2304.08069
GitHubRT-DETR

Arquitectura

RTDETRv2 utiliza una arquitectura híbrida que combina una columna vertebral (normalmente una CNN como ResNet) con un codificador-decodificador transformador eficiente. Una característica clave es la disociación de la interacción intraescala y la fusión entre escalas, que ayuda al modelo a captar las dependencias de largo alcance en toda la imagen. Esto permite al modelo "atender" a diferentes partes de una escena simultáneamente, lo que puede mejorar el rendimiento en entornos desordenados.

Fortalezas y Debilidades

El principal punto fuerte de RTDETRv2 es su gran precisión en conjuntos de datos complejos en los que el contexto global es crucial. Al prescindir de los cuadros de anclaje en favor de las consultas de objetos, simplifica el proceso de posprocesamiento al eliminar la necesidad de supresión no máximaNMS).

Sin embargo, estas ventajas tienen un coste:

  • Intensidad de recursos: El modelo requiere mucha más memoria de GPU para el entrenamiento que las CNN.
  • Convergencia más lenta: Los modelos basados en transformadores suelen tardar más en entrenarse hasta converger.
  • Versatilidad limitada: Está diseñado principalmente para la detección de recuadros delimitadores y carece de soporte nativo para la segmentación o la estimación de la pose.

Más información sobre RTDETRv2

Ultralytics YOLOv8: velocidad, versatilidad y ecosistema

Ultralytics YOLOv8 es un modelo de detección de objetos sin anclajes de última generación que establece el estándar de versatilidad y facilidad de uso del sector. Se basa en el legado de la familia YOLO , introduciendo mejoras arquitectónicas que aumentan el rendimiento, manteniendo la velocidad en tiempo real que hizo famoso YOLO .

Autores: Glenn Jocher, Ayush Chaurasia y Jing Qiu
Organización:Ultralytics
Fecha: 2023-01-10
GitHubultralytics
Docsyolov8

Arquitectura

YOLOv8 presenta una red troncal Darknet CSP (Cross Stage Partial) y un cuello PANet (Path Aggregation Network), que culminan en una cabeza de detección desacoplada. Esta arquitectura está libre de anclajes, lo que significa que predice los centros de los objetos directamente, lo que simplifica el diseño y mejora la generalización. El modelo está altamente optimizado para unidades de procesamientotensor y GPU, lo que garantiza el máximo rendimiento.

Principales ventajas para los promotores

  • Facilidad de uso: Con una API Pythonic y una CLI robusta, los usuarios pueden entrenar y desplegar modelos en sólo unas pocas líneas de código. La completa documentación reduce la barrera de entrada tanto para principiantes como para expertos.
  • Ecosistema bien mantenido: Respaldado por Ultralytics, YOLOv8 se beneficia de actualizaciones frecuentes, soporte de la comunidad e integración perfecta con herramientas como TensorBoard y MLFlow.
  • Versatilidad: A diferencia de RTDETRv2, YOLOv8 admite una amplia gama de tareas listas para usar, como la segmentación de instancias, la estimación de poses, la clasificación y la detección de objetos orientados (OBB).
  • Eficiencia de entrenamiento: El modelo está diseñado para entrenarse rápidamente con menores requisitos de memoria CUDA , lo que lo hace accesible a investigadores con presupuestos de hardware limitados.

Más información sobre YOLOv8

Inmersión profunda: Arquitectura y casos de uso

La elección entre estos dos modelos suele depender de los requisitos específicos del entorno de aplicación.

Filosofía arquitectónica

YOLOv8 se basa en las redes neuronales convolucionales (CNN), que procesan con eficacia las características locales y las jerarquías espaciales. Esto las hace intrínsecamente más rápidas y menos consumidoras de memoria. RTDETRv2 se basa en transformadores que le permiten modelar relaciones globales con eficacia, pero introducen una complejidad cuadrática con respecto al tamaño de la imagen, lo que da lugar a una mayor latencia y uso de memoria, especialmente a altas resoluciones.

Casos de Uso Ideales

Elige YOLOv8 cuando:

  • El rendimiento en tiempo real es fundamental: Aplicaciones como la conducción autónoma, el análisis de vídeo y el control de calidad de la fabricación requieren baja latencia.
  • El hardware no tiene restricciones: La implementación en NVIDIA Jetson, Raspberry Pi o dispositivos móviles se realiza sin problemas con YOLOv8.
  • Se necesita multitarea: Si su proyecto requiere segmentar objetos o rastrear puntos clave junto con la detección, YOLOv8 ofrece un marco unificado.
  • Ciclos de desarrollo rápidos: El ecosistemaUltralytics acelera el etiquetado, la formación y la implantación de los datos.

Elija RTDETRv2 cuando:

  • La máxima precisión es la única métrica: Para pruebas académicas o escenarios en los que se dispone de cálculo infinito y cada fracción de mAP cuenta.
  • Oclusiones complejas: En escenas muy desordenadas en las que es vital comprender la relación entre píxeles distantes, el mecanismo de atención global puede ofrecer una ligera ventaja.

Resumen comparativo

Mientras que RTDETRv2 presenta un interesante avance académico en la aplicación de transformadores a la detección, YOLOv8 sigue siendo la mejor opción para la mayoría de las aplicaciones prácticas. Su equilibrio entre velocidad, precisión y eficacia es inigualable. Además, la capacidad de realizar múltiples tareas de visión por ordenador dentro de una única biblioteca de fácil manejo la convierte en una herramienta versátil para el desarrollo de la IA moderna.

Para los desarrolladores que busquen lo último en rendimiento y prestaciones, las nuevas iteraciones como YOLO11 ofrece una mayor eficacia y precisión que YOLOv8 y RTDETRv2.

Ejemplo de código: Primeros pasos con YOLOv8

Integrar YOLOv8 en su flujo de trabajo es sencillo. A continuación se muestra un ejemplo Python que muestra cómo cargar un modelo preentrenado, ejecutar la inferencia y exportarlo para su despliegue.

from ultralytics import YOLO

# Load a pre-trained YOLOv8 model
model = YOLO("yolov8n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a local image
# Ensure the image path is correct or use a URL
results = model("path/to/image.jpg")

# Export the model to ONNX format for deployment
success = model.export(format="onnx")

Explorar Otros Modelos

Para una perspectiva más amplia sobre las arquitecturas de detección de objetos, considere explorar estas comparaciones relacionadas:


Comentarios