YOLOv8 frente a RTDETRv2: Comparación técnica exhaustiva

En el panorama en rápida evolución de la visión por ordenador, seleccionar el modelo de detección de objetos adecuado es fundamental para el éxito del proyecto. Esta comparativa profundiza en las diferencias técnicas entre YOLOv8de Ultralytics, y RTDETRv2, un sofisticado modelo basado en transformadores de Baidu. Mediante el análisis de sus arquitecturas, métricas de rendimiento y requisitos de recursos, pretendemos guiar a desarrolladores e investigadores hacia la solución óptima para sus necesidades específicas.

Visualización de las diferencias de rendimiento

El gráfico siguiente ilustra las compensaciones entre velocidad y precisión para varios tamaños de modelo, destacando cómo YOLOv8 mantiene una eficiencia superior en todos los ámbitos.

Análisis de rendimiento: Velocidad vs. Precisión

La tabla siguiente presenta una comparación directa de las métricas clave. Mientras que RTDETRv2 logra una gran precisión con sus modelos más grandes, YOLOv8 demuestra una ventaja significativa en velocidad de inferencia y eficiencia de parámetros, especialmente en hardware de CPU donde los modelos de transformador a menudo se enfrentan a cuellos de botella de latencia.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Ultralytics YOLOv8: el estándar de versatilidad y velocidad

Lanzamiento a principios de 2023, YOLOv8 representa un importante salto adelante en la familia YOLO , introduciendo un marco unificado para múltiples tareas de visión por ordenador. Se ha diseñado para ofrecer la mejor relación posible entre velocidad y precisión, lo que lo hace muy adecuado para aplicaciones en tiempo real que van desde la automatización industrial a las infraestructuras de ciudades inteligentes.

Autores: Glenn Jocher, Ayush Chaurasia y Jing Qiu
Organización:Ultralytics
Fecha: 2023-01-10
GitHub:ultralytics
Documentación:DocumentaciónYOLOv8

Principales características arquitectónicas

YOLOv8 utiliza un cabezal de detección sin anclajes, lo que simplifica el proceso de entrenamiento y mejora la generalización a través de diferentes formas de objetos. Su arquitectura cuenta con una red troncal Darknet Cross-Stage Partial (CSP) para la extracción eficiente de características y un cuello Path Aggregation Network (PAN)-FPN para una fusión multiescala robusta. A diferencia de muchos competidores, YOLOv8 admite de forma nativa la clasificación de imágenes, la segmentación de instancias, la estimación de poses y la detección de objetos orientados (OBB) dentro de una API única y fácil de usar.

Fortalezas

Eficiencia excepcional: Optimiza el uso de memoria y la carga computacional, lo que permite el despliegue en dispositivos periféricos como NVIDIA Jetson y Raspberry Pi.
Velocidad de entrenamiento: Requiere bastante menos memoria CUDA y tiempo de entrenamiento en comparación con las arquitecturas basadas en transformadores.
Ecosistema enriquecido: Respaldado por documentación exhaustiva, soporte activo de la comunidad e integraciones perfectas con herramientas como TensorRT y OpenVINO.
Facilidad de uso: La experiencia "pip install ultralytics" permite a los desarrolladores empezar a entrenar y predecir en cuestión de minutos.

Más información sobre YOLOv8

RTDETRv2: Precisión del transformador de empuje

RTDETRv2 es una evolución del Transformador de Detección en Tiempo RealRT-DETR), desarrollado para aprovechar las capacidades de contexto global de los Transformadores de Visión (ViT) al tiempo que intenta mitigar sus problemas inherentes de latencia. Su objetivo es superar a los modelos YOLO en cuanto a precisión aprovechando los mecanismos de autoatención.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, y Yi Liu
Organización:Baidu
Fecha: 2024-07-24 (versión v2)
Arxiv:DocumentoRT-DETRv2
GitHub:RT-DETR

Descripción General de la Arquitectura

RTDETRv2 emplea un enfoque híbrido, utilizando una red troncal CNN (normalmente ResNet) para extraer características que luego son procesadas por un transformador codificador-decodificador. El mecanismo de autoatención permite al modelo comprender las relaciones entre partes distantes de una imagen, lo que ayuda en escenas complejas con oclusión. La versión 2 introduce un operador de muestreo discreto y mejora la estabilidad del entrenamiento dinámico.

Fortalezas y Debilidades

Ventajas:
- Contexto global: Excelente en el manejo de relaciones complejas de objetos y oclusiones debido a su naturaleza transformadora.
- Alta precisión: Los modelos más grandes obtienen puntuacionesmAP ligeramente superiores en el conjunto de datos COCO en comparación con YOLOv8x.
- Sin anclajes: Al igual que YOLOv8, elimina la necesidad de ajustar manualmente la caja de anclaje.
Debilidades:
- Uso intensivo de recursos: el elevado número de FLOPs y parámetros lo hace más lento en CPU y requiere GPUs caras para el entrenamiento.
- Soporte limitado de tareas: Centrado principalmente en la detección de objetos, carece de la versatilidad multitarea nativa (segmentación, pose, etc.) del marco Ultralytics .
- Despliegue complejo: La arquitectura del transformador puede ser más difícil de optimizar para objetivos móviles e integrados en comparación con las CNN puras.

Más información sobre RTDETRv2

Comparación detallada: Arquitectura y usabilidad

Eficacia del entrenamiento y memoria

Una de las diferencias más claras radica en el proceso de entrenamiento. Los modelos basados en transformadores como RTDETRv2 consumen muchos datos y memoria. A menudo necesitan mucha más memoriaCUDA y periodos de entrenamiento más largos para converger que CNN como YOLOv8. Para investigadores o nuevas empresas con recursos de GPU limitados, Ultralytics YOLOv8 ofrece una barrera de entrada mucho más accesible, ya que permite un entrenamiento personalizado eficiente en hardware de consumo.

Versatilidad y ecosistema

Aunque RTDETRv2 es un fuerte competidor académico para tareas de detección pura, carece del ecosistema holístico que rodea a los modelos Ultralytics . YOLOv8 no es solo un modelo, sino que forma parte de una plataforma:

Gestión de datos: Fácil manejo de conjuntos de datos como COCO y Objects365.
MLOps: Integración con Weights & Biases, Comety Ultralytics HUB.
Despliegue: Exportación con un solo clic a formatos como ONNXCoreML y TFLite para una mayor compatibilidad de hardware.

Consideraciones sobre el hardware

Si su objetivo de despliegue implica la inferencia deCPU (por ejemplo, servidores estándar, ordenadores portátiles) o dispositivos de borde de baja potencia, YOLOv8 es la mejor opción debido a su arquitectura CNN optimizada. RTDETRv2 es mejor reservarlo para escenarios con aceleración GPU dedicada de gama alta.

Casos de Uso Ideales

Cuándo elegir YOLOv8

YOLOv8 es la opción preferida para la gran mayoría de las implantaciones en el mundo real. Su equilibrio entre velocidad, precisión y facilidad de uso lo hacen ideal para:

Análisis en tiempo real: Supervisión del tráfico, análisis de comercios minoristas y análisis de deportes en los que es crucial un alto nivel de FPS.
Computación Edge: Ejecución de IA en drones, robots o aplicaciones móviles donde la potencia y la computación son limitadas.
Aplicaciones multitarea: Proyectos que requieren simultáneamente seguimiento, segmentación y clasificación de objetos.

Cuándo elegir RTDETRv2

RTDETRv2 brilla en nichos específicos en los que el coste computacional es secundario frente a las ganancias marginales de precisión:

Investigación académica: Estudio de las propiedades de los transformadores de la visión.
Procesamiento basado en la nube: Procesamiento por lotes de imágenes en potentes granjas de servidores donde la latencia es menos crítica que la detección de objetos difíciles y ocluidos.

Ejemplo de código: Primeros pasos con YOLOv8

La API de Ultralytics está diseñada para la simplicidad. Puede cargar un modelo preentrenado, ejecutar predicciones o empezar a entrenar con solo unas líneas de código Python .

from ultralytics import YOLO

# Load a pretrained YOLOv8 model
model = YOLO("yolov8n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

# Train on a custom dataset
# model.train(data="coco8.yaml", epochs=100, imgsz=640)

Conclusión

Mientras que RTDETRv2 demuestra el potencial de las arquitecturas de transformadores para lograr una gran precisión, Ultralytics YOLOv8 sigue siendo la mejor opción para la visión por ordenador práctica y de producción. La eficiencia arquitectónica de YOLOv8 se traduce en una inferencia más rápida, menores costes de formación y una mayor compatibilidad de hardware. Además, el sólido ecosistema de Ultralytics garantiza que los desarrolladores dispongan de las herramientas, la documentación y el apoyo de la comunidad necesarios para dar vida a sus soluciones de IA de forma eficiente.

Para los que buscan lo último en rendimiento y eficiencia, también recomendamos explorar YOLO11que perfecciona el legado YOLO con una mejor relación precisión-velocidad.

Explorar Otros Modelos

Si le interesa explorar más opciones dentro del ecosistema de Ultralytics o comparar otros modelos de SOTA, consulte estos recursos:

YOLO11: el último modelo YOLO de última generación.
YOLOv10: Detector de objetos de extremo a extremo en tiempo real.
RT-DETR: el transformador de detección en tiempo real original.
YOLOv9: se centra en la información programable sobre los gradientes.