Ir al contenido

YOLO RTDETRv2: arquitecturas para la detección en tiempo real

Seleccionar la arquitectura óptima para la detección de objetos es una decisión fundamental que afecta a todo, desde la latencia de la inferencia hasta los costes de implementación. Dos modelos innovadores que han desafiado el statu quo son YOLO de Alibaba y RTDETRv2 de Baidu. Mientras queYOLO en la búsqueda de arquitectura neuronal (NAS) y la reparametrización eficiente, RTDETRv2 amplía los límites de los transformadores en tiempo real mediante el perfeccionamiento del paradigma DETR.

Esta guía ofrece un análisis técnico detallado de sus arquitecturas, métricas de rendimiento y metodologías de entrenamiento para ayudarle a determinar qué modelo se adapta mejor a sus requisitos específicos de visión artificial. También exploramos cómo la próxima generación Ultralytics sintetiza lo mejor de estos enfoques en un marco unificado y fácil de usar.

Descripción general de DAMO-YOLO

YOLO Distillation-Enhanced Neural Architecture Search-Optimized YOLO) fue desarrollado por Alibaba Group para satisfacer las necesidades específicas de las aplicaciones industriales, en las que la baja latencia y la alta precisión son imprescindibles. Introduce un conjunto de tecnologías diseñadas para comprimir el modelo sin sacrificar el rendimiento.

Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang y Xiuyu Sun
Organización: Alibaba Group
Fecha: 23 de noviembre de 2022
Arxiv:YOLO
GitHub:YOLO

Más información sobre YOLO26

Innovaciones arquitectónicas clave

YOLO seYOLO por varios «paquetes de regalos» diseñados para mejorar la eficiencia:

  • Búsqueda de arquitectura neuronal (NAS): a diferencia de los modelos con estructuras base diseñadas manualmente,YOLO NAS para descubrir automáticamente la estructura más eficiente para la estructura base (MAE-NAS), optimizando el equilibrio entre las operaciones de punto flotante (FLOP) y la precisión.
  • RepGFPN eficiente: utiliza una red piramidal de características generalizada (RepGFPN) que aprovecha la reparametrización. Esto permite fusionar las estructuras complejas utilizadas durante el entrenamiento en convoluciones más simples y rápidas durante la inferencia.
  • ZeroHead: un cabezal de detección ligero que minimiza la carga computacional que suele asociarse a las capas de predicción final.
  • AlignedOTA: una estrategia optimizada de asignación de etiquetas que resuelve los problemas de desalineación entre las tareas de clasificación y regresión durante el entrenamiento.

RTDETRv2 Descripción General

RTDETRv2 (Real-Time Detection Transformer v2) se basa en el éxito del RT-DETR original, el primer detector basado en transformadores que realmente rivaliza con YOLO en velocidad. Desarrollado por Baidu, su objetivo es eliminar la necesidad del posprocesamiento de supresión no máxima (NMS) al tiempo que mejora la velocidad de convergencia y la flexibilidad.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
Organización: Baidu
Fecha: 17 de abril de 2023 (v1), julio de 2024 (v2)
Arxiv:RT-DETRv2
GitHub:RT-DETR

Más información sobre RT-DETR

Innovaciones arquitectónicas clave

RTDETRv2 perfecciona la arquitectura del transformador para tareas prácticas de visión:

  • Codificador híbrido: Combina una red neuronal convolucional (CNN) con un codificador híbrido eficiente que desacopla la interacción intraescala y la fusión entre escalas, abordando el alto coste computacional de los mecanismos estándar de autoatención.
  • Selección de consultasIoU: este mecanismo selecciona consultas de objetos iniciales de alta calidad basadas en puntuaciones de intersección sobre unión (IoU), lo que acelera la convergencia del entrenamiento.
  • Implementación flexible: a diferencia de su predecesor, RTDETRv2 admite formas de entrada flexibles y una optimización mejorada para TensorRT, lo que lo hace más viable para diversos backends de hardware.
  • NMS: al predecir directamente un conjunto de objetos, elimina la variación de latencia causada por NMS, lo que supone una ventaja fundamental para el análisis de vídeo en tiempo real.

Comparación de rendimiento

Al comparar estas arquitecturas, es fundamental tener en cuenta el equilibrio entre la precisión media (mAP) y la velocidad de inferencia en diferentes configuraciones de hardware.

Modelotamaño
(píxeles)
mAPval
50-95
Velocidad
CPU ONNX
(ms)
Velocidad
T4 TensorRT10
(ms)
parámetros
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Análisis

  • Precisión: RTDETRv2 suele conseguir mAP más altas, sobre todo en las variantes medianas y grandes. El modelo «X» alcanza un impresionante 54,3 % mAP, superando a laYOLO más grande. Esto lo hace ideal para aplicaciones que requieren una detección de alta fidelidad, como imágenes médicas o detección de defectos.
  • Velocidad:YOLO su rendimiento bruto en TensorRT . Su arquitectura CNN reparametrizada es intrínsecamente más compatible con el hardware que los bloques transformadores de RTDETRv2, lo que se traduce en una menor latencia para las variantes «Tiny» y «Small».
  • Eficiencia de los parámetros:YOLO a tener menos parámetros para niveles de rendimiento similares, lo que puede ser ventajoso para dispositivos periféricos con limitaciones de almacenamiento.

La Ventaja Ultralytics: ¿Por qué elegir YOLO26?

AunqueYOLO RTDETRv2 ofrecen ventajas específicas, los desarrolladores suelen enfrentarse a retos como procesos de entrenamiento complejos, compatibilidad limitada con plataformas y documentación fragmentada. Ultralytics resuelve estos problemas integrando innovaciones de vanguardia en un ecosistema fluido y centrado en el usuario.

Excelencia integrada

YOLO26 unifica la velocidad de las CNN con la simplicidad integral de los transformadores, ofreciendo un diseño NMS que simplifica la implementación y supera a sus predecesores tanto en GPU CPU GPU .

1. Experiencia de usuario y ecosistema superiores

El sello distintivo de Ultralytics es facilidad de uso. Aunque los repositorios de investigación suelen requerir configuraciones de entorno complejas, YOLO26 se puede instalar y ejecutar en cuestión de segundos a través de la ultralytics paquete. El Ultralytics Platform mejora aún más esto al proporcionar gestión de conjuntos de datos basada en la web, formación con un solo clic e implementación automatizada.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100)

2. Arquitectura integral NMS

YOLO26 adopta un diseño nativo de extremo a extremo NMS, una característica que comparte con RTDETRv2, pero que se implementa dentro de un marco CNN altamente optimizado. Este avance elimina la necesidad de la supresión no máxima, un cuello de botella común en los procesos de implementación. Al eliminar NMS, YOLO26 garantiza tiempos de inferencia consistentes y simplifica la integración con herramientas como OpenVINO y CoreML.

3. Eficiencia y estabilidad del entrenamiento

YOLO26 presenta el optimizador MuSGD, un híbrido entre SGD Muon (inspirado en el entrenamiento LLM), que aporta una estabilidad sin precedentes a las tareas de visión. Esto permite una convergencia más rápida y un ajuste reducido de los hiperparámetros en comparación con los complejos programas que suelen requerir los modelos basados en transformadores, como RTDETRv2.

4. Optimización Edge-First

Para los desarrolladores que implementan en dispositivos periféricos como Raspberry Pi o NVIDIA , YOLO26 ofrece CPU hasta un 43 % más rápida. La eliminación de la pérdida focal de distribución (DFL) simplifica aún más el gráfico del modelo para la exportación, lo que garantiza una mejor compatibilidad con aceleradores de baja potencia en comparación con los mecanismos de atención de gran complejidad computacional de los transformadores.

5. Versatilidad en todas las tareas

A diferencia de muchos detectores especializados, YOLO26 es un verdadero sistema de aprendizaje multitarea. Admite tareas de detección de objetos, segmentación de instancias, estimación de poses, clasificación y Oriented Bounding Box (OBB) dentro de una única base de código.

Recomendaciones de casos de uso

  • ElijaYOLO : trabaja exclusivamente en tareas de inspección industrial en las que TensorRT en NVIDIA específico NVIDIA es el único objetivo de implementación y necesita la latencia más baja posible para tareas de detección sencillas.
  • Elija RTDETRv2 si: necesita una detección de alta precisión para escenas complejas con oclusión y tiene acceso a potentes GPU en las que el coste computacional de los transformadores es aceptable. También es una buena opción si la inferencia NMS es un requisito estricto, pero prefiere una arquitectura de transformador.
  • Elija Ultralytics si: Desea obtener el mejor rendimiento general con una precisión de vanguardia, velocidad NMS y la capacidad de implementarlo fácilmente en CPU, GPU y dispositivos móviles. Su sólida documentación, el apoyo activo de la comunidad y la integración con la Ultralytics lo convierten en la opción más preparada para el futuro para los sistemas de producción.

Conclusión

El panorama de la detección de objetos ofrece numerosas opciones. YOLO demuestra la potencia de la búsqueda de arquitectura neuronal en términos de eficiencia, mientras que RTDETRv2 muestra el potencial de los transformadores en tiempo real. Sin embargo, Ultralytics destaca por sintetizar estos avances, ya que ofrece inferencia NMS, velocidad optimizada para el borde y estabilidad de entrenamiento inspirada en LLM, todo ello envuelto en el ecosistema más favorable para los desarrolladores del sector.

Para aquellos que estén listos para comenzar su próximo proyecto, explorar la documentación de YOLO26 es el primer paso recomendado para lograr resultados SOTA con una fricción mínima.

Lecturas adicionales


Comentarios