YOLO vs. RTDETRv2: Equilibrio entre velocidad y precisión del transformador
La selección de la arquitectura óptima para la detección de objetos suele implicar un equilibrio entre la latencia de la inferencia y la precisión de la detección. Esta comparativa técnica examina YOLO, un detector de alta velocidad optimizado por Alibaba Group, y RTDETRv2, la segunda generación del transformador de detección en tiempo real de Baidu. Analizamos sus innovaciones arquitectónicas, sus puntos de referencia de rendimiento y su idoneidad de despliegue para ayudarle a tomar decisiones informadas para sus aplicaciones de visión por ordenador.
YOLO: optimización para baja latencia
YOLO representa un paso importante en la evolución de YOLO centrándose en maximizar la velocidad sin comprometer gravemente la precisión. Desarrollada por el Grupo Alibaba, emplea técnicas avanzadas de búsqueda de arquitectura neuronal (NAS) para adaptar la estructura de la red en aras de la eficiencia.
- Autores: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, y Xiuyu Sun
- Organización:Grupo Alibaba
- Fecha: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
- Docs:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
Aspectos arquitectónicos destacados
YOLO integra varias tecnologías novedosas para agilizar el proceso de detección:
- Red troncal potenciada por NAS: El modelo utiliza la búsqueda de arquitectura neuronal (NAS) para descubrir automáticamente una estructura troncal eficiente (MAE-NAS). Este enfoque garantiza que la profundidad y la anchura de la red se optimicen para las limitaciones específicas del hardware.
- Cuello RepGFPN: Presenta una versión eficiente de la red piramidal de características generalizadas (GFPN) conocida como RepGFPN. Este componente mejora la fusión de características a diferentes escalas manteniendo un control de baja latencia.
- ZeroHead: Un diseño de cabezal simplificado denominado "ZeroHead" desacopla las tareas de clasificación y regresión, reduciendo la carga computacional de las capas finales de predicción.
- AlignedOTA: Para la estabilidad del entrenamiento, YOLO emplea AlignedOTA (asignación óptima de transporte), una estrategia de asignación de etiquetas que alinea los objetivos de clasificación y regresión para mejorar la convergencia.
Más información sobre DAMO-YOLO
RTDETRv2: La evolución de los transformadores en tiempo real
RTDETRv2 se basa en el éxito del RT-DETR original, el primer detector de objetos basado en transformadores que alcanzó un rendimiento en tiempo real. Desarrollado por Baidu, RTDETRv2 introduce un "bag-of-freebies" para mejorar la estabilidad y precisión del entrenamiento sin incurrir en costes adicionales de inferencia.
- Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, y Yi Liu
- Organización:Baidu
- Fecha: 2023-04-17
- Arxiv:https://arxiv.org/abs/2304.08069
- GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Docs:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
Aspectos arquitectónicos destacados
RTDETRv2 aprovecha los puntos fuertes de los transformadores de visión al tiempo que mitiga sus tradicionales cuellos de botella de velocidad:
- Codificador híbrido: La arquitectura utiliza un codificador híbrido que procesa características multiescala de forma eficiente, desacoplando la interacción intraescala y la fusión entre escalas para ahorrar costes computacionales.
- Selección de consultasIoU: Este mecanismo selecciona consultas de objetos iniciales de alta calidad basándose en las puntuaciones de Intersección sobre UniónIoU), lo que conduce a una convergencia de entrenamiento más rápida.
- Configuración adaptable: RTDETRv2 ofrece configuraciones flexibles para el descodificador y la selección de consultas, lo que permite a los usuarios ajustar el modelo a requisitos específicos de velocidad/precisión.
- Diseño sin anclajes: Al igual que su predecesor, está totalmente libre de anclajes, lo que elimina la necesidad de un ajuste heurístico de la caja de anclaje y la Supresión No MáximaNMSNMS) durante el posprocesamiento.
Más información sobre RTDETRv2
Comparación técnica: Rendimiento y eficacia
La principal diferencia entre estos dos modelos radica en sus raíces arquitectónicas -CNN frente a Transformer- y en cómo afecta esto a su perfil de rendimiento.
Análisis métrico
La tabla siguiente muestra las métricas clave del conjunto de datosCOCO . Mientras que RTDETRv2 domina en términos de precisión mediamAP), YOLO demuestra un rendimiento superior (FPS) y un menor recuento de parámetros para sus variantes más pequeñas.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Análisis de las compensaciones
YOLO destaca en entornos en los que cada milisegundo cuenta, como la clasificación industrial de alta frecuencia. Su variante "Tiny" (t) es excepcionalmente ligera. Por el contrario, RTDETRv2 ofrece un techo de precisión más alto, por lo que es preferible para escenas complejas en las que pasar por alto un objeto es crítico, como en la navegación autónoma o la vigilancia detallada.
Arquitectura frente a aplicación real
Contexto global frente a características locales: El mecanismo de atención del transformador de RTDETRv2 le permite comprender mejor el contexto global que el YOLO basado en CNN. Esto se traduce en un mejor rendimiento en escenas abarrotadas o cuando los objetos están ocluidos. Sin embargo, esta atención global tiene como contrapartida un mayor consumo de memoria y tiempos de entrenamiento más lentos.
Optimización del hardware: La red troncal basada en NAS de YOLO está altamente optimizada para la inferencia de GPU , logrando una latencia muy baja. RTDETRv2, aunque es en tiempo real, suele requerir un hardware más potente para igualar las frecuencias de cuadro de los detectores de YOLO.
La ventaja de Ultralytics: ¿Por qué elegir YOLO11?
Mientras que YOLO y RTDETRv2 ofrecen ventajas especializadas, Ultralytics YOLO11 destaca como la solución más equilibrada y fácil de desarrollar para la gran mayoría de aplicaciones del mundo real.
Experiencia y ecosistema superiores para desarrolladores
Uno de los retos más importantes de los modelos académicos como YOLO o RTDETRv2 es la integración. Ultralytics lo resuelve con un ecosistema robusto:
- Facilidad de uso: Con una API y una CLI Python unificadas, puede entrenar, validar e implantar modelos con solo unas líneas de código.
- Ecosistema bien mantenido: Los modelos de Ultralytics están respaldados por un desarrollo activo, una amplia documentación y una gran comunidad. Esto garantiza la compatibilidad con las bibliotecas de hardware y software más recientes.
- Eficiencia de entrenamiento: YOLO11 está diseñado para entrenar más rápido y requiere mucha menos memoria de GPU (VRAM) que los modelos basados en transformadores como RTDETRv2. Esto hace que la IA de alto rendimiento sea accesible incluso en hardware de consumo.
Versatilidad sin igual
A diferencia de YOLO y RTDETRv2, que se centran principalmente en la detección de recuadros delimitadores, YOLO11 admite de forma nativa una amplia gama de tareas de visión por ordenador:
- Segmentación de instancias
- Clasificación de imágenes
- Estimación de pose
- Caja delimitadora orientada (OBB)
Balance de resultados
YOLO11 logra una precisión de vanguardia que rivaliza o supera a RTDETRv2 en muchas pruebas de referencia, al tiempo que mantiene la velocidad de inferencia y la eficiencia características de la familia YOLO .
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
Conclusión
La elección entre YOLO y RTDETRv2 depende de sus limitaciones específicas:
- Elija YOLO si su principal restricción es la latencia y está desplegando en dispositivos periféricos en los que un número mínimo de parámetros es crítico.
- Elija RTDETRv2 si necesita la mayor precisión posible en escenas complejas y dispone del presupuesto computacional necesario para una arquitectura de transformadores.
Sin embargo, para obtener una solución integral que combine alto rendimiento, facilidad de uso y capacidad multitarea, Ultralytics YOLO11 sigue siendo la opción recomendada. Su menor huella de memoria durante la formación, combinada con un ecosistema maduro, acelera el paso del prototipo a la producción.
Explorar Otros Modelos
Para comprender mejor el panorama de la detección de objetos, explore estas comparaciones: