YOLOv10 frente a RT-DETRv2: Comparación técnica para la detección de objetos

La selección de la arquitectura óptima para la detección de objetos es una decisión fundamental que requiere un equilibrio entre la velocidad de inferencia, la precisión y la demanda de recursos informáticos. Esta completa guía compara YOLOv10una evolución de vanguardia de la familia YOLO basada en CNN conocida por su eficacia, y RT-DETRv2un sofisticado modelo basado en transformadores diseñado para tareas de alta precisión. Analizamos sus innovaciones arquitectónicas, métricas de rendimiento y escenarios ideales de despliegue para ayudarle a tomar una decisión informada para sus proyectos de visión por computador.

YOLOv10: detección en tiempo real basada en la eficacia

YOLOv10 representa un salto significativo en el linaje de YOLO , centrándose en la eliminación de los cuellos de botella de los detectores tradicionales en tiempo real. Desarrollado por investigadores de la Universidad de Tsinghua, introduce un paradigma de entrenamiento NMS que agiliza el proceso de despliegue al eliminar la necesidad del posprocesamiento de supresión no máxima.

Autores: Ao Wang, Hui Chen, Lihao Liu, et al.
Organización:Universidad de Tsinghua
Fecha: 2024-05-23
Arxiv:2405.14458
GitHub:THU-MIG/yolov10
Documentación:Documentación deYOLOv10

Innovaciones arquitectónicas

YOLOv10 adopta un diseño holístico basado en la eficiencia y la precisión. Utiliza asignaciones duales coherentes durante el entrenamiento para permitir la inferencia NMS, lo que reduce significativamente la latencia. La arquitectura también incluye un cabezal de clasificación ligero y un muestreo descendente desacoplado de canales espaciales para minimizar la redundancia computacional. Este diseño garantiza que el modelo siga siendo extremadamente rápido al tiempo que mantiene una precisión competitiva, lo que lo hace especialmente adecuado para la computación periférica, donde los recursos son escasos.

Inferencia NMS

La eliminación de la supresión no máxima (NMS ) en YOLOv10 reduce la complejidad de los pasos de posprocesamiento. Esto se traduce en una menor latencia de inferencia y facilita la implementación del modelo en pipelines de extremo a extremo sin kernels CUDA personalizados para NMS.

El modelo se adapta eficazmente a distintos tamaños, desde la versión nano (n) para entornos con restricciones extremas hasta la versión extragrande (x) para requisitos de mayor precisión.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Run inference on an image
results = model.predict("path/to/image.jpg")

Más información sobre YOLOv10

RT-DETRv2: Precisión basada en transformadores

RT-DETRv2(Real-Time Detection Transformer v2) se basa en el éxito del RT-DETR original y perfecciona la aplicación de transformadores de visión para la detección de objetos en tiempo real. Desarrollado por Baidu, este modelo aprovecha los mecanismos de autoatención para captar el contexto global, superando a menudo a sus homólogos basados en CNN en escenas complejas con oclusiones.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
Organización:Baidu
Fecha: 2024-07-24
Arxiv:2407.17140
GitHub:RepositorioRT-DETRv2
DocumentaciónDocumentaciónRT-DETR

Transformadores visuales en la detección

A diferencia de las CNN tradicionales, que procesan las imágenes utilizando campos receptivos locales, RT-DETRv2 emplea un Transformador de Visión (ViT) como columna vertebral. Esto permite al modelo procesar parches de imágenes con autoatención, comprendiendo eficazmente las relaciones entre objetos distantes en una escena. Aunque esta capacidad de contexto global mejora la precisión de la detección, suele conllevar mayores costes computacionales en comparación con la arquitectura simplificada de YOLOv10.

RT-DETRv2 está diseñado para ser adaptable, ofreciendo diferentes escalas de modelos para ajustarse a diferentes necesidades de rendimiento, aunque normalmente exige más memoria de GPU para el entrenamiento y la inferencia que los modelos YOLO equivalentes.

Más información sobre RT-DETRv2

Análisis de rendimiento

La comparación que figura a continuación pone de relieve las distintas ventajas de cada arquitectura. YOLOv10 destaca por su velocidad y eficiencia, ya que ofrece una latencia y un número de parámetros notablemente bajos. Por ejemplo, el modelo YOLOv10n funciona a 1,56 ms en una GPU T4, lo que lo hace ideal para el procesamiento de vídeo de alta velocidad. RT-DETRv2aunque es más lento, proporciona una gran precisión, sobre todo en los modelos de mayor tamaño, pero a costa de un uso de memoria y FLOPs significativamente mayor.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Como se observa en la tabla, YOLOv10x logra un mAP superior del 54,4% en comparación con el 54,3% de RT-DETRv2, al tiempo que emplea un 23% menos de tiempo para la inferencia y posee una huella de modelo significativamente menor. Esta eficiencia hace de YOLOv10 una opción más equilibrada para la mayoría de las aplicaciones en las que los recursos de hardware son un factor a tener en cuenta.

Fortalezas y Debilidades

YOLOv10

Ventajas:
- Baja latencia: El diseño NMS permite una inferencia extremadamente rápida, crucial para las aplicaciones en tiempo real.
- Eficiencia de recursos: Requiere menos parámetros y FLOPs, lo que la hace adecuada para su implantación en dispositivos de IA periféricos como NVIDIA Jetson o plataformas móviles.
- Integración en el ecosistema: Totalmente integrado en el ecosistema Ultralytics , lo que facilita la exportación a formatos como ONNX, TensorRT y CoreML.
Debilidades:
- Detección de objetos pequeños: Las versiones extremadamente pequeñas (como YOLOv10n) pueden sacrificar precisión por velocidad en comparación con los modelos de transformador más grandes.

RT-DETRv2

Ventajas:
- Contexto global: La arquitectura de transformadores destaca en la comprensión de escenas complejas y relaciones entre objetos.
- NativoNMS: Los transformadores evitan de forma natural NMS, simplificando el pipeline de post-procesado de forma similar a YOLOv10.
Debilidades:
- Alto coste computacional: El entrenamiento y la inferencia requieren mucha más memoria CUDA y potencia de cálculo.
- Velocidades más lentas: El mecanismo de autoatención, aunque preciso, es caro computacionalmente, lo que se traduce en una mayor latencia.
- Complejidad de despliegue: Los modelos de transformadores a veces pueden ser más difíciles de optimizar para cierto hardware integrado en comparación con las CNN.

Casos de Uso Ideales

La elección entre estos modelos depende en gran medida de sus limitaciones operativas específicas.

Elija YOLOv10 cuando: Necesite rendimiento en tiempo real en dispositivos periféricos, como drones autónomos o aplicaciones móviles. Su bajo consumo de memoria y su alta velocidad la hacen perfecta para situaciones como la supervisión del tráfico o el análisis de comercios.
Elija RT-DETRv2 cuando: Dispone de amplios recursos de GPU y aborda escenas complejas en las que la máxima precisión es la única prioridad, como la investigación académica de alto nivel o el análisis en servidor de imágenes difíciles.

La ventaja Ultralytics

Aunque ambos modelos ofrecen funciones atractivas, el aprovechamiento de Ultralytics YOLO de Ultralytics -incluidos YOLOv10 y el vanguardista YOLO11-ofrece una clara ventaja en el ciclo de vida del desarrollo.

Facilidad de uso: Ultralytics proporciona una APIPython y una CLI unificadas que estandarizan la formación, la validación y el despliegue. Esto permite a los desarrolladores cambiar entre YOLOv8, YOLOv10, YOLO11 y RT-DETR con una sola línea de código.
Eficacia de la formación: Los modelos Ultralytics están optimizados para un entrenamiento eficiente, a menudo convergen más rápido y requieren menos memoria que las implementaciones estándar. Esto reduce los costes de computación en la nube y acelera la comercialización.
Versatilidad: Más allá de la detección, el marco Ultralytics admite segmentación, estimación de pose y OBB, lo que le permite ampliar las capacidades de su proyecto sin cambiar de herramienta.
Ecosistema bien mantenido: Con actualizaciones frecuentes, guías exhaustivas y una comunidad floreciente, los usuarios se benefician de mejoras y asistencia continuas.

Ejecución de diferentes modelos

El cambio entre arquitecturas se realiza sin problemas con la API de Ultralytics :

from ultralytics import RTDETR, YOLO

# Train YOLOv10
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100)

# Train RT-DETR
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100)

Conclusión

Ambos YOLOv10 y RT-DETRv2 representan la vanguardia de la tecnología de detección de objetos. RT-DETRv2 es una opción sólida para tareas orientadas a la investigación en las que el coste computacional es secundario frente a la precisión. Sin embargo, para la inmensa mayoría de las implantaciones en el mundo real, YOLOv10 ofrece un equilibrio superior. Su combinación de alta velocidad, baja latencia y eficiencia de recursos lo convierte en el ganador práctico para los ingenieros que crean aplicaciones escalables.

Además, explorando los últimos YOLO11 permite a los desarrolladores acceder a refinamientos aún mayores en precisión y velocidad, todo dentro del ecosistema Ultralytics de fácil uso. La plataforma Ultralytics le garantiza que dispondrá de las herramientas necesarias para crear soluciones de visión por computador de primera clase de forma eficiente, ya sea en la nube o en el perímetro.

Explorar Otros Modelos

Si usted está interesado en más comparaciones, considere la comprobación hacia fuera: