YOLO11 frente a RTDETRv2: Comparación técnica de detectores en tiempo real

Para seleccionar la arquitectura óptima de detección de objetos es necesario navegar por un complejo panorama de compensaciones entre velocidad de inferencia, precisión de detección y eficiencia de recursos computacionales. Este análisis ofrece una comparación técnica exhaustiva entre Ultralytics YOLO11la última iteración del detector basado en CNN estándar del sector, y RTDETRv2, un transformador de detección en tiempo real de alto rendimiento.

Mientras que RTDETRv2 demuestra el potencial de las arquitecturas de transformadores para tareas de alta precisión, YOLO11 suele ofrecer un equilibrio superior para la implantación práctica, ya que proporciona velocidades de inferencia más rápidas, huellas de memoria significativamente menores y un ecosistema de desarrolladores más sólido.

Ultralytics YOLO11: el estándar de la visión por ordenador en tiempo real

Ultralytics YOLO11 representa la culminación de años de investigación sobre redes neuronales convolucionales (CNN) eficientes. Diseñada para convertirse en la herramienta definitiva para las aplicaciones de visión por ordenador del mundo real, prioriza la eficiencia sin comprometer la precisión de última generación.

Autores: Glenn Jocher, Jing Qiu
Organización:Ultralytics
Fecha: 2024-09-27
GitHubultralytics
Docsyolo11

Arquitectura y puntos fuertes

YOLO11 emplea una arquitectura refinada de una sola etapa y sin anclajes. Integra módulos avanzados de extracción de características, incluidos bloques C3k2 optimizados y módulos SPPF (Spatial Pyramid Pooling - Fast), para capturar características a varias escalas.

Versatilidad: A diferencia de muchos modelos especializados, YOLO11 es compatible con una amplia gama de tareas de visión por ordenador dentro de un único marco, como la detección de objetos, la segmentación de instancias, la estimación de poses, los recuadros delimitadores orientados (OBB) y la clasificación de imágenes.
Eficiencia de memoria: YOLO11 está diseñado para ejecutarse eficientemente en hardware que va desde dispositivos de borde integrados hasta servidores de nivel empresarial. Requiere mucha menos memoria CUDA durante el entrenamiento que las alternativas basadas en transformadores.
Integración en el ecosistema: El modelo está respaldado por el ecosistema Ultralytics , que proporciona un acceso sin fisuras a herramientas como Ultralytics HUB para la gestión del modelo y Ultralytics Explorer para el análisis del conjunto de datos.

Más información sobre YOLO11

RTDETRv2: Precisión alimentada por transformador

RTDETRv2 es un transformador de detección en tiempo realRT-DETR) que aprovecha la potencia de los transformadores de visión (ViT ) para lograr una gran precisión en conjuntos de datos de referencia. Su objetivo es resolver los problemas de latencia asociados tradicionalmente a los modelos tipo DETR.

Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang y Yi Liu
Organización: Baidu
Fecha: 2023-04-17
Arxiv:https://arxiv.org/abs/2304.08069
GitHubRT-DETR
DocsRT-DETR

Arquitectura y características

RTDETRv2 utiliza una arquitectura híbrida que combina una red troncal CNN con un eficaz codificador-decodificador transformador. El mecanismo de autoatención permite al modelo captar el contexto global, lo que resulta beneficioso para escenas con relaciones complejas entre objetos.

Contexto global: La arquitectura del transformador destaca a la hora de distinguir objetos en entornos abarrotados en los que las características locales pueden resultar ambiguas.
Intensidad de recursos: Aunque están optimizadas para aumentar la velocidad, las capas de transformadores requieren intrínsecamente más cálculo y memoria, sobre todo para las entradas de alta resolución.
Enfoque: RTDETRv2 es principalmente una arquitectura centrada en la detección, que carece del soporte multitarea nativo de la familia YOLO .

Más información sobre RTDETRv2

Análisis de rendimiento: Velocidad, precisión y eficiencia

Al comparar YOLO11 y RTDETRv2, la distinción radica en la compensación arquitectónica entre las métricas de precisión pura y la eficiencia operativa.

Consideraciones sobre el hardware

Los modelos basados en transformadores como RTDETRv2 suelen requerir GPU potentes para un entrenamiento y una inferencia eficaces. En cambio, los modelos basados en CNN, como YOLO11 , están muy optimizados para una gama más amplia de hardware, incluidas CPU y dispositivos de IA periféricos como la Raspberry Pi.

Comparación cuantitativa

La tabla siguiente ilustra las métricas de rendimiento en el conjunto de datosCOCO . Mientras que RTDETRv2 muestra unos buenos resultados mAP , YOLO11 ofrece una precisión competitiva con velocidades de inferencia significativamente más rápidas, especialmente en CPU.

Modelo	tamaño ^(píxeles)	mAP^val 50-95	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Análisis de los resultados

Velocidad de inferencia: YOLO11 domina en velocidad. Por ejemplo, YOLO11x consigue mayor precisión (54,7 mAP) que RTDETRv2-x (54,3 mAP) y funciona un 25% más rápido en una GPU T4 (11,3 ms frente a 15,03 ms).
Eficacia de los parámetros: Los modelos YOLO11 suelen requerir menos parámetros y FLOPs para alcanzar niveles de precisión similares. YOLO11l alcanza los mismos 53,4 mAP que RTDETRv2-l, pero lo hace con casi la mitad de FLOPs (86,9B frente a 136B).
Rendimiento deCPU : Las operaciones de transformación de RTDETRv2 son costosas desde el punto de vista computacional en las CPU. YOLO11 sigue siendo la opción preferida para implementaciones sin GPU , ya que ofrece frecuencias de cuadro viables en procesadores estándar.

Flujo de trabajo y usabilidad

Para los desarrolladores, el "coste" de un modelo incluye el tiempo de integración, la estabilidad de la formación y la facilidad de implantación.

Facilidad de uso y ecosistema

La APIPython Ultralytics abstrae los complejos bucles de entrenamiento en unas pocas líneas de código.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Por el contrario, aunque RTDETRv2 es una potente herramienta de investigación, a menudo requiere una configuración más manual y un conocimiento más profundo del código base subyacente para adaptarse a conjuntos de datos personalizados o exportar a formatos específicos como ONNX o TensorRT.

Eficacia de la formación

El entrenamiento de modelos de transformadores suele exigir una memoria de GPU (VRAM) significativamente mayor. Esto puede obligar a los desarrolladores a utilizar lotes más pequeños o a alquilar hardware en la nube más caro. La arquitectura CNN de YOLO11 es eficiente en el uso de la memoria, lo que permite tamaños de lote más grandes y una convergencia más rápida en las GPU de consumo.

Casos de Uso Ideales

Cuándo elegir YOLO11

Despliegue en tiempo real: Cuando se despliega en dispositivos como NVIDIA Jetson, Raspberry Pi o teléfonos móviles en los que los recursos de computación son limitados.
Diversas tareas de visión: Si su proyecto requiere segmentación o estimación de la pose junto con la detección.
Desarrollo rápido: Cuando el tiempo de comercialización es crítico, la extensa documentación y el soporte de la comunidad de Ultralytics aceleran el ciclo de vida.
Análisis de vídeo: Para el procesamiento a altas FPS en aplicaciones como la monitorización del tráfico o la analítica deportiva.

Cuándo elegir RTDETRv2

Investigación académica: Para estudiar las propiedades de los transformadores de la visión y los mecanismos de atención.
Procesamiento en el servidor: Cuando se dispone de potencia ilimitada GPU y la única métrica es la máxima precisión en pruebas específicas, independientemente de la latencia.
Análisis estático de imágenes: Escenarios en los que el tiempo de procesamiento no es una limitación, como el análisis offline de imágenes médicas.

Conclusión

Mientras que RTDETRv2 muestra el progreso académico de las arquitecturas de transformadores en visión, Ultralytics YOLO11 sigue siendo la opción pragmática para la inmensa mayoría de las aplicaciones del mundo real. Su superior relación velocidad-precisión, sus menores requisitos de memoria y su capacidad para gestionar múltiples tareas de visión lo convierten en una herramienta versátil y potente. Junto con un ecosistema maduro y bien mantenido, YOLO11 permite a los desarrolladores pasar del concepto a la producción con un mínimo de fricción.

Explorar Otros Modelos

La comparación de modelos ayuda a seleccionar la herramienta adecuada para sus limitaciones específicas. Encontrará más comparaciones en la documentación Ultralytics :