YOLO11 RTDETRv2: arquitecturas, rendimiento y aplicaciones
En el panorama en rápida evolución de la visión artificial, elegir el modelo de detección de objetos adecuado es fundamental para el éxito del proyecto. Esta comparación profundiza en YOLO11 (de Ultralytics) y RTDETRv2 (de Baidu), dos arquitecturas de última generación que abordan la detección en tiempo real desde paradigmas diferentes. Mientras que YOLO11 la cúspide de la eficiencia y la facilidad de uso basadas en CNN, RTDETRv2 amplía los límites de la detección basada en transformadores.
Descripción general
YOLO11 se basa en el legado de la familia You Only Look Once (YOLO) y perfecciona la arquitectura para obtener el máximo rendimiento y el mínimo consumo de recursos. Está diseñado como una solución universal para diversas tareas de visión, incluyendo la detección, la segmentación y la estimación de la pose. Su punto fuerte es su equilibrio: ofrece una alta precisión a velocidades excepcionales, incluso en dispositivos periféricos con recursos limitados.
RTDETRv2 (Real-Time DEtection TRansformer versión 2) es una evolución del RT-DETR original, cuyo objetivo es resolver los problemas de latencia que suelen asociarse a los modelos basados en transformadores. Introduce una «bolsa de extras» para mejorar la estabilidad y el rendimiento del entrenamiento. Aunque alcanza una precisión impresionante, por lo general requiere más recursos computacionales, concretamente GPU , lo que lo hace más adecuado para implementaciones de hardware de gama alta que para la computación periférica.
Última Innovación: YOLO26
Para los desarrolladores que buscan lo último en tecnología en 2026, Ultralytics lanzado YOLO26. Cuenta con un diseño nativo integral NMS, el revolucionario optimizador MuSGD y velocidades CPU hasta un 43 % más rápidas, lo que lo convierte en la mejor opción para las aplicaciones de IA modernas.
Especificaciones técnicas y rendimiento
La siguiente tabla destaca las métricas de rendimiento de ambos modelos en el COCO . YOLO11 una eficiencia superior, especialmente en velocidad de inferencia y recuento de parámetros, lo que lo hace muy adaptable a entornos de producción del mundo real.
| Modelo | tamaño (píxeles) | mAPval 50-95 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | parámetros (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Diferencias Arquitectónicas
YOLO11 emplea una estructura central y un cuello altamente optimizados basados en CNN, refinando la extracción de características para capturar detalles intrincados con menos parámetros. Su arquitectura está diseñada explícitamente para la velocidad, utilizando una agregación de capas eficiente para minimizar la latencia. Esto permite YOLO11 funcione eficazmente en todo, desde potentes GPU en la nube hasta dispositivos Raspberry Pi.
RTDETRv2, por el contrario, se basa en una arquitectura híbrida de transformador codificador-decodificador. Utiliza mecanismos de atención para capturar el contexto global, lo que puede ser beneficioso para detectar objetos en escenas complejas y abarrotadas. Sin embargo, esto tiene un coste: un mayor consumo de memoria durante el entrenamiento y la inferencia. El mecanismo de atención requiere intrínsecamente una complejidad computacional cuadrática con respecto al tamaño de la entrada, lo que a menudo exige potentes GPU como NVIDIA o A100 para alcanzar velocidades en tiempo real.
Ecosistema y facilidad de uso
La arquitectura de un modelo es solo la mitad de la historia; la experiencia del desarrollador que la rodea determina la rapidez con la que se puede pasar del prototipo a la producción.
VentajasUltralytics : YOLO11 profundamente integrado en el Ultralytics , conocido por su filosofía «simplemente funciona».
- Python sencilla Python : el entrenamiento, la validación y la predicción se pueden realizar con tan solo tres líneas de código.
- Ultralytics : Los usuarios pueden aprovechar la Ultralytics para gestionar conjuntos de datos, automatizar anotaciones y supervisar procesos de entrenamiento en la nube.
- Amplia compatibilidad con tareas: un único marco admite la detección de objetos, la segmentación de instancias, la estimación de poses, OBB y la clasificación.
- Implementación flexible: Modos de exportación integrados para ONNX, OpenVINO, CoreMLy TFLite la implementación en dispositivos móviles y periféricos.
Ecosistema RTDETRv2: RTDETRv2 es principalmente un repositorio orientado a la investigación. Aunque ofrece potentes capacidades, carece de las herramientas completas que se encuentran en el Ultralytics . Los usuarios a menudo necesitan escribir scripts personalizados para el preprocesamiento y la implementación de datos. Además, al ser un modelo basado en transformadores, la exportación a formatos como TFLite uso móvil puede resultar mucho más complicada debido a las complejas operaciones que implican las capas de atención.
Entrenamiento y Eficiencia de Datos
YOLO11 destaca por su eficiencia en el entrenamiento. Su arquitectura CNN converge rápidamente, a menudo requiriendo menos épocas y significativamente menos GPU que las alternativas de transformador. Esto permite a los desarrolladores entrenar lotes de mayor tamaño en hardware de consumo. El marco también incluye estrategias robustas de ajuste y aumento de hiperparámetros listas para usar.
RTDETRv2 suele requerir programas de entrenamiento más largos para estabilizar los pesos de atención del transformador. La huella de memoria es sustancialmente mayor; el entrenamiento de un modelo RTDETRv2-L a menudo requiere GPU de nivel empresarial con altas capacidades de VRAM, lo que puede aumentar los costes de computación en la nube.
Ejemplo de código: Entrenamiento de YOLO11
El entrenamiento YOLO11 fluido. El siguiente fragmento de código muestra cómo cargar un modelo preentrenado y ajustarlo a un conjunto de datos personalizado:
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset (e.g., COCO8)
# Ideally, data is configured in a simple YAML file
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
for result in results:
result.show()
Aplicaciones en el mundo real
Dónde destaca YOLO11
Debido a su ligereza y versatilidad, YOLO11 la opción preferida para:
- IA periférica e IoT: ideal para la supervisión de ciudades inteligentes en dispositivos con capacidad informática limitada.
- Análisis deportivo en tiempo real: seguimiento de jugadores y balones en transmisiones de vídeo con alta velocidad de fotogramas, donde la baja latencia es imprescindible.
- Fabricación: Detección de defectos a alta velocidad en líneas de montaje.
- Aplicaciones móviles: se ejecutan directamente en Android iOS Android a través de CoreML TFLite.
Dónde se Posiciona RTDETRv2
RTDETRv2 es más adecuado para situaciones en las que:
- El hardware no tiene limitaciones: se dispone de potentes GPU de nivel servidor para la inferencia.
- El contexto global es crucial: escenas complejas en las que las relaciones entre objetos distantes definen la detección (aunque el amplio campo receptivo YOLO11 a menudo rivaliza con esto).
- Investigación: Experimentando con mecanismos de atención de transformadores.
Conclusión
Tanto YOLO11 RTDETRv2 contribuyen de manera significativa al campo de la visión artificial. RTDETRv2 demuestra el potencial de los transformadores en tareas de detección. Sin embargo, para la mayoría de los desarrolladores y aplicaciones comerciales, YOLO11 sigue siendo la mejor opción debido a su inigualable equilibrio entre velocidad, precisión y facilidad de uso. Sus menores requisitos de memoria, sus amplias opciones de exportación y el respaldo de la Ultralytics garantizan un proceso fluido desde el desarrollo hasta la implementación.
Para aquellos que deseen mejorar aún más el rendimiento, consideren la posibilidad de actualizar a YOLO26. Con su diseño integral NMS y su optimización para dispositivos periféricos, representa la próxima generación de IA de visión.
Detalles y referencias del modelo
YOLO11
- Autores: Glenn Jocher y Jing Qiu
- Organización:Ultralytics
- Fecha: 2024-09-27
- Documentación:Documentación de YOLO11
- GitHub:ultralytics/ultralytics
RTDETRv2
- Autores: Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
- Organización: Baidu
- Fecha: 2023-04-17
- Arxiv:2304.08069
- GitHub:Repositorio RT-DETR