RTDETRv2 与Ultralytics YOLO11:技术比较
选择最佳对象检测架构需要在精度、推理延迟和计算效率之间取得平衡。本指南对transformer检测器RTDETRv2 和 Ultralytics YOLO11系列的最新发展YOLO
虽然这两个模型都突破了计算机视觉的极限,但它们采用的方法却有着本质的不同。RTDETRv2 利用视觉转换器捕捉全局背景,优先考虑复杂场景中的准确性。相比之下,YOLO11 在强大的Ultralytics 生态系统的支持下,完善了基于 CNN 的架构,在速度、准确性和部署简便性方面实现了无与伦比的平衡。
RTDETRv2:实时检测Transformer
RTDETRv2 标志着在适应变压器技术方面迈出了重要一步。 Transformer架构方面迈出了重要一步。RT-DETR 由百度的研究人员开发,它在原有RT-DETR 的基础上引入了改进的基线,并采用了 "免费赠品袋 "训练策略。
- 作者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang 和 Yi Liu
- 组织机构:百度
- 日期: 2023-04-17
- Arxiv:https://arxiv.org/abs/2304.08069
- GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- 文件:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
架构和能力
RTDETRv2 采用混合架构,将骨干网(通常是类似 ResNet 的 CNN)与transformer 编码器-解码器相结合。其核心优势在于自我关注机制,该机制允许模型同时处理整个图像的全局信息。这种能力对于在拥挤的环境中分辨物体或识别远距离图像特征之间的关系尤为有利。
优势与劣势
RTDETRv2 的主要优势在于它能够在COCO 等基准测试中获得较高的平均精度(mAP),在需要理解全局上下文的场景中,其表现往往优于纯粹基于 CNN 的模型。
不过,这也需要权衡利弊。Transformer架构本身就是资源密集型的。与YOLO 模型相比,RTDETRv2 在训练和推理过程中通常需要更多的CUDA 内存。此外,虽然 RTDETRv2 针对 "实时 "性能进行了优化,但其原始推理速度往往落后于YOLO11 ,尤其是在边缘设备或没有高端 GPU 的系统上。围绕 RTDETRv2 的生态系统也比较分散,主要服务于研究目的而非生产部署。
Ultralytics YOLO11:速度、精度和多功能性
Ultralytics YOLO11是世界上应用最广泛的物体检测系列的最新迭代产品。由Ultralytics 设计的YOLO11 改进了单级检测模式,在不影响精度的情况下最大限度地提高了效率。
- 作者: Glenn Jocher, Jing Qiu
- 组织机构Ultralytics
- 日期: 2024-09-27
- GitHub:https://github.com/ultralytics/ultralytics
- 文件:https://docs.ultralytics.com/models/yolo11/
架构和主要特性
YOLO11 采用先进的 CNN 架构,具有改进的特征提取层和用于精确边界框回归的优化头。与只专注于检测的模型不同,YOLO11 是一个多功能平台,在一个统一的框架内支持多种计算机视觉任务--实例分割、图像分类、姿势估计 和定向边界框(旋转框检测)。
统一生态系统
YOLO11 的最大优势之一是与Ultralytics 生态系统的集成。开发人员可以使用相同的应用程序接口完成从数据集管理到培训和部署的所有任务。
Ultralytics 的优势
YOLO11 在设计时充分考虑了开发人员的体验。它提供
- 培训效率:与transformer 型号相比,收敛速度更快,内存要求更低,可在消费级硬件上进行培训。
- 部署灵活:无缝导出为以下格式 ONNX、TensorRT、CoreML 和TFLite 等格式,用于边缘和云部署。
- 易于使用:Pythonic 应用程序接口和全面的CLI 使初学者也能轻松使用,而专家则能深入了解。
性能分析:指标和效率
在对 RTDETRv2 和YOLO11 进行比较时,这些指标凸显了不同的设计理念。下表显示 Ultralytics YOLO11始终提供卓越的速度-精度比。
例如,与最大的 RTDETRv2-x 模型(54.3)相比,YOLO11x实现了更高的mAP (54.7),同时推理延迟显著降低(在 T4GPU 上GPU 11.3 ms 对 15.03 ms)。此外,像YOLO11m这样的较小变体在大幅降低计算开销的同时,还能提供具有竞争力的准确性,因此更适合实时应用。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
主要内容
- 推理速度: YOLO11 模型的推理速度普遍更快,尤其是在CPU推理中,Transformers通常会因为复杂的注意力计算而陷入困境。
- 参数效率: YOLO11 以更少的参数和FLOP 实现了类似或更高的精度,从而降低了存储成本和功耗。
- 内存使用:与 RTDETRv2 相比,训练YOLO11 模型消耗的GPU VRAM 通常更少,因此可以在更多 GPU 上进行批量训练或训练。
使用和开发人员体验
一个关键的区别在于集成的简易性。RTDETRv2 提供了一个面向研究的代码库,而YOLO11 则提供了一个可用于生产的Python API和CLI。
下面的示例说明了加载预训练的YOLO11 模型并在图像上运行推理是多么简单。这种简单程度大大加快了开发周期。
from ultralytics import YOLO
# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Show results
results[0].show()
这种简化的工作流程可扩展到定制数据集的训练,Ultralytics 可自动处理复杂的数据增强和超参数调整。
理想用例
选择合适的模型取决于具体的项目限制和目标。
何时选择 Ultralytics YOLO11
YOLO11 凭借其多功能性和生态系统支持,成为绝大多数商业和研究应用的推荐选择。
- 边缘计算:由于延迟低、资源效率高,非常适合在NVIDIA Jetson或 Raspberry Pi 等设备上部署。
- 实时系统:非常适合交通监控、自主导航和工业质量控制等对速度要求极高的领域。
- 多任务项目:如果您的项目需要在检测的同时进行分割或姿势估计 ,YOLO11 可提供统一的解决方案。
- 快速原型开发:丰富的文档和社区支持可实现从构思到部署的快速迭代。
何时选择 RTDETRv2
RTDETRv2 最适合专门的研究方案。
- 学术研究:当主要目标是研究VisionTransformer架构或击败特定学术基准而不考虑计算成本时。
- 复杂遮挡:在硬件资源无限的静态输入场景中,全局注意力机制在解决密集遮挡时可能会略胜一筹。
结论
RTDETRv2 展示了变压器在物体检测方面的潜力、 Ultralytics YOLO11仍然是实际部署和全面计算机视觉解决方案的最佳选择。其架构在速度和准确性之间实现了更好的平衡,而周边生态系统则大大降低了训练和MLOps 的复杂性。
对于寻求可靠、快速、支持良好、可从原型扩展到生产的模型的开发人员来说,YOLO11 提供了无与伦比的价值。
探索其他模型
如果您对计算机视觉领域的进一步比较感兴趣,请浏览这些相关页面: