RTDETRv2 vs YOLOv5:詳細な技術比較
最適な物体検出モデルの選択は、あらゆるコンピュータビジョンプロジェクトにおいて非常に重要な決定事項です。精度、速度、計算コストのトレードオフによって、特定のアプリケーションに対するモデルの適合性が決まります。このページでは、高精度のTransformerベースのモデルであるRTDETRv2と、高効率で広く採用されている業界標準であるUltralytics YOLOv5との詳細な技術比較を提供します。お客様が情報に基づいた選択ができるよう、アーキテクチャの違い、性能ベンチマーク、理想的なユースケースについて解説します。
RTDETRv2:高精度リアルタイム検出Transformer
RTDETRv2(Real-Time Detection Transformer v2)は、Baiduが開発した最先端の物体検出器であり、Vision Transformerの能力を活用して、リアルタイム性能を維持しながら高精度を実現します。これは、複雑なTransformerアーキテクチャを実用的でリアルタイムなアプリケーションに導入する上で重要な一歩となります。
著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
組織: Baidu
日付: 2023-04-17 (Initial RT-DETR)、2024-07-24 (RT-DETRv2の改善)
Arxiv: https://arxiv.org/abs/2304.08069、https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
ドキュメント: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
アーキテクチャ
RTDETRv2は、Convolutional Neural Networks (CNN) とTransformerの強みを組み合わせたハイブリッドアーキテクチャを採用しています。
- Backbone: CNN(ResNetやHGNetv2など)は、初期の特徴抽出に使用され、低レベルの画像特徴を効率的にキャプチャします。
- Encoder-Decoder: モデルの中核は、Transformerベースのエンコーダ・デコーダです。自己注意メカニズムを使用して、バックボーンからの特徴マップを処理し、モデルがグローバルなコンテキストとシーン内のオブジェクト間の長距離依存性を捉えることを可能にします。これは、複雑な環境や混雑した環境でオブジェクトを検出するのに特に効果的です。
長所
- 高精度: Transformerアーキテクチャにより、RTDETRv2は優れたmAPスコアを達成でき、多くの場合、COCOのような複雑なデータセットで、従来のCNNベースのモデルを上回ります。
- 堅牢な特徴抽出: 画像全体のコンテキストを考慮することで、遮蔽されたオブジェクトや小さなオブジェクトを含む困難なシナリオでも優れた性能を発揮し、自動運転のようなアプリケーションに適しています。
- リアルタイム性能: このモデルは、特にNVIDIA TensorRTのようなツールで高速化された場合に、競争力のある推論速度を実現するように最適化されています。
弱点
- Computational Cost: Transformerベースのモデルは一般的に、パラメータ数とFLOPsが多く、GPUメモリや処理能力などのより多くの計算リソースを必要とします。
- Training Complexity: RTDETRv2のトレーニングは、リソースを消費し、CNNベースのモデルのトレーニングよりも遅くなる可能性があります。多くの場合、CUDAメモリが大幅に必要になるため、ハードウェアが限られているユーザーにとっては障壁になる可能性があります。
- CPUでの推論速度: ハイエンドGPUでは高速ですが、CPUまたはそれほど強力ではないエッジデバイスでは、YOLOv5のような最適化されたモデルよりもパフォーマンスが大幅に低下する可能性があります。
- エコシステム: UltralyticsがYOLOモデルに提供する広範で統一されたエコシステム、ツール、および幅広いコミュニティサポートがありません。
Ultralytics YOLOv5:確立された業界標準
2020年に最初にリリースされたUltralytics YOLOv5は、その卓越した速度、精度、そして比類のない使いやすさにより、瞬く間に業界のベンチマークとなりました。Glenn JocherによってPyTorchで開発されたYOLOv5は、成熟し、信頼性が高く、高度に最適化されたモデルであり、数え切れないほどの現実世界のアプリケーションに展開されています。
Author: Glenn Jocher
Organization: Ultralytics
Date: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Documentation: https://docs.ultralytics.com/models/yolov5/
アーキテクチャ
YOLOv5は、クラシックで非常に効率的なCNNアーキテクチャを備えています。特徴抽出にはCSPDarknet53バックボーン、異なるスケールにわたる特徴集約にはPANetネック、そしてアンカーベースの検出ヘッドを使用します。この設計は、リアルタイム物体検出に非常に効果的であることが証明されています。
長所
- 卓越した速度と効率性: YOLOv5は、ハイエンドGPUからNVIDIA JetsonやRaspberry Piのようなリソース制約のあるエッジデバイスまで、幅広いハードウェア上で高速な推論を行うために高度に最適化されています。
- 使いやすさ: Ultralytics YOLOv5は、その効率化されたユーザーエクスペリエンスで知られています。シンプルなPython APIと豊富なドキュメントにより、開発者は最小限の労力でモデルをトレーニング、検証、およびデプロイできます。
- 充実したエコシステム: YOLOv5は、活発な開発、大規模で支援的なコミュニティ、頻繁なアップデート、およびノーコードトレーニングとデプロイメントのためのUltralytics HUBのような統合ツールを含む、堅牢なUltralyticsエコシステムによって支えられています。
- パフォーマンスのバランス: モデルファミリー(n、s、m、l、x)は、速度と精度の間で優れたトレードオフを提供し、ユーザーは特定のニーズに最適なモデルを選択できます。
- メモリ効率: RTDETRv2のようなtransformerベースのモデルと比較して、YOLOv5は学習に必要なCUDAメモリが大幅に少ないため、より幅広い開発者や研究者が利用できます。
- 多様性: YOLOv5は、物体検出、インスタンスセグメンテーション、画像分類など、複数のタスクを単一の統合フレームワーク内でサポートしています。
- 学習効率: 学習プロセスは高速かつ効率的で、カスタムデータセットでの収束を加速するすぐに利用できる事前学習済みのウェイトを備えています。
弱点
- 複雑なシーンでの精度: 非常に正確ですが、YOLOv5は、グローバルコンテキストが重要な非常に密集したオブジェクトや小さなオブジェクトを含むデータセットでは、RTDETRv2のmAPでわずかに劣る可能性があります。
- Anchor-Based: 事前に定義されたアンカーボックスに依存するため、通常と異なるオブジェクトのアスペクト比を持つデータセットでは、追加の調整が必要になる場合があります。これはアンカーフリー検出器では不要な手順です。
理想的なユースケース
YOLOv5は、速度、効率、迅速な開発が優先されるアプリケーションに最適です。
- リアルタイムビデオ監視: セキュリティアラームシステムの強化や、ライブビデオフィードの監視に活用できます。
- Edge Computing: ロボティクスや産業オートメーションのアプリケーション向けの低電力デバイスへのデプロイ。
- モバイルアプリケーション: 軽量モデルは、スマートフォンでのデバイス上での推論に最適です。
- 迅速なプロトタイピング: 使いやすさと迅速なトレーニングサイクルにより、新しいアイデアを迅速に開発およびテストするのに最適です。
性能分析:速度 vs. 精度
RTDETRv2とYOLOv5の主な違いは、その設計思想にあります。RTDETRv2は、計算負荷の高いTransformerアーキテクチャを活用することで、可能な限り最高の精度を達成することを優先します。対照的に、YOLOv5は速度と精度の最適なバランスを実現するように設計されており、特にGPU以外のハードウェアでの、より広範なデプロイメントシナリオにとってより実用的な選択肢となっています。
以下の表は、COCO val2017データセットでの定量的な比較を示しています。RTDETRv2モデルはより高いmAPを達成していますが、YOLOv5モデル、特に小型のバリアントは、特にCPU上で、劇的に高速な推論速度を提供します。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
結論と推奨事項
RTDETRv2とYOLOv5はどちらも強力な物体検出モデルですが、異なるニーズに対応しています。
RTDETRv2は、絶対的に最高の精度を達成することが最優先事項であり、十分な計算リソース(特にハイエンドGPU)が利用可能なアプリケーションに最適な選択肢です。グローバルなコンテキストを理解する能力により、複雑なシーンを伴う学術的なベンチマークや特殊な産業タスクにおいて優れています。
しかし、実際の多くのアプリケーションにおいては、Ultralytics YOLOv5がより実用的で汎用性の高い選択肢であり続けています。その卓越した速度と精度のバランスは、低いリソース要件と相まって、クラウドからエッジまで、あらゆる場所へのデプロイに適しています。YOLOv5の主な利点である、使いやすさ、適切にメンテナンスされたエコシステム、トレーニング効率、そして汎用性は、堅牢で高性能なソリューションを迅速かつ効率的に提供する必要がある開発者や研究者にとって、頼りになるモデルとなっています。
この強力な基盤の上に構築された最新の進歩をお探しの方には、YOLOv8やYOLO11のような、より新しい Ultralytics モデルを強くお勧めします。これらのモデルは、同じユーザーフレンドリーなフレームワーク内で、さらに優れた性能とより多くの機能を提供します。
その他のモデル比較
これらのモデルと他のモデルとの比較にご興味があれば、以下の比較ページをご覧ください。
- YOLOv5 vs YOLOv8
- YOLOv5 vs YOLOv9
- RTDETR vs YOLOv8
- RTDETR vs YOLO11
- EfficientDetとYOLOv5の比較
- YOLOX vs YOLOv5