YOLOv5 RTDETRv2の比較:詳細なモデル比較
適切な物体検出モデルを選択することは、コンピュータビジョンプロジェクトにとって非常に重要です。Ultralytics 様々なニーズに合わせたモデル群を提供しています。 Ultralytics YOLOv5とRTDETRv2のような他のアーキテクチャとの比較をご覧ください。このページでは、YOLOv5 RTDETRv2の技術的な比較を行い、アーキテクチャーの違い、パフォーマンス指標、トレーニング方法、理想的なアプリケーションを紹介します。
YOLOv5:スピードと効率
著者グレン・ジョーチャー
組織 Ultralytics
日付:2020-06-26
ギットハブ : https:yolov5
ドキュメント: https:yolov5
Ultralytics YOLOv5 5は、その卓越した推論速度と 運用効率で広く採用されている1段式オブジェクト検出器です。Ultralytics開発され、リアルタイム物体検出タスクのベンチマークとなっています。
建築
YOLOv5 5は、スピードに最適化されたCNNベースのアーキテクチャを採用している:
- バックボーン:CSPDarknet53による効率的な特徴抽出。
- ネックスケールを超えた効果的な特徴フュージョンのためのPANet。
- ヘッド:バウンディングボックス予測と分類のためのYOLOv5 検出ヘッド。 複数のサイズ(n、s、m、l、x)があり、ユーザーは特定のニーズに合わせて速度と精度の最適なトレードオフを選択できる。
強み
YOLOv5 、特に実用的なデプロイメントを求める開発者に大きな利点を提供する:
- 使いやすさ:シンプルなAPI、豊富なドキュメント、多数のチュートリアルにより、合理化されたユーザーエクスペリエンスを提供します。
- 整備されたエコシステム:積極的な開発、GitHubやDiscordを通じた強力なコミュニティサポート、頻繁なアップデート、Ultralytics HUBのようなコード不要のトレーニングやデプロイメントのためのプラットフォームなど、統合されたUltralytics エコシステムの恩恵を受けることができます。
- パフォーマンスバランス:推論速度と推論精度の高いバランスを実現し、多様な実世界シナリオに対応。
- メモリ要件:一般的に、RTDETRv2のようなトランスフォーマーベースのモデルと比較して、より少ないメモリ(特にトレーニング中のCUDA メモリ)を必要とする。
- トレーニングの効率化: COCOのようなデータセットにおいて、効率的な学習プロセス、より速い収束、および容易に利用可能な事前学習済みの重みを提供します。
- 汎用性: YOLOv5 リポジトリは、主に検出に重点を置いているが、インスタンスのセグメンテーションや 画像の分類タスクもサポートしている。
弱点
- 精度:精度は高いが、RTDETRv2-xのような大規模で複雑なモデルは、スピードとリソースを犠牲にするものの、困難なデータセットでわずかに高いmAPを達成する可能性がある。
理想的な使用例
YOLOv5 得意とするところ:
- リアルタイム物体検知:ビデオ監視、セキュリティアラームシステム、交通管理におけるAI。
- エッジコンピューティング:Raspberry Piや NVIDIA Jetsonのようなリソースに制約のあるデバイスへの展開。
- モバイルアプリケーション:モバイル展開に適した軽量モデル。
- ラピッドプロトタイピング様々なコンピュータビジョンタスクの迅速なセットアップとトレーニング。
RTDETRv2:高精度リアルタイム検出
著者Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
所属団体百度
日付:2023-04-17 (初期RT-DETR), 2024-07-24 (RT-DETRv2の改良)
Arxiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https:RT-DETR
ドキュメント: https:RT-DETR
RTDETRv2(Real-Time Detection Transformer v2)は、ViT(Vision Transformer)のパワーを活用し、リアルタイム性能を維持しながら高精度を実現する最先端の物体検出器です。
建築
RTDETRv2はハイブリッド・アプローチを採用している:
- バックボーン:通常、最初の特徴抽出のためのCNN(ResNetの亜種のような)。
- エンコーダー・デコーダー: トランスフォーマベースのエンコーダ・デコーダ構造で、画像特徴内のグローバルなコンテキストを捕捉するために自己注意メカニズムを使用する。これにより、このモデルは遠くの物体や複雑なシーン間の関係をよりよく理解することができる。
強み
- 高精度:変換器アーキテクチャにより、RTDETRv2は、特にオブジェクトが密集していたり、小さかったりする複雑なデータセットにおいて、優れたmAPスコアを達成することができる。
- リアルタイム機能:特に、以下のようなツールを使用して高速化した場合に、競争力のある推論速度を提供するように最適化されています。 NVIDIA TensorRT.
- ロバストな特徴抽出:グローバルなコンテキストを効果的にキャプチャし、オクルージョンのような困難なシナリオでも優れたパフォーマンスを発揮します。
弱点
- 計算コスト:一般的に、YOLOv5比較してパラメータ数とFLOP数が多く、より大きな計算リソースGPU メモリ、処理能力)を必要とする。
- トレーニングの複雑さ:変換器ベースのモデルのトレーニングは、YOLOv5ようなCNNベースのモデルのトレーニングよりもリソースを消費し、時間がかかる可能性がある。
- 推論速度:強力なハードウェア上ではリアルタイム可能だが、特にCPUや性能の低いエッジデバイス上では、最速のYOLOv5 亜種よりも遅くなる可能性がある。
- エコシステム:広範で統一されたエコシステム、(Ultralytics HUBのような)ツール、Ultralytics YOLO モデルに提供する幅広いコミュニティサポートが欠けている。
理想的な使用例
RTDETRv2 は、精度が最優先され、十分な計算リソースが利用できるアプリケーションに最適です:
- 自律走行:自動運転車のAIのための正確な知覚。
- 医療画像:ヘルスケアのAIにおける詳細な異常検知。
- 高解像度画像解析衛星画像や工業検査データの解析(コンピュータビジョンによる製造業の改善)。
- 複雑なシーンの理解:オクルージョンの多いシナリオや、小さなオブジェクトが多数存在するシナリオ。
パフォーマンス比較:YOLOv5 RTDETRv2の比較
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
スピード T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
表はトレードオフを強調している:
- YOLOv5モデル(特にn/s/m)は、CPU GPU TensorRT両方において、より少ないパラメータ数とFLOP数で推論速度を大幅に向上させ、リソースに制約のある環境に最適です。
- RTDETRv2モデルは、より高いピークmAPスコア(特にl/xバリアント)を達成するが、レイテンシと計算要件が増加する。注目すべきは、RTDETRv2-s/mは、YOLOv5l/xに匹敵する精度を提供し、TensorRT 速度が速くなる可能性がありますが、CPU 性能が報告されていないことです。
トレーニングとエコシステム
Ultralytics YOLOv5は、トレーニングの容易さと包括的なエコシステムで際立っている。豊富なドキュメントとチュートリアルに支えられ、提供されるCLI Python APIを使ったトレーニングは簡単です。Ultralytics エコシステムは、トレーニングやデプロイを簡素化するUltralytics HUBのようなツール、活発なコミュニティサポート、以下のようなツールとのシームレスな統合を提供します。 Weights & Biasesそして ClearML.さらに、YOLOv55のCNNアーキテクチャーは、一般的にトランスフォーマーモデルよりもGPU メモリーを必要とせず、トレーニングも高速です。
RTDETRv2は強力ではあるが、より複雑な変換アーキテクチャをトレーニングする必要がある。これは通常、より大きな計算リソース(特に高いGPU メモリ)と潜在的により長いトレーニング時間を要求する。GitHubリポジトリはトレーニングスクリプトを提供するが、周辺のエコシステムとサポート体制はUltralytics提供するものよりも充実していない。
結論
YOLOv5 RTDETRv2も物体検出が可能なモデルだが、優先順位が異なる。
- Ultralytics YOLOv5は、高速性、効率性、使いやすさ、展開の多様性を求めるアプリケーション、特にエッジデバイスや計算リソースが限られている場合に推奨される選択肢です。その堅牢なエコシステムと低いトレーニング要件により、開発者や研究者にとって非常に利用しやすくなっています。
- RTDETRv2は、最大精度が絶対的な優先事項であり、十分な計算リソース(訓練と推論用の強力なGPUを含む)が利用可能な場合に適している。
ほとんどの実用的なアプリケーションにおいて、YOLOv5 5は、Ultralytics エコシステムの強力なサポートとツールに支えられ、パフォーマンス、スピード、ユーザビリティの優れたバランスを提供します。
その他のモデルを見る
代替案を検討されている場合は、Ultralytics エコシステム内の他のモデルをご検討ください:
- YOLOv8: YOLOv5後継で、検出、セグメンテーション、ポーズ、トラッキングなど様々なタスクにおいて精度とスピードが向上している。
- YOLOv10:さらなる効率化のために、NMSフリートレーニングなどのイノベーションを採用。
- YOLO11:パフォーマンスと効率の限界を押し広げるUltralytics最新世代。
YOLOv8 RTDETRv2、YOLOv10とRTDETRv2のようなモデルを比較することで、あなたのプロジェクトに最適かどうかをさらに見極めることができる。