YOLOv7とRTDETRv2の比較:詳細なモデル比較
コンピュータビジョンのプロジェクトでは、適切な物体検出モデルを選択することが非常に重要です。このページでは、2つの最先端モデルであるYOLOv7とRTDETRv2の技術的な比較を行っています。アーキテクチャの違い、性能指標、理想的なアプリケーションについて掘り下げます。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
スピード T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv7:リアルタイム効率化のエキスパート
YOLOv7は、台湾中央研究院情報科学研究所のChien-Yao Wang氏、Alexey Bochkovskiy氏、Hong-Yuan Mark Liao氏によって2022年7月に発表された。従来のYOLO モデルのアーキテクチャを改良し、精度を大幅に犠牲にすることなく、迅速な推論を優先している。
アーキテクチャと主な特徴
YOLOv7のアーキテクチャは、畳み込みニューラルネットワーク(CNN)をベースに構築されており、パフォーマンスを最適化するためにいくつかの主要な機能が組み込まれている:
- E-ELAN(Extended Efficient Layer Aggregation Network):特徴抽出の効率を高め、より効果的な学習を可能にする。
- モデルのスケーリング:モデルの深さと幅を調整する複合スケーリング技術を採用し、さまざまな計算リソースや性能ニーズに柔軟に対応します。
- 補助ヘッドトレーニング:ネットワークの学習を深め、全体的な精度を向上させるために、トレーニング中に補助ロスヘッドを使用する。
このようなアーキテクチャーの選択により、YOLOv7はスピードと精度の強力なバランスを実現し、リアルタイム・アプリケーションに適している。詳細については、ArxivのYOLOv7論文およびYOLOv7公式GitHubリポジトリを参照のこと。
パフォーマンス指標
YOLOv7は、低遅延が重要なシナリオで優れた性能を発揮するように設計されている。その性能の特徴は
- mAPval50-95:COCOデータセットで最大53.1%のmAPを達成。
- 推論速度(T4 TensorRT10):最速6.84msでリアルタイム処理が可能。
- モデルサイズ(パラメータ):36.9Mパラメータから開始し、効率的な展開のためのコンパクトなモデルサイズを提供します。
使用例と強み
YOLOv7は、リソースに制約のあるデバイス上でリアルタイムの物体検出を必要とするアプリケーションに特に適している:
- ロボット工学ロボットのナビゲーションとインタラクションのための高速知覚の提供。
- 監視:セキュリティシステムのリアルタイム監視と分析を可能にします。YOLOv8 セキュリティアラームシステムをどのように強化できるかをご覧ください。
- エッジデバイス: NVIDIA Jetsonや Raspberry Piなど、計算能力に制限のあるエッジデバイスへの展開。
YOLOv7の最大の強みは、そのスピードと比較的小さなモデル・サイズであり、様々なハードウェア・プラットフォームへの展開が可能です。YOLOv7のアーキテクチャと機能の詳細については、YOLOv7ドキュメントをご覧ください。
RTDETRv2:トランス効率による精度
RTDETRv2(Real-Time Detection Transformer version 2)は、Baidu社のWenyu Lv氏、Yian Zhao氏、Qinyao Chang氏、Kui Huang氏、Guanzhong Wang氏、Yi Liu氏によって2024年7月に発表されたもので、物体検出にViT(Vision Transformers)を統合することで、異なるアプローチをとっている。YOLOCNN基盤とは異なり、RTDETRv2は、グローバルな画像コンテキストをキャプチャするために変換器を活用し、リアルタイム性能を維持しながら、より高い精度につながる可能性がある。
アーキテクチャと主な特徴
RTDETRv2のアーキテクチャは以下のように定義されている:
- ヴィジョン・トランスフォーマー(ViT)バックボーン:画像全体を処理するトランスフォーマー・エンコーダーを採用し、複雑なシーンを理解するために重要な長距離依存関係を捉えます。
- ハイブリッドCNN特徴抽出:最初の特徴抽出のためのCNNと、グローバルコンテキストを効果的に統合するための変換層を組み合わせる。
- アンカーフリー検出:事前に定義されたアンカーボックスの必要性を排除することで、検出プロセスを簡素化し、モデルの柔軟性を高め、複雑さを軽減します。
このトランスフォーマーベースの設計により、RTDETRv2は、特に複雑で乱雑な環境において、優れた精度を達成できる可能性があります。ヴィジョン・トランスフォーマー(Vision Transformer:ViT)については、ヴィジョン・トランスフォーマー(Vision Transformer:ViT)の用語解説ページをご覧ください。RTDETRv2の論文はArxivで公開されており、公式GitHubリポジトリには実装の詳細が掲載されています。
パフォーマンス指標
RTDETRv2は、競争力のあるスピードを維持しながらも、正確さを優先し、以下のようなパフォーマンス指標を提供している:
- mAPval50-95:最大54.3%のmAPval50-95を達成し、高い物体検出精度を示す。
- 推論速度(T4 TensorRT10):5.03ミリ秒から開始し、適切なハードウェアでリアルタイム性を確保。
- モデルサイズ(パラメータ):20Mパラメータから始まり、さまざまな展開ニーズに対応するモデルサイズを提供。
使用例と強み
RTDETRv2は、高精度が最優先され、計算リソースが利用可能なアプリケーションに最適です:
- 自律走行車:安全なナビゲーションのために、信頼できる正確な環境認識を提供する。自動運転車におけるAIを探求し、関連アプリケーションに応用する。
- メディカルイメージング医療画像の正確な異常検出を可能にし、診断と治療計画を支援します。ヘルスケア・アプリケーションにおけるAIの詳細をご覧ください。
- 高解像度画像解析: 衛星画像の解析や工業検査など、大きな画像の詳細な解析を必要とする作業。
RTDETRv2の強みは、ロバストな特徴抽出と高い精度を容易にする変換器アーキテクチャにあり、複雑な検出タスクに最適です。詳細はRT-DETR GitHub READMEに記載されている。
結論
YOLOv7とRTDETRv2は、それぞれ独自の強みを持つ強力な物体検出モデルです。YOLOv7は、スピードと効率を必要とするリアルタイム・アプリケーションに優れており、RTDETRv2は、トランスフォーマ・ベースのアーキテクチャにより精度を優先しています。時間重視のタスクにはスピードを、詳細な分析には精度を、というように、プロジェクト固有の要件に合わせて選択する必要があります。
その他の比較やモデルについては、こちらもご覧ください: