コンテンツにスキップ

YOLOv7 vs RT-DETRv2:詳細な技術比較

適切な物体検出モデルの選択は、精度、速度、計算コストのトレードオフのバランスを取る、あらゆるコンピュータビジョンプロジェクトにとって重要な決定です。このページでは、非常に効率的なCNNベースの検出器であるYOLOv7と、最先端のトランスフォーマーベースのモデルであるRT-DETRv2との包括的な技術的比較を提供します。アーキテクチャの違い、パフォーマンスベンチマーク、理想的なユースケースを掘り下げて、情報に基づいた選択ができるよう支援します。

YOLOv7:速度と精度に最適化

YOLOv7は、YOLOシリーズにおける重要なマイルストーンであり、リリース当時、リアルタイム物体検出の新たな標準を確立するために、斬新なトレーニング戦略とアーキテクチャの最適化を導入しました。

アーキテクチャと主な機能

YOLOv7のアーキテクチャは、強力なCNN基盤上に構築されており、推論コストを増加させることなくパフォーマンスを向上させるためのいくつかの重要な革新が組み込まれています。そのバックボーンは、ネットワークが多様な特徴を学習する能力を高めるExtended Efficient Layer Aggregation Network (E-ELAN)を備えています。主な貢献は、「trainable bag-of-freebies」の概念であり、これには、最終的なモデルの精度を向上させるために、トレーニング中に適用される高度な最適化手法(補助ヘッドや粗いものから細かいものへの誘導ラベル割り当てなど)が含まれます。これらの戦略により、YOLOv7は速度と精度の間で驚くべきバランスを実現できます。

パフォーマンスとユースケース

YOLOv7は、GPUハードウェアでの優れたパフォーマンスで知られており、リアルタイム推論のために高いフレームレート(FPS)を実現します。これにより、低遅延が重要なアプリケーションに最適です。

  • 長所:

    • 優れた速度と精度のトレードオフ: mAPと推論速度の強力な組み合わせを提供し、リアルタイムタスクに最適です。
    • Efficient Training: 推論 中に計算量のオーバーヘッドを追加することなく、精度を向上させるために "bag-of-freebies" を活用しています。
    • 実績ある性能: MS COCOのような標準的なデータセットで確立され、十分にベンチマークされています。
  • 弱点:

    • 複雑さ: アーキテクチャと高度なトレーニングテクニックは、完全に理解し、カスタマイズすることが複雑になる可能性があります。
    • リソース集約的: 大規模なYOLOv7モデルは、学習にかなりのGPUリソースを必要とします。
    • 汎用性の制限: 主に物体検出用に設計されており、統合されたマルチタスクサポートを備えたモデルとは異なり、他のタスクのためのコミュニティ主導の拡張機能があります。

YOLOv7の詳細について。

RT-DETRv2:リアルタイム検出Transformer v2

RT-DETRv2(Real-Time Detection Transformer v2)は、Baiduの最先端の物体検出器であり、Transformerの力を活用して、リアルタイム性能を維持しながら高精度を実現します。

アーキテクチャと主な機能

RT-DETRv2は、Vision Transformer (ViT)アーキテクチャに基づいており、従来のCNNよりも画像内のグローバルなコンテキストと関係をより効果的に捉えることができます。ハイブリッド設計を採用しており、初期の特徴抽出にはCNNバックボーンを使用し、検出にはTransformerベースのエンコーダデコーダを使用します。このモデルはアンカーフリーでもあり、YOLOXのようなモデルと同様に、事前定義されたアンカーボックスの必要性を排除することで、検出パイプラインを簡素化します。

パフォーマンスとユースケース

RT-DETRv2の主な利点は、特に著しい閉塞や散乱のある複雑なシーンで物体を検出する場合に、その高い精度を発揮することです。

  • 長所:

    • 高精度: Transformerアーキテクチャにより、グローバルな画像コンテキストを効果的に処理することで、優れたオブジェクト検出精度が実現します。
    • ロバストな特徴表現: 複雑な詳細やオブジェクト間の関係の理解に優れています。
  • 弱点:

    • 高い計算コスト: RT-DETRv2のようなTransformerベースのモデルは、特にトレーニング中に計算負荷が高くなります。通常、CNNベースのモデルと比較して、大幅に多くのCUDAメモリとより長いトレーニング時間が必要です。
    • 一部のハードウェアでの推論が遅い: リアルタイムパフォーマンス向けに最適化されていますが、すべてのハードウェア構成でYOLOv7のような高度に最適化されたCNNの生の速度に匹敵するとは限りません。

RT-DETRの詳細について。

性能比較:YOLOv7 対 RT-DETRv2

以下の表は、さまざまなモデルバリアントの定量的な比較を示しています。RT-DETRv2-xは最高のmAPを達成していますが、これはYOLOv7xと比較して、より多くのパラメータ、より高いFLOP、およびより遅い推論速度を犠牲にしています。YOLOv7は、よりバランスの取れたプロファイルを提供し、高速性と高い精度の両方を必要とするアプリケーションにとって強力な候補となります。

モデル サイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

Ultralytics YOLOモデルを選ぶ理由

YOLOv7とRT-DETRv2はいずれも強力なモデルですが、YOLOv8や最新のUltralytics YOLO11のような新しいUltralytics YOLOモデルは、より最新の汎用性の高い、開発者にとって使いやすいソリューションを提供します。

  • 使いやすさ: Ultralyticsモデルは、シンプルなPython API、充実したドキュメント、および簡単なCLIコマンドを備え、合理化されたユーザーエクスペリエンスで設計されています。
  • 適切に管理されたエコシステム: アクティブな開発、堅牢なオープンソースコミュニティ、頻繁なアップデート、およびエンドツーエンドのMLOpsのためのUltralytics HUBのようなツールとのシームレスな統合を活用できます。
  • パフォーマンスのバランス: Ultralyticsモデルは、速度と精度の間で優れたトレードオフを実現しており、エッジAIデバイスからクラウドサーバーまで、幅広い現実世界のシナリオに適しています。
  • メモリ効率: Ultralytics YOLOモデルは、効率的なメモリ使用のために最適化されています。通常、メモリ集約型でトレーニングに時間がかかることで知られるRT-DETRのようなTransformerベースのモデルと比較して、トレーニングおよび推論に必要なCUDAメモリが少なくなります。
  • 多様性: YOLOv8やYOLO11のようなモデルは、真のマルチタスクフレームワークであり、物体検出セグメンテーション分類ポーズ推定傾斜物体検出(OBB)をすぐに利用できます。
  • Training Efficiency: COCOのようなデータセットですぐに利用できる事前学習済みの重みによる効率的な学習プロセスをお楽しみください。これにより、収束が速くなり、開発時間が短縮されます。

結論

YOLOv7とRT-DETRv2はどちらも手ごわい物体検出モデルであり、それぞれ明確な利点があります。YOLOv7は、GPUでのリアルタイム速度を必要とするアプリケーションに優れており、パフォーマンスと効率の素晴らしいバランスを提供します。RT-DETRv2は、精度の限界を押し広げ、自動運転車のAI医療画像分析など、精度が最も重要であり、計算リソースがそれほど制約されないシナリオに最適な選択肢です。

ただし、最新のオールインワンソリューションを求めている開発者および研究者にとって、YOLOv8YOLO11 のような Ultralytics モデルは、多くの場合、最も魅力的なオプションとなります。これらは、最先端のパフォーマンスと、卓越した使いやすさ、より少ないメモリ要件、マルチタスクの汎用性、および包括的で十分にサポートされたエコシステムを兼ね備えており、広範なコンピュータビジョンプロジェクトにとって理想的な選択肢となっています。

その他のモデル比較

さらに検討を深めるには、YOLOv7、RT-DETR、およびその他の主要モデルを含むこれらの比較をご検討ください。



📅 1年前に作成 ✏️ 1か月前に更新

コメント