コンテンツにスキップ

YOLOv5 vs RTDETRv2:詳細なモデル比較

最適な物体検出モデルの選択は、あらゆるコンピュータビジョンプロジェクトにおいて非常に重要な決定事項です。このページでは、2つの強力なモデル、すなわち、速度と効率のバランスで確立された業界標準であるUltralytics YOLOv5と、高精度向けに設計されたTransformerベースのモデルであるRTDETRv2との詳細な技術比較を提供します。お客様のニーズに最適なモデルを選択できるよう、アーキテクチャの違い、性能ベンチマーク、理想的なユースケースについて掘り下げて解説します。

Ultralytics YOLOv5:確立された業界標準

Author: Glenn Jocher
Organization: Ultralytics
Date: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Docs: https://docs.ultralytics.com/models/yolov5/

Ultralytics YOLOv5は、リリースと同時にリアルタイム物体検出の新たなベンチマークを打ち立て、その卓越した速度、精度、使いやすさから、開発者や研究者の間で瞬く間に人気を博しました。PyTorchで完全に構築されており、高度に最適化され、トレーニング、検証、デプロイが容易です。

アーキテクチャ

YOLOv5は、効率的かつ効果的な従来のCNNベースのアーキテクチャを採用しています。

  • Backbone: CSPDarknet53バックボーンを使用します。これは、勾配フローを改善し、計算コストを削減するために、Cross Stage Partial(CSP)接続で最適化されたDarknetのバリアントです。
  • ネック: Path Aggregation Network (PANet)は、特徴集約に使用され、さまざまなスケールのオブジェクトの検出を強化するために、異なるスケールの特徴を効果的に結合します。
  • ヘッド: このモデルは、アンカーベースの検出ヘッドを使用して、バウンディングボックス、クラス確率、およびオブジェクトネススコアを予測します。

長所

  • 卓越した速度と効率性: YOLOv5は高速な推論速度のために高度に最適化されており、CPUからエッジデバイスまで、幅広いハードウェアでのリアルタイムアプリケーションにとって最適な選択肢となっています。
  • 使いやすさ: YOLOv5はその効率的なユーザーエクスペリエンスで知られており、シンプルなPython APICLIを提供し、広範なドキュメントによってサポートされています。
  • 充実したエコシステム: Ultralyticsモデルとして、これは堅牢で活発に開発されたエコシステムの恩恵を受けています。これには、大規模なコミュニティ、頻繁なアップデート、そしてノーコードトレーニングとデプロイメントのためのUltralytics HUBのようなツールとのシームレスな統合が含まれます。
  • パフォーマンスのバランス: YOLOv5は、速度と精度の間で優れたトレードオフを実現しており、多様な現実世界のシナリオに非常に適しています。
  • メモリ効率: transformerベースのモデルと比較して、YOLOv5モデルは一般的に、学習中のCUDAメモリの必要量が大幅に少なく、推論中のメモリ効率が高くなっています。
  • 多様性: 単一の統合フレームワーク内で、物体検出インスタンスセグメンテーション画像分類など、複数のタスクをサポートします。
  • 学習効率: 学習プロセスは高速かつ効率的で、開発を加速するためにCOCOのようなデータセット上のすぐに利用できる事前学習済みのウェイトを備えています。

弱点

  • 複雑なシーンでの精度: 非常に正確ですが、小さく遮られたオブジェクトが多いデータセットでは、RTDETRv2のようなより新しく複雑なアーキテクチャによって性能が上回る可能性があります。
  • Anchor-Based Design: 事前に定義されたアンカーボックスに依存しているため、型破りなオブジェクトのアスペクト比を持つデータセットで最適なパフォーマンスを達成するには、手動での調整が必要になる場合があります。

理想的なユースケース

YOLOv5は、速度、リソース効率、迅速な開発が重要なアプリケーションに最適です。

  • リアルタイムビデオ監視: セキュリティアラームシステムやライブビデオフィードの監視に最適です。
  • エッジコンピューティング: 軽量モデルは、Raspberry PiNVIDIA Jetsonのようなリソース制約のあるデバイスへの実装に最適です。
  • モバイルアプリケーション: モバイルアプリでのオンデバイス推論に適しています。
  • 産業オートメーション: 品質管理と交通管理におけるAIを強化。

YOLOv5の詳細について。

RTDETRv2:高精度リアルタイム検出Transformer

著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
組織: Baidu
日付: 2023-04-17 (Initial RT-DETR)、2024-07-24 (RT-DETRv2の改善)
Arxiv: https://arxiv.org/abs/2304.08069https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
ドキュメント: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

RTDETRv2(Real-Time Detection Transformer v2)は、Vision Transformer(ViT)の能力を活用して、高性能ハードウェア上でリアルタイム性能を維持しながら高精度を実現する、最先端の物体検出器です。

アーキテクチャ

RTDETRv2は、CNNとTransformerの強みを組み合わせたハイブリッドアプローチを利用しています。

  • Backbone: 通常、効率的な初期特徴抽出のためにCNN(ResNetバリアントなど)を使用します。
  • Encoder-Decoder: Transformerベースのエンコーダ・デコーダ構造が画像特徴を処理します。自己注意メカニズムを使用してグローバルなコンテキストを捉え、モデルは遠く離れたオブジェクト間の関係や複雑なシーンをより良く理解できます。

長所

  • 高精度: Transformerアーキテクチャにより、RTDETRv2は特に衛星画像解析のような、密集したオブジェクトや小さなオブジェクトを含む複雑なデータセットで、優れたmAPスコアを達成できます。
  • リアルタイム性能: 特にNVIDIA TensorRTのようなツールを使用して、強力なGPU上で高速化された場合に、競争力のある推論速度を提供するように最適化されています。
  • 堅牢な特徴抽出: グローバルなコンテキストを捉えることで、遮蔽のような困難なシナリオでも優れた性能を発揮し、自動運転のようなアプリケーションに役立ちます。

弱点

  • 高い計算コスト: RTDETRv2は一般的にYOLOv5よりもパラメータ数とFLOPsが多いため、GPUメモリや処理能力などのより重要な計算リソースを必要とします。
  • Training Complexity: トランスフォーマーベースのモデルのトレーニングは、CNNのトレーニングよりもリソースを消費し、遅くなることがよくあります。通常、CUDAメモリがはるかに多く必要になるため、ハードウェアが限られているユーザーにとってはアクセスしにくくなります。
  • CPU/エッジでの推論速度: 高性能GPUではリアルタイムで動作しますが、CPUまたはそれほど強力ではないエッジデバイスでは、YOLOv5よりもパフォーマンスが大幅に低下する可能性があります。
  • エコシステムとユーザビリティ: UltralyticsがYOLOモデルに提供する広範で統一されたエコシステム、ツール、および幅広いコミュニティサポートが不足しています。

RTDETRv2の詳細について。

性能分析:速度 vs. 精度

YOLOv5とRTDETRv2の主な違いは、設計思想にあります。YOLOv5は、幅広いハードウェアで速度と精度の最適なバランスを実現するように設計されており、非常に汎用性があります。対照的に、RTDETRv2は、最高の精度を達成することを優先し、ハイエンドGPUで最高のパフォーマンスを発揮する、より計算負荷の高いトランスフォーマーアーキテクチャを利用しています。

以下の表は、これらの違いをまとめたものです。RTDETRv2モデルはより高いmAPスコアを達成していますが、特に小型のYOLOv5モデルは、特にCPU上で大幅に高速な推論時間を提供します。そのため、YOLOv5は、低遅延性と多様なハードウェアへの実装が不可欠なアプリケーションにとって、より実用的な選択肢となります。

モデル サイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

結論と推奨事項

YOLOv5とRTDETRv2はいずれも手ごわい物体検出モデルですが、それぞれ異なるニーズに対応しています。

RTDETRv2は、可能な限り最高の精度を達成することが主な目標であり、トレーニングとデプロイの両方で十分な計算リソース(つまり、ハイエンドGPU)がすぐに利用できるアプリケーションに最適な選択肢です。そのTransformerベースのアーキテクチャは、複雑なシーンで優位性をもたらします。

しかし、圧倒的多数の実世界のアプリケーションにとって、Ultralytics YOLOv5は、より魅力的で実用的なソリューションを提供します。速度と精度の卓越したバランスと、低いリソース要件が組み合わさることで、より幅広いデプロイメントシナリオに適しています。適切にメンテナンスされた Ultralytics エコシステムの主な利点である、使いやすさ、包括的なドキュメント、活発なコミュニティサポート、Ultralytics HUB のようなツールにより、参入障壁が大幅に下がり、開発時間が短縮されます。

最新の汎用性の高い高効率フレームワークを求める開発者にとって、YOLOv8YOLO11のような新しいUltralyticsモデルは、YOLOv5の強みを基盤として構築されており、さらに優れたパフォーマンスとより多くの機能を提供します。これらのモデルは、ユーザーフレンドリーで高性能なコンピュータビジョンの最先端技術を表しています。

その他のモデル比較

他のモデルの調査に関心がある場合は、これらの比較をご覧ください。



📅 1年前に作成 ✏️ 1か月前に更新

コメント