コンテンツへスキップ

YOLOv5 RTDETRv2の比較:詳細な技術比較

最適な物体検出モデルを選択することは、コンピュータビジョンプロジェクトにとって非常に重要な決定です。Ultralytics 、様々なプロジェクトのニーズに対応するため、多様なモデルを提供しています。このページでは Ultralytics YOLOv5RTDETRv2の技術比較を行い、アーキテクチャ上の違い、性能ベンチマーク、異なるアプリケーションへの適合性を強調します。

YOLOv5:スピードと効率の最適化

Ultralytics YOLOv5は、その迅速な推論スピードと運用効率の高さで広く採用されている1段式物体検出器です。YOLOv55のアーキテクチャーは次のように構成されています:

  • バックボーン:CSPDarknet53、特徴抽出を担当。
  • ネックフィーチャーフュージョンに使用されるPANet。
  • ヘッド: YOLOv5 ヘッド、探知用。

YOLOv5 複数のサイズ(n、s、m、l、x)が用意されており、ユーザーは特定の要件に基づいて速度と精度のバランスを取ることができる。

強みだ:

弱点がある:

  • 精度のトレードオフ:高い精度を達成する一方で、RTDETRv2のような大型モデルは、特に複雑なシナリオにおいて、優れたmAPを提供する可能性がある。

理想的な使用例

YOLOv5もっと知る

RTDETRv2:高精度リアルタイム検出トランス

RTDETRv2(Real-Time Detection Transformer v2)は、高精度とリアルタイム性を優先した最先端の物体検出モデルである。RT-DETRv2:Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer"と題された論文で紹介され、BaiduのWenyu Lv氏、Yian Zhao氏、Qinyao Chang氏、Kui Huang氏、Guanzhong Wang氏、Yi Liu氏によって2023-04-17に発表された。Vision Transformer (ViT) アーキテクチャをベースに構築された RTDETRv2 は、物体の正確な位置特定と分類を必要とするアプリケーションに優れている。

建築と主な特徴:

RTDETRv2は、変換器ベースのアーキテクチャを活用することで、自己アテンションメカニズムを通じて画像内のグローバルコンテキストを捉えることを可能にしている。このアプローチにより、モデルは異なる画像領域の重要性を重み付けすることができ、特に複雑なシーンにおいて、特徴抽出の強化と精度の向上につながる。

強みだ:

  • 優れた精度:トランスフォーマーアーキテクチャは、特に複雑な環境下での物体検出精度を向上させ、Vision-ai-in-crowd-managementのようなシナリオで実証されています。
  • リアルタイム機能:特にNVIDIA T4 GPUのようなハードウェアアクセラレーションを使用した場合、競争力のある推論速度を実現します。
  • ロバストな特徴抽出:ビジョントランスフォーマーは、衛星画像を分析するためにコンピュータビジョンを使用するようなアプリケーションで有益な、グローバルなコンテキストと複雑な詳細を効果的にキャプチャします。

弱点がある:

  • より大きなモデルサイズ:RTDETRv2モデル、特に大きなモデルは、YOLOv5パラメータ数とFLOP数が多く、より多くの計算リソースが必要になります。
  • 推論速度:リアルタイムで推論を行うことは可能だが、特に性能の低いデバイスでは、最速のYOLOv5 モデルと比較して推論速度が低下する可能性がある。

理想的な使用例

RTDETRv2 は、精度が最優先され、計算リソースが十分なアプリケーションに最適です。以下のような用途に最適です:

RTDETRv2についてもっと知る

モデル比較表

モデル サイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
スピード
T4TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4

結論

RTDETRv2もYOLOv5 ロバストな物体検出モデルであり、それぞれ異なる優先順位で設計されている。RTDETRv2は、精度が最優先され、計算リソースに余裕がある場合に適している。逆に、YOLOv5 5は、特にリソースが限られたプラットフォーム上で、リアルタイムの性能と効率を必要とするシナリオに優れています。

Ultralytics 、他のモデルを検討しているユーザーのために、以下のような幅広いモデルズーを提供しています:

RTDETRv2、YOLOv5、または他のUltralytics モデルのいずれかを選択するには、精度、速度、およびリソースの可用性のバランスを慎重に考慮し、コンピュータビジョンプロジェクトの特定の要求に基づいて選択する必要があります。包括的な詳細と実装ガイドについては、Ultralytics ドキュメントと GitHubリポジトリを参照してください。

📅作成:1年前 ✏️更新:1ヶ月前

コメント