YOLOv5 RTDETRv2の比較:詳細な技術比較
最適な物体検出モデルを選択することは、コンピュータビジョンプロジェクトにとって非常に重要な決定です。Ultralytics 、様々なプロジェクトのニーズに対応するため、多様なモデルを提供しています。このページでは Ultralytics YOLOv5とRTDETRv2の技術比較を行い、アーキテクチャ上の違い、性能ベンチマーク、異なるアプリケーションへの適合性を強調します。
YOLOv5:スピードと効率の最適化
Ultralytics YOLOv5は、その迅速な推論スピードと運用効率の高さで広く採用されている1段式物体検出器です。YOLOv55のアーキテクチャーは次のように構成されています:
- バックボーン:CSPDarknet53、特徴抽出を担当。
- ネックフィーチャーフュージョンに使用されるPANet。
- ヘッド: YOLOv5 ヘッド、探知用。
YOLOv5 複数のサイズ(n、s、m、l、x)が用意されており、ユーザーは特定の要件に基づいて速度と精度のバランスを取ることができる。
強みだ:
- 推論スピード: YOLOv5 スピードに優れているため、セキュリティアラームシステムなどのリアルタイムアプリケーションに最適です。
- 効率性: YOLOv5 モデルはコンパクトで、必要な計算リソースが少なく、Raspberry Piや NVIDIA Jetsonのようなエッジデプロイメントに適しています。
- 汎用性:リソースに制約のあるデバイスを含め、さまざまなハードウェア環境に適応。
- 使いやすさ:ドキュメントが充実しており、Ultralytics Python パッケージと Ultralytics HUBを使って簡単に実装できます。
弱点がある:
- 精度のトレードオフ:高い精度を達成する一方で、RTDETRv2のような大型モデルは、特に複雑なシナリオにおいて、優れたmAPを提供する可能性がある。
理想的な使用例
- ビデオ監視や交通管理におけるAIなど、リアルタイムの物体検出シナリオ。
- エッジコンピューティングとモバイル展開。
- ロボット工学(ROSクイックスタート)や自律走行車など、迅速な処理を必要とするアプリケーション。
RTDETRv2:高精度リアルタイム検出トランス
RTDETRv2(Real-Time Detection Transformer v2)は、高精度とリアルタイム性を優先した最先端の物体検出モデルである。RT-DETRv2:Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer"と題された論文で紹介され、BaiduのWenyu Lv氏、Yian Zhao氏、Qinyao Chang氏、Kui Huang氏、Guanzhong Wang氏、Yi Liu氏によって2023-04-17に発表された。Vision Transformer (ViT) アーキテクチャをベースに構築された RTDETRv2 は、物体の正確な位置特定と分類を必要とするアプリケーションに優れている。
建築と主な特徴:
RTDETRv2は、変換器ベースのアーキテクチャを活用することで、自己アテンションメカニズムを通じて画像内のグローバルコンテキストを捉えることを可能にしている。このアプローチにより、モデルは異なる画像領域の重要性を重み付けすることができ、特に複雑なシーンにおいて、特徴抽出の強化と精度の向上につながる。
強みだ:
- 優れた精度:トランスフォーマーアーキテクチャは、特に複雑な環境下での物体検出精度を向上させ、Vision-ai-in-crowd-managementのようなシナリオで実証されています。
- リアルタイム機能:特にNVIDIA T4 GPUのようなハードウェアアクセラレーションを使用した場合、競争力のある推論速度を実現します。
- ロバストな特徴抽出:ビジョントランスフォーマーは、衛星画像を分析するためにコンピュータビジョンを使用するようなアプリケーションで有益な、グローバルなコンテキストと複雑な詳細を効果的にキャプチャします。
弱点がある:
- より大きなモデルサイズ:RTDETRv2モデル、特に大きなモデルは、YOLOv5パラメータ数とFLOP数が多く、より多くの計算リソースが必要になります。
- 推論速度:リアルタイムで推論を行うことは可能だが、特に性能の低いデバイスでは、最速のYOLOv5 モデルと比較して推論速度が低下する可能性がある。
理想的な使用例
RTDETRv2 は、精度が最優先され、計算リソースが十分なアプリケーションに最適です。以下のような用途に最適です:
- 自律走行: 自動運転車のAIにおける信頼性の高い正確な環境認識のために。
- ロボット工学:ロボットが周囲の環境と正確に相互作用することを可能にする:ロボット工学におけるAIの役割」。
- 医療画像診断: ヘルスケアにおけるAIで強調されているように、正確な異常検出、診断の補助、そして医療画像における腫瘍検出のためのyolo1111の使用といった分野で役立つ可能性がある。
- 高解像度画像解析:衛星画像や工業検査など、大きな画像の詳細な分析を必要とするアプリケーション。
モデル比較表
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
スピード T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
結論
RTDETRv2もYOLOv5 ロバストな物体検出モデルであり、それぞれ異なる優先順位で設計されている。RTDETRv2は、精度が最優先され、計算リソースに余裕がある場合に適している。逆に、YOLOv5 5は、特にリソースが限られたプラットフォーム上で、リアルタイムの性能と効率を必要とするシナリオに優れています。
Ultralytics 、他のモデルを検討しているユーザーのために、以下のような幅広いモデルズーを提供しています:
- YOLOv8と YOLO11:Ultralytics YOLOv8 Turns One: A Year of Breakthroughs and InnovationsUltralytics YOLOv8 ターンズワン:ブレークスルーとイノベーションの1年)」と「Ultralytics YOLO11 Has ArrivedUltralytics YOLO11 ハズ・アライブド:AIで可能なことを再定義する)」で強調されているように、YOLOv55の後継機であるYOLO11 11は、パフォーマンスと効率のさらなる進化を提供します:AIで何が可能かを再定義する」。
- YOLO:パフォーマンスを最適化するためにニューラル・アーキテクチャ・サーチで設計されたモデルYOLO Deci AIYOLO)。
- FastSAMおよび MobileSAM:リアルタイムのインスタンスセグメンテーションタスク(FastSAMおよび MobileSAM).
RTDETRv2、YOLOv5、または他のUltralytics モデルのいずれかを選択するには、精度、速度、およびリソースの可用性のバランスを慎重に考慮し、コンピュータビジョンプロジェクトの特定の要求に基づいて選択する必要があります。包括的な詳細と実装ガイドについては、Ultralytics ドキュメントと GitHubリポジトリを参照してください。