RTDETRv2 vs DAMO-YOLO:物体検出の技術比較
最適な物体検出モデルを選択することは、コンピュータビジョンアプリケーションを成功させるために非常に重要です。Ultralytics 多様なモデルを提供しており、このページではRTDETRv2とYOLO-YOLOの詳細な技術比較をお届けします。この分析は、お客様のプロジェクト要件に基づき、十分な情報に基づいた決定を下す際に役立ちます。
RTDETRv2:トランスベースの高精度検出
RTDETRv2(Real-Time Detection Transformer v2)は、百度が開発した最先端の物体検出モデルで、高精度と効率的なリアルタイム性能で知られている。Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liuによる論文「DETRs Beat YOLOs on Real-time Object Detection」で2023-04-17に紹介されたRTDETRv2は、Vision Transformer(ViT)アーキテクチャを活用し、ロバストな特徴抽出とグローバルなコンテキスト理解を実現している。
建築と特徴
RTDETRv2は、従来のCNNベースの検出器よりも効果的に画像内のグローバルなコンテキストをキャプチャすることを可能にする、変換器ベースのアーキテクチャで差別化されています。このアーキテクチャにより、特に広いコンテキストを理解することが重要な複雑なシーンにおいて、優れた精度を実現することができる。このモデルはPyTorch 実装されており、GitHubで入手可能です。
パフォーマンス
RTDETRv2は、その最大のバリエーションであるRTDETRv2-xで54.3のmAPval50-95を達成し、印象的な性能指標を示している。推論速度も競争力があり、高性能なハードウェアを使用するリアルタイムアプリケーションに適している。
強みと弱み
強みだ:
- 高精度:トランスフォーマー・アーキテクチャーは、優れた物体検出精度を提供します。
- リアルタイム機能:特にTensorRT アクセラレーションにより、高速推論を実現。
- 効果的な文脈学習:ヴィジョン・トランスフォーマーは、グローバルな文脈を画像で捉えることに優れている。
弱点がある:
- より大きなモデルサイズ:RTDETRv2モデル、特に大型のモデルは、かなりの数のパラメータとFLOPを持ち、より多くの計算リソースを必要とします。
- 計算需要:高速化のために最適化されてはいるが、リソースに非常に制約のあるデバイスに展開するには、他のモデルほど軽量ではないかもしれない。
使用例
RTDETRv2は、高精度を優先し、大規模な計算資源を利用できるアプリケーションに最適である:
- 自律走行車:自動運転車のAIに不可欠な、信頼性の高い正確な環境認識のために。
- ロボティクスロボットが複雑な環境下で物体を正確に認識し、相互作用できるようにすることで、アルゴリズムからオートメーションまでのアプリケーションを強化する:ロボット工学におけるAIの役割。
- 医療画像:医療画像の異常を正確に検出し、診断に役立てる。
- 詳細な画像解析:衛星画像を解析するためのコンピュータ・ビジョンの使用や工業検査など、高解像度の画像解析に適しています。
DAMO-YOLO:効率的で高速な物体検出
アリババ・グループが開発し、2022-11-23にXianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sunによる論文「DAMO-YOLO: Rethinking Scalable and Accurate Object Detection」で紹介されたDAMOYOLOYOLO(DAMOシリーズYOLO)は、競争力のある精度を維持しながら、スピードと効率を追求して設計されている。DAMO-YOLO リアルタイム性能に重点を置いており、GitHubで入手可能だ。
建築と特徴
DAMO-YOLO 、ニューラル・アーキテクチャ・サーチ(NAS)バックボーン、効率的なRepGFPN、ZeroHeadなど、効率を高めるための革新的な技術がいくつか組み込まれている。これらのアーキテクチャの選択は、その速度と計算需要の低減に貢献し、リアルタイム・アプリケーションやエッジ展開に最適な選択肢となっています。
パフォーマンス
DAMO-YOLO 推論速度に優れ、様々なハードウェアプラットフォームで非常に高速なパフォーマンスを提供する。精度はRTDETRv2より若干劣るが、特に高速処理を必要とするアプリケーションでは、速度と精度のバランスが魅力的である。
強みと弱み
強みだ:
- 高速:超高速推論に最適化され、リアルタイムシステムに最適。
- 効率:モデルサイズが小さく、計算要件が低いため、エッジデバイスに適している。
- 拡張性:様々な展開シナリオに対応できるよう、スケーラブルに設計されている。
弱点がある:
- 精度:正確ではあるが、特に最高精度を要求するシナリオでは、RTDETRv2と同じトップクラスのmAPスコアを達成できない可能性がある。
- 文脈の理解:CNN中心であるため、非常に複雑なシーンでは、変換器ベースのモデルほどグローバルなコンテキストを効果的に捉えられない可能性がある。
使用例
DAMO-YOLO 、スピードと効率が最優先され、あまり性能の高くないハードウェアでの展開が必要なアプリケーションに適している:
- リアルタイムビデオ監視:即時検知を必要とするセキュリティアラームシステムなどの用途に最適です。
- エッジコンピューティング:Raspberry Piや NVIDIA Jetsonなどのエッジデバイスへの展開に最適です。
- 迅速な処理アプリケーション:ロボット工学(ROSクイックスタート)や、迅速な意思決定を必要とするその他のアプリケーションに適しています。
- モバイル展開:モバイルアプリケーションやリソースが限られた環境でも十分に効率的です。
モデル比較表
モデル | サイズ(ピクセル) | mAPval 50-95 |
CPU ONNX (ms) |
SpeedT4TensorRT10 (ms) |
params(M) | フロップス(B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
ダモ・ヨロト | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
ダモヨロズ | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
ダモ・ヨロム | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
ダモヨロル | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
結論
RTDETRv2とYOLO -YOLOはどちらも強力な物体検出モデルであり、それぞれに明確な利点がある。RTDETRv2は、最大精度が優先され、計算リソースが利用可能な場合に際立つ。DAMO-YOLO、リアルタイム処理と効率的なデプロイメントを必要とするアプリケーション、特にエッジデバイスに適しています。
他の選択肢を検討しているユーザーのために、Ultralytics 以下のような幅広いモデルを提供している:
- YOLO11:スピードと精度をバランスさせたYOLO シリーズの最新作。詳細はこちら YOLO11.
- YOLOv8 YOLOv9:様々なスピードと精度のトレードオフを提供する前世代。詳しくはUltralytics YOLOv8 Turns One: A Year of Breakthroughs and Innovations」とYOLOv9を参照。
- YOLO:最適なパフォーマンスを実現するために、ニューラル・アーキテクチャ探索によって設計されたモデル。 Deci AI YOLO- 最先端の物体検出モデルをご覧ください。
- FastSAM とMobileSAM: リアルタイムのインスタンスセグメンテーションなら FastSAMと MobileSAM.
RTDETRv2、DAMO-YOLO、または他のUltralytics モデルの選択は、精度、速度、利用可能なリソースのバランスを慎重に考慮し、コンピュータビジョンプロジェクトの特定のニーズに基づいて行う必要があります。詳細と実装ガイドについては、Ultralytics ドキュメントと Ultralytics GitHubリポジトリを参照してください。