YOLOv10とRTDETRv2の比較:物体検出の技術比較
最適な物体検出モデルを選択することは、コンピュータビジョンプロジェクトにとって重要な決断です。Ultralytics 、効率的なUltralytics YOLO シリーズから高精度なRT-DETR シリーズまで、多様なニーズに合わせたモデル群を提供しています。このページでは、物体検出の最先端モデルであるYOLOv10と RTDETRv2の詳細な技術比較をご紹介します。
RTDETRv2:高精度リアルタイム検出
RTDETRv2(Real-Time Detection Transformer v2)は、高精度とリアルタイム性能を優先した先進的な物体検出モデルである。バイドゥが開発し、2024年7月に公開されたArxiv論文で詳述されているRTDETRv2は、Vision Transformer(ViT)アーキテクチャを基盤としており、正確な物体位置の特定と分類を必要とするシナリオで最先端の結果を達成する。
アーキテクチャと主な特徴
RTDETRv2のアーキテクチャは、変換器の長所を活用し、自己注意メカニズムによって画像内のグローバルなコンテキストを捉えることを可能にしている。この変換器ベースのアプローチにより、モデルは異なる画像領域の重要性を重み付けすることができ、特に複雑なシーンにおいて、特徴抽出の強化と精度の向上につながります。従来の畳み込みニューラルネットワーク(CNN)とは異なり、RTDETRv2は画像のより広いコンテキストを理解することに優れており、その強固な検出能力に貢献しています。RT-DETR GitHubリポジトリには、実装の詳細が記載されています。
パフォーマンス指標
RTDETRv2は印象的なmAPスコアを示しており、特にRTDETRv2-x のような大型のバリエーションは54.3のmAPval50-95を達成している。推論速度も競争力があり、NVIDIA T4 GPUのようなハードウェアアクセラレーションを使用するリアルタイムアプリケーションに適しています。以下の比較表は、さまざまなRTDETRv2およびYOLO10バリアントのパフォーマンスメトリクスの詳細な内訳を示しています。
強みと弱み
強みだ:
- 優れた精度:トランスフォーマーアーキテクチャにより、高い物体検出精度を実現。
- リアルタイム機能:特に、以下のような推論エンジンによるハードウェアアクセラレーションによって、競争力のある推論速度を実現します。 TensorRT.
- 効果的な特徴抽出:ビジョントランスフォーマーは、画像内のグローバルなコンテキストと複雑なディテールを巧みにキャプチャします。
弱点がある:
- より大きなモデルサイズ:RTDETRv2-xのようなモデルは、より小さなYOLO モデルと比較して、パラメータ数が多く、FLOPも高いため、より多くの計算リソースが必要になります。
- 推論速度の制限:リアルタイム性はあるが、推論速度は、特にリソースに制約のあるデバイスでは、最速のYOLO モデルよりも遅くなる可能性がある。
理想的な使用例
RTDETRv2 は、精度が最優先され、十分な計算リソースが利用できるアプリケーションに最適です。以下のような用途に適しています:
- 自律走行車: 自動運転車のAIにおける安全性とナビゲーションに不可欠な、信頼性の高い正確な環境認識のために。
- ロボット工学ロボットが複雑な環境で物体と正確に相互作用できるようにし、ロボット工学におけるAIの役割の能力を高める。
- メディカルイメージング:医療画像の異常を正確に検出し、診断を助け、ヘルスケアにおけるAIの効率を向上させる。
- 高解像度画像解析: 衛星画像や工業検査など、大きな画像の詳細な分析を必要とするアプリケーション。
YOLOv10:効率的で多様な物体検出
YOLOv10(ユー・オンリー・ルック・ワンス10)はUltralytics YOLO シリーズの最新版で、物体検出のスピードと効率で有名である。Arxiv論文で詳述されているように、清華大学の著者らによって2024年5月に発表されたYOLOv10は、これまでのYOLO バージョンをベースに構築されており、リアルタイムの優位性を維持しながら、精度と性能の両方を向上させている。公式のGitHubリポジトリでは、公式のPyTorch 実装が提供されている。
アーキテクチャと主な特徴
YOLOv10は、YOLO 伝統であるシングルステージ物体検出を継承し、合理化された効率とスピードに焦点を当てています。YOLOv10は、計算の冗長性を減らし、精度を向上させるために、アーキテクチャーの革新と最適化を取り入れています。主な特徴は、NMSフリーのアプローチで、エンド・ツー・エンドの展開と推論レイテンシーの短縮を可能にします。このため、YOLOv10はリアルタイム・アプリケーションやリソースに制約のあるデバイスへの展開に特に有利です。
パフォーマンス指標
YOLOv10は、スピードと精度のバランスを実現し、YOLOv10nからYOLOv10xまで様々なモデルサイズを提供している。最高精度ではRTDETRv2にやや劣るものの、YOLOv10は推論速度と効率に優れている。例えば、YOLOv10nは、TensorRT上で1.56msの高速推論を達成しており、レイテンシに敏感なアプリケーションに最適です。YOLO パフォーマンス・メトリクス・ガイドには、これらのメトリクスに関する詳細な情報が記載されています。
強みと弱み
強みだ:
- 高い効率とスピード:リアルタイムアプリケーションやエッジ展開に不可欠な高速推論に最適化されています。
- 汎用性:複数のサイズ(n、s、m、b、l、x)があり、パフォーマンスとリソースの使用量を拡張できます。
- NMS不要のトレーニング:エンド・ツー・エンドの展開を可能にし、推論の待ち時間を短縮します。
- より小さなモデルサイズ:RTDETRv2と比較してパラメータ数とFLOP数が少ないため、リソースに制約のある環境に適しています。
弱点がある:
- RTDETRv2と比較して精度が低い:精度は高いが、複雑なシナリオではRTDETRv2のトップクラスの精度には届かない可能性がある。
- トレードオフの可能性:極限のスピードを達成するためには、より大規模で計算量の多いモデルと比較して、精度が若干トレードオフになる可能性がある。
理想的な使用例
YOLOv10の効率性とスピードは、特にリソースの限られたデバイス上で、リアルタイムの物体検出を必要とするアプリケーションに最適です。これには以下のようなものがあります:
- エッジコンピューティング: NVIDIA Jetsonや Raspberry Piのようなエッジデバイスに展開し、オンデバイス処理を行う。
- リアルタイムビデオ監視: セキュリティアラームシステムの効率的な監視と迅速な対応のために。
- ロボット工学とドローン AIドローン操作におけるコンピュータ・ビジョン・アプリケーションなど、ナビゲーションやインタラクションに低レイテンシーと高速処理が不可欠なアプリケーション。
- 産業オートメーション:製造工程における迅速な物体検出、製造業におけるAIの効率化。
モデル比較表
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
スピード T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
結論
RTDETRv2とYOLOv10はどちらも強力な物体検出モデルであり、それぞれ異なる優先順位向けに設計されています。RTDETRv2は、最高レベルの精度が要求され、計算リソースに余裕がある場合に優れており、複雑で重要なアプリケーションに適しています。一方、YOLOv10は、リアルタイムのパフォーマンス、効率性、リソースに制約のあるプラットフォームへの展開が最優先される場合に適しています。
Ultralytics 、スピードと精度のトレードオフが異なるモデルを含む、多様なモデル群を提供しています:
- YOLOv8 YOLOv9: Ultralytics YOLOv8 Turns One: A Year of Breakthroughs and Innovationsと YOLOv9ドキュメントで強調されているように、スピードと精度のバランスを提供するYOLO 前世代モデル。
- YOLOYOLO:最適なパフォーマンスを実現するためにニューラル・アーキテクチャ・サーチで設計されたモデル。
- FastSAM MobileSAM:リアルタイムのインスタンスセグメンテーションタスクのために、FastSAM ドキュメントと MobileSAM ドキュメントにあるような効率的なソリューションを提供する。
最終的に、RTDETRv2とYOLOv10、または他のUltralytics モデルのどちらを選択するかは、精度、スピード、リソースの制約のバランスを慎重に取りながら、コンピュータビジョンプロジェクトの特定のニーズに依存します。包括的な情報と実装ガイドについては、Ultralytics ドキュメントと GitHubリポジトリを参照してください。