YOLOv10 vs. RT-DETRv2: オブジェクト検出に関する技術的な比較
適切な物体検出モデルの選択は、精度、速度、計算コストのバランスを取る重要な決定です。このページでは、2つの最先端モデル、非常に効率的なYOLOファミリーの最新の進化であるYOLOv10と、高精度に焦点を当てたトランスフォーマーベースのモデルであるRT-DETRv2との詳細な技術的比較を提供します。アーキテクチャ、パフォーマンス指標、理想的なユースケースを分析して、プロジェクトに最適なモデルを選択できるよう支援し、YOLOv10がほとんどの現実世界のアプリケーションにとって優れた選択肢である理由を強調します。
YOLOv10:高効率リアルタイム検出器
YOLOv10(You Only Look Once v10)は、清華大学の研究者によって開発されたYOLOファミリーの最新進化版です。その卓越した速度と効率性で知られており、リアルタイムアプリケーションにとって最適な選択肢となっています。
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織: 清華大学
- Date: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- ドキュメント: https://docs.ultralytics.com/models/yolov10/
アーキテクチャと主な機能
YOLOv10は、YOLOv8のような以前のUltralytics YOLOモデルの遺産を基に構築されており、エンドツーエンドの効率を実現するための重要なアーキテクチャの革新を導入しています。際立った特徴は、NMSフリーのトレーニングであり、一貫したデュアル割り当てを使用して、Non-Maximum Suppression(NMS)のポスト処理の必要性を排除します。この革新により、推論の遅延が減少し、デプロイメントパイプラインが簡素化されます。
このモデルはまた、全体的な効率と精度を重視した設計を特徴としており、軽量な分類ヘッドや空間チャネル分離ダウンサンプリングなどのコンポーネントを最適化しています。これにより、計算の冗長性が減少し、モデルの能力が向上すると同時に、汎化性能を向上させるためにアンカーフリー設計を維持しています。
重要なのは、YOLOv10がUltralyticsエコシステムにシームレスに統合されていることです。これにより、開発者は合理化されたユーザーエクスペリエンス、シンプルなPython API、広範なドキュメント、および堅牢なコミュニティを利用できます。このエコシステムは、トレーニングからデプロイメントまですべてを簡素化します。
パフォーマンス分析
YOLOv10は、速度と精度のトレードオフに関する新たなベンチマークを打ち立てます。パフォーマンステーブルに示すように、YOLOv10モデルは、RT-DETRv2よりも一貫して高速でありながら、同等以上の精度を、大幅に少ないパラメータとFLOPで提供します。たとえば、YOLOv10-Sは、わずか7.2Mのパラメータと2.66msの超高速レイテンシで46.7%のmAPを達成し、より大きなRT-DETRv2-Sよりもはるかに効率的です。最大のモデルであるYOLOv10-Xでさえ、RT-DETRv2-Xよりも高速かつ軽量でありながら、54.4%の最高のmAPを達成しています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
長所と短所
長所:
- 卓越した速度と効率: 高速な推論と低い計算コストに最適化されており、リアルタイムシステムとエッジAIに不可欠です。
- 優れたパフォーマンスバランス: スケーラブルなモデルサイズ(n、s、m、b、l、x)全体で、速度と精度の優れたトレードオフを実現します。
- メモリ要件が低い: RT-DETRv2のようなTransformerベースのモデルと比較して、トレーニングおよび推論中に必要なCUDAメモリが大幅に少なくなり、よりアクセスしやすくなります。
- 使いやすさ: 適切にメンテナンスされたUltralyticsエコシステム、シンプルなAPI、充実したドキュメント、すぐに利用できる学習済みの重み、および効率的なトレーニングプロセスなど、の恩恵を受けられます。
- NMSフリー設計: 真のエンドツーエンドデプロイメントを可能にし、推論レイテンシを削減します。
弱点:
- 精度に関するトレードオフ(小型モデル): 最小のYOLOv10バリアントは速度を優先するため、最大のRT-DETRv2モデルよりも精度が低い場合がありますが、サイズを考慮すると非常に競争力があります。
理想的なユースケース
YOLOv10の速度と効率により、幅広いアプリケーションにとって優れた選択肢となります。
- リアルタイム監視: 盗難防止など、セキュリティシステムでの迅速な物体検出に。
- Edge AI: NVIDIA Jetsonのようなモバイル、組み込み、IoTデバイスへのデプロイに最適です。
- 小売分析: 小売環境におけるリアルタイムの顧客および在庫分析。
- 交通管理: 効率的な車両検出と交通分析のために。
RT-DETRv2:高精度Transformerベースの検出
RT-DETRv2(Real-Time Detection Transformer v2)は、Baiduの高度なオブジェクト検出モデルであり、Transformerアーキテクチャを活用して高精度を優先しています。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Changら
- 組織: Baidu
- 日付: 2024-07-24 (v2論文)
- Arxiv: https://arxiv.org/abs/2407.17140
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Docs: https://docs.ultralytics.com/models/rtdetr/
アーキテクチャと主な機能
RT-DETRv2は、DETR(DEtection TRansformer)フレームワークに基づいており、自己注意メカニズムを使用して画像内のグローバルなコンテキストを捉えます。これにより、モデルは多くの重複するオブジェクトを含む複雑なシーンの理解に優れており、高い精度に貢献しています。アーキテクチャの中核は、Vision Transformer (ViT)バックボーンであり、画像をパッチのシーケンスとして処理し、長距離の依存関係を効果的にモデル化できます。
パフォーマンス分析
RT-DETRv2は印象的なピークmAPスコアを達成していますが、これには大きなコストがかかります。パフォーマンスの表は、すべての同等のサイズにおいて、RT-DETRv2モデルがYOLOv10モデルよりも遅く、計算コストが高いことを示しています。たとえば、RT-DETRv2-xのレイテンシは15.03msですが、これはYOLOv10-xの12.2msよりもわずかに低いmAPであるにもかかわらず、遅くなっています。さらに、Transformerベースのモデルは、トレーニングに実質的により多くのCUDAメモリを必要とすることが知られており、ハードウェアリソースが限られているユーザーにとってはアクセスしにくくなっています。
長所と短所
長所:
- 高いピーク精度: Transformerアーキテクチャにより、非常に高いmAPスコアを達成でき、精度が最優先されるタスクに適しています。
- 強力な文脈理解: グローバルな画像情報を処理する能力により、散在した複雑なシーンでのオブジェクト検出に優れています。
弱点:
- より高いレイテンシ: YOLOv10と比較して推論速度が遅いため、リアルタイムアプリケーションにはあまり適していません。
- 高い計算コスト: より多くのパラメータとFLOPsを必要とするため、より高いハードウェア要件につながります。
- 大きなメモリフットプリント: Transformerモデルのトレーニングはメモリを大量に消費するため、多くの場合、ハイエンドGPUが必要です。
- 複雑なアーキテクチャ: YOLOモデルの単純な設計と比較して、理解、変更、および最適化がより難しい場合があります。
理想的なユースケース
RT-DETRv2は、精度が最も重要であり、計算リソースが主要な制約とならない、特殊な非リアルタイムアプリケーションに最適です。
- 自動運転: 自動運転車におけるAIにおける正確な環境認識に。
- ハイエンドロボティクス: 複雑な産業環境における正確な物体インタラクションを可能にし、ロボティクスにおけるAIの役割を強化します。
- 医療画像処理: ヘルスケアにおけるAIにおける詳細な分析と異常検出。
- 高解像度画像: コンピュータビジョンを使用して衛星画像を分析するのと同様に、衛星画像や航空写真を分析するため。
結論
YOLOv10とRT-DETRv2はいずれも強力なモデルですが、それぞれ異なる優先順位に対応しています。RT-DETRv2は、十分な計算リソースが利用可能な場合に、絶対的に最高の精度を要求するアプリケーションに最適な選択肢です。そのトランスフォーマーアーキテクチャは、複雑なシーンのコンテキストを捉えるのに優れていますが、複雑さ、レイテンシ、およびメモリ使用量の増加を伴います。
対照的に、YOLOv10は、速度、効率、精度のバランスがはるかに優れており、ほとんどの開発者や研究者にとって推奨される選択肢です。リアルタイムパフォーマンスに優れ、必要な計算リソースが少なく、Ultralyticsエコシステムが提供する使いやすさ、広範なサポート、および効率的なワークフローの恩恵を受けます。ほとんどの現実世界のアプリケーション、特にエッジデプロイメントや低レイテンシを必要とするアプリケーションでは、YOLOv10は非常に競争力があり、実用的で、開発者にとって使いやすいソリューションを提供します。
他の高性能な物体検出モデルに関心のあるユーザーは、最新の進歩のためにUltralytics YOLO11を、または広く採用されている汎用性の高いオプションとしてYOLOv8を検討することもできます。より多くの比較については、YOLOv10 vs. YOLOv8およびRT-DETR vs. YOLO11に関する記事をご覧ください。