YOLOv8 vs RTDETRv2:技術比較
適切な物体検出モデルの選択には、精度、速度、および計算コストのトレードオフが伴います。このページでは、YOLOファミリーの最先端モデルであるUltralytics YOLOv8と、Baiduのリアルタイム検出トランスフォーマーであるRTDETRv2という、2つの強力なモデルの詳細な技術的比較を提供します。どちらのモデルも優れたパフォーマンスを提供しますが、根本的に異なるアーキテクチャ原則に基づいて構築されており、異なるアプリケーションに適しています。
Ultralytics YOLOv8:汎用性と効率性の標準
Ultralytics YOLOv8は、非常に成功したYOLOシリーズにおける最新の長期サポート(LTS)モデルです。その前身の革新を基に構築されており、使いやすさ、速度、そして汎用性を優先しながら、卓越したパフォーマンスを提供します。
技術詳細:
- 著者: Glenn Jocher、Ayush Chaurasia、Jing Qiu
- 組織: Ultralytics
- Date: 2023-01-10
- GitHub: https://github.com/ultralytics/ultralytics
- Docs: https://docs.ultralytics.com/models/yolov8/
アーキテクチャと主な機能
YOLOv8は、高度に最適化されたアンカーフリーのシングルステージアーキテクチャを備えています。効率的な特徴抽出のためにCSPDarknet53に触発されたバックボーンを使用し、ネックには特徴融合を強化するためにC2f(2つの畳み込みを持つCross Stage Partial Bottlebeck)モジュールを使用しています。この設計により、高速かつ正確であるだけでなく、計算効率の高いモデルが実現します。
YOLOv8の主な利点は、包括的なUltralyticsエコシステムへの統合です。これにより、シンプルなPython APIとCLI、広範なドキュメント、および活発なコミュニティサポートにより、合理化されたユーザーエクスペリエンスが提供されます。
長所
- パフォーマンスのバランス: YOLOv8は、速度と精度の間で卓越したトレードオフを実現しており、高性能クラウドサーバーからリソースに制約のあるエッジデバイスまで、広範な現実世界のデプロイメントシナリオに適しています。
- 使いやすさ: このモデルは非常にユーザーフレンドリーで、トレーニング、検証、およびデプロイメントのための簡単なワークフローを備えています。十分にメンテナンスされたエコシステムには、ノーコードトレーニングおよびMLOps管理のためのUltralytics HUBのようなツールが含まれています。
- 多様性: 主に物体検出器であるRTDETRv2とは異なり、YOLOv8は、物体検出、インスタンスセグメンテーション、画像分類、ポーズ推定、傾斜物体検出(OBB)を単一の統合フレームワーク内でサポートするマルチタスクモデルです。
- Training and Memory Efficiency: YOLOv8は、事前にトレーニングされた重みがすぐに利用できる効率的なトレーニングプロセス用に設計されています。RTDETRv2のようなトランスフォーマーベースのモデルと比較して、YOLOv8は通常、CUDAメモリの使用量が大幅に少なく、収束が速いため、計算コストと開発時間が削減されます。
弱点
- 非常に高精度ですが、最大のTransformerベースのモデルは、オブジェクトが密集した特定の複雑なデータセットでわずかに高いmAPを達成することがありますが、これは多くの場合、はるかに高い遅延とリソース要件を伴います。
理想的なユースケース
YOLOv8は、速度、精度、汎用性のバランスが取れているため、以下に最適です。
- リアルタイムアプリケーション: ビデオ監視、セキュリティシステム、交通管理。
- Edge Computing: 計算リソースが限られているRaspberry PiやNVIDIA Jetsonのようなデバイスへのデプロイ。
- 産業オートメーション: 品質管理や在庫管理などのタスクに活用できます。
- マルチタスクソリューション: オブジェクト検出だけでなく、フィットネスアプリケーションのポーズ推定と組み合わせるなど、より多くのものを必要とするプロジェクト。
RTDETRv2: Transformerによるリアルタイム検出
RTDETRv2(Real-Time Detection Transformer v2)は、Baiduが開発した最先端の物体検出器であり、高性能ハードウェア上でリアルタイム性能を維持しながら高精度を実現するために、Vision Transformerの能力を活用しています。
技術詳細:
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織: Baidu
- 日付: 2023-04-17 (最初のRT-DETR), 2024-07-24 (RT-DETRv2の改善)
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- ドキュメント: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
アーキテクチャと主な機能
RTDETRv2は、初期の特徴抽出のためにCNNバックボーン(例:ResNet)とTransformerベースのエンコーダ・デコーダを組み合わせたハイブリッドアーキテクチャを採用しています。Transformerの自己注意機構により、モデルは画像内のグローバルなコンテキストとオブジェクト間の長距離依存性を捉えることができ、これは複雑または雑然としたシーンでオブジェクトを検出するのに役立ちます。
長所
- 高精度: Transformerアーキテクチャにより、RTDETRv2は特に多くの小さなオブジェクトや遮蔽されたオブジェクトを含む複雑なデータセットで、優れたmAPスコアを達成できます。
- ロバストな特徴抽出: グローバルな画像コンテキストを処理する能力により、困難な検出シナリオで強力なパフォーマンスを発揮します。
- GPUでのリアルタイム処理: このモデルは、NVIDIA TensorRTのようなツールを使用してハイエンドGPUで高速化した場合に、競争力のある推論速度を実現するように最適化されています。
弱点
- Computational Cost: RTDETRv2は一般的に、同等のYOLOv8モデルよりもパラメータ数が多く、FLOPsも多いため、より多くの計算リソース、特にGPUメモリを必要とします。
- Training Complexity: トランスフォーマーベースのモデルのトレーニングは、悪名高くリソースを消費し、YOLOv8のようなCNNベースのモデルのトレーニングよりも大幅に遅く、より多くのメモリが必要になる可能性があります。
- 推論速度: 強力なGPUでは高速ですが、CPUや低性能なエッジデバイスではパフォーマンスが大幅に低下する可能性があり、幅広いハードウェアにはあまり適していません。
- 汎用性の制限: RTDETRv2は主に物体検出用に設計されており、YOLOv8にあるセグメンテーション、分類、姿勢推定に対するネイティブなマルチタスクサポートがありません。
- エコシステム: Ultralyticsのような統合されたユーザーフレンドリーなエコシステムの恩恵を受けないため、開発者にとってトレーニング、デプロイメント、およびメンテナンスがより複雑になる可能性があります。
理想的なユースケース
RTDETRv2は、以下のような用途に最適です。
- 高精度シナリオ: 複雑なデータセットで可能な限り最高のmAPを達成することが主な目標であり、十分なGPUリソースが利用可能なアプリケーション。
- 学術研究: オブジェクト検出のためのTransformerベースのアーキテクチャの能力を探求します。
- クラウドベースのデプロイメント: 専用の GPU アクセラレーションを備えた強力なクラウドサーバーで推論が実行されるシステム。
性能分析:速度、精度、効率
YOLOv8とRTDETRv2を比較すると、各モデルに独自の強みがあることが明らかになります。下の表に示すように、最大のRTDETRv2モデルはmAPでYOLOv8xをわずかに上回っていますが、YOLOv8モデルは一貫して速度、精度、効率のより良いバランスを提供しています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv8は、すべてのモデルサイズで優れた速度を示しており、特にCPUでは、RTDETRv2の公式ベンチマークは提供されていません。たとえば、YOLOv8lはT4 GPUでわずか9.06 msのレイテンシで52.9 mAPを達成していますが、わずかに正確なRTDETRv2-l(53.4 mAP)は9.76 msでより遅いです。この効率性により、YOLOv8はリアルタイム推論を必要とするアプリケーションにとってより実用的な選択肢となります。
結論: どのモデルを選ぶべきか?
RTDETRv2は、高精度な物体検出のためのTransformerの可能性を示す印象的なモデルであり、豊富な計算リソースを備えた研究および特殊なアプリケーションに最適な選択肢です。
しかし、圧倒的多数の開発者、研究者、企業にとって、Ultralytics YOLOv8が優れた選択肢です。速度と精度の卓越したバランスを提供し、計算効率がはるかに高く、使いやすさが大幅に向上しています。複数のコンピュータビジョンタスクにわたる汎用性と、堅牢で適切にメンテナンスされたエコシステムとの組み合わせにより、実世界の AI システムを構築およびデプロイするための、より実用的で費用対効果が高く、強力なソリューションとなっています。最新の進歩を求める方には、YOLO11のような新しいモデルがこれらの利点をさらに推進します。
その他のモデルを見る
さらに検討を深めるには、YOLOv8、RTDETRv2、およびその他の関連モデルを含むこれらの比較をご検討ください。
- RT-DETR vs YOLOv7
- YOLOv8 vs YOLOv7
- YOLOv8 vs YOLOv9
- EfficientDetとYOLOv8の比較
- YOLOv10やYOLO11のような最新モデルをご覧ください。