RTDETRv2 vs YOLOv8:技術比較
適切な物体検出モデルの選択は、精度、速度、計算コストのバランスを取る重要な決定です。このページでは、BaiduのトランスフォーマーベースのモデルであるRTDETRv2と、Ultralytics YOLOv8(最先端の畳み込みニューラルネットワーク(CNN)モデル)という、2つの強力なアーキテクチャの詳細な技術的比較を提供します。アーキテクチャの違い、パフォーマンス指標、理想的なユースケースを掘り下げて、プロジェクトに最適なモデルを選択できるよう支援します。
RTDETRv2: リアルタイム検出 Transformer v2
RTDETRv2(Real-Time Detection Transformer v2)は、Vision Transformerの能力を活用して、リアルタイム性能を維持しながら高精度を実現する、最先端の物体検出器です。これは、速度のために最適化された、オリジナルのDETR(DEtection TRansformer)アーキテクチャの進化を表しています。
著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
組織: Baidu
日付: 2023-04-17 (Initial RT-DETR)、2024-07-24 (RT-DETRv2の改善)
Arxiv: https://arxiv.org/abs/2304.08069、https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
ドキュメント: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
アーキテクチャ
RTDETRv2は、従来のCNNバックボーンとTransformerベースのエンコーダ・デコーダを組み合わせたハイブリッドアーキテクチャを採用しています。CNNバックボーンは初期の特徴マップを抽出し、それがTransformerに入力されます。Transformerの自己注意機構により、モデルは画像内の異なる部分間のグローバルな関係を捉えることができます。このグローバルなコンテキストの理解は、純粋なCNNベースのモデルとの重要な差別化要因であり、RTDETRv2が複雑で雑然としたシーンでオブジェクトを検出するのに優れている理由です。
長所
- 高精度: Transformerアーキテクチャにより、RTDETRv2は特にグローバルコンテキストが有益な、密集したオブジェクトや小さなオブジェクトを含むデータセットで、優れたmAPスコアを達成できます。
- 堅牢な特徴抽出: 画像全体のコンテキストを一度に処理することで、遮蔽や複雑なオブジェクトの関係をより適切に処理できます。
- GPUでのリアルタイム処理: NVIDIA TensorRTのようなツールで高速化すると、RTDETRv2はハイエンドGPU上でリアルタイムの推論速度を達成できます。
弱点
- 高い計算コスト: Transformerベースのモデルは、リソースを大量に消費することで知られています。RTDETRv2はYOLOv8と比較して、より多くのパラメータ数とFLOPsを持っているため、より強力なハードウェアが必要です。
- 遅いトレーニングと高いメモリ使用量: Transformerのトレーニングは計算コストが高く、時間がかかります。YOLOv8のようなCNNベースのモデルよりもはるかに多くのCUDAメモリを必要とするため、ハードウェアリソースが限られているユーザーはアクセスできない場合があります。
- CPU推論の低速化: GPUでは高速ですが、CPUでのパフォーマンスは、YOLOv8のような高度に最適化されたCNNよりも大幅に低くなります。
- 限定的なエコシステム: RTDETRv2には、Ultralyticsが提供する広範で統一されたエコシステムがありません。これには、統合の少なさ、包括性に欠けるドキュメント、およびサポートのための小規模なコミュニティが含まれます。
Ultralytics YOLOv8:速度、汎用性、使いやすさ
Ultralytics YOLOv8は、非常に成功したYOLO(You Only Look Once)ファミリーにおける最新のイテレーションです。Ultralyticsによって開発され、速度、精度、そして使いやすさの新たな標準を打ち立て、幅広いコンピュータビジョンタスクにとって最適な選択肢となっています。
著者: Glenn Jocher, Ayush Chaurasia, and Jing Qiu
所属: Ultralytics
日付: 2023-01-10
GitHub: https://github.com/ultralytics/ultralytics
ドキュメント: https://docs.ultralytics.com/models/yolov8/
アーキテクチャ
YOLOv8は、最先端のアンカーフリーなシングルステージアーキテクチャを特徴としています。新しいCSP(Cross Stage Partial)バックボーンとデカップルドヘッドを利用しており、分類タスクと回帰タスクを分離して精度を向上させています。アーキテクチャ全体がパフォーマンスと効率の卓越したバランスを実現するために高度に最適化されており、強力なクラウドGPUからリソース制約のあるエッジデバイスまで、幅広いハードウェアで実行できます。
長所
- パフォーマンスのバランス: YOLOv8は、速度と精度の間で卓越したトレードオフを提供し、両方の指標が重要な多様な現実世界のアプリケーションに適しています。
- 多様性: 主に物体検出器であるRTDETRv2とは異なり、YOLOv8は、物体検出、インスタンスセグメンテーション、画像分類、ポーズ推定、傾斜物体検出(OBB)をネイティブにサポートするマルチタスクフレームワークです。
- 使いやすさ: YOLOv8は、シンプルなPython APIと強力なCLIを備えた、効率化されたユーザーエクスペリエンスのために設計されています。充実したドキュメントと活発なコミュニティにより、開発者は簡単に始めることができます。
- 学習効率と低メモリ: YOLOv8は、RTDETRv2よりも大幅に高速に学習でき、必要なCUDAメモリもはるかに少なくなります。これにより、カスタム学習がより手軽に、費用対効果が高くなります。
- 優れたメンテナンス体制: Ultralyticsは、頻繁なアップデート、多数の統合、そしてシームレスなデータセット管理とトレーニングのためのUltralytics HUBのようなツールを備えた、堅牢なエコシステムを提供します。
弱点
- グローバルコンテキスト: 非常に効果的ですが、CNNベースのアーキテクチャは、極めて複雑なオブジェクト関係を持つ特定のニッチなシナリオでは、Transformerほど包括的にグローバルコンテキストを捉えられない場合があります。ただし、ほとんどのアプリケーションでは、そのパフォーマンスは十分以上です。
性能の直接対決:RTDETRv2 vs. YOLOv8
この性能比較は、2つのモデルの異なる設計思想を明確に示しています。RTDETRv2は最大の精度を追求していますが、YOLOv8は、さまざまなハードウェアにおいて、速度、精度、効率の優れたバランスを実現するように設計されています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
表から、いくつかの結論を導き出すことができます。
- 精度: 最大のRTDETRv2-xモデルは、mAPにおいてYOLOv8xをわずかに上回っています。ただし、全体的に見て、YOLOv8モデルはそのサイズに対して非常に競争力のある精度を提供します。例えば、YOLOv8lは、より少ないFLOPsでRTDETRv2-lとほぼ同等の精度を達成しています。
- GPU速度: YOLOv8 は大幅に高速であり、特に小型のバリアントで顕著です。YOLOv8n は最小の RTDETRv2 モデルよりも 3 倍以上高速であるため、高フレームレートのアプリケーションに最適です。最大の YOLOv8x モデルでさえ、RTDETRv2-x よりも高速です。
- CPU速度: YOLOv8はCPU推論において大きなアドバンテージを示しており、専用GPUのない多くのエッジデバイスや標準サーバーへのデプロイメントにとって重要な要素です。
- 効率性: YOLOv8モデルは、パラメータとFLOPsの点で、はるかに効率的です。YOLOv8xは、より少ないパラメータとFLOPsでRTDETRv2-xとほぼ同じ精度を達成し、優れたアーキテクチャ効率を示しています。
トレーニングとデプロイメント
トレーニングに関しては、その差は顕著です。RTDETRv2のトレーニングは、大量のVRAMを搭載したハイエンドGPUを必要とするリソース集約型のプロセスであり、かなりの時間がかかる場合があります。
対照的に、Ultralytics YOLOv8フレームワークは、トレーニング効率のために構築されています。より低いメモリ要件で迅速なカスタムトレーニングが可能になり、より広範な開発者がアクセスできるようになります。データ準備からモデルトレーニング、検証までの合理化されたワークフローは、大きな利点です。
デプロイメントにおいては、YOLOv8の汎用性が際立ちます。ONNX、TensorRT、CoreML、OpenVINOなどの多数の形式に簡単にエクスポートでき、クラウドサーバーから携帯電話、Raspberry Piなどの組み込みシステムまで、事実上すべてのプラットフォームで最適化されたパフォーマンスを保証します。
結論: どのモデルを選ぶべきか?
RTDETRv2は、自動運転や衛星画像解析など、複雑な物体検出タスクにおいて、精度をわずかでも向上させる必要のある、十分な計算リソースを持つ研究者やチームにとって強力なモデルです。
しかし、圧倒的多数の開発者、研究者、企業にとって、Ultralytics YOLOv8 が明確な勝者です。速度と精度の卓越したバランスを提供することで、はるかに実用的で効果的なソリューションを提供します。その主な利点である、複数のタスクにわたる汎用性、使いやすさ、優れたトレーニング効率、より低いリソース要件、包括的で十分にサポートされたエコシステムにより、堅牢な実世界のコンピュータビジョンアプリケーションを迅速かつ効率的に構築するための理想的な選択肢となっています。ハイエンドサーバーにデプロイする場合でも、低電力のエッジデバイスにデプロイする場合でも、YOLOv8 はスケーラブルで高性能、かつユーザーフレンドリーなソリューションを提供します。
その他のモデルを見る
他のモデルの調査にご興味があれば、モデル比較シリーズにある以下の比較もご覧ください。
- RT-DETR vs. YOLOv9
- YOLOv8 vs. YOLOv9
- YOLOv8 vs. YOLOv5
- EfficientDet vs. YOLOv8
- YOLOv8 vs. YOLOv7
- YOLOv10やYOLO11のような最新モデルをご覧ください。