YOLOXとRTDETRv2の比較:物体検出の技術比較
急速に進化するコンピュータ・ビジョンの世界では、プロジェクトに適したアーキテクチャを選択する際に、推論速度、精度、計算資源効率の間の複雑なトレードオフを乗り越える必要がある場合が多い。この比較では、物体検出に対する2つの異なるアプローチを検討する:高性能なアンカーフリーCNNであるYOLOXと、最先端のリアルタイム検出トランスフォーマーであるRTDETRv2です。
YOLOX がYOLO ファミリーのアンカーフリー手法への重要なシフトであったのに対して、RTDETRv2 は、Vision Transformers(ViT)のパワーを活用し、従来の畳み込みニューラルネットワーク(CNN)に挑戦し、グローバルなコンテキストをキャプチャします。本ガイドでは、これらのアーキテクチャ、性能指標、理想的な使用事例を分析し、十分な情報に基づいた意思決定を支援します。
性能分析:速度 vs. 精度
以下の性能指標は、これら2つのモデルの基本的な設計思想を示している。RTDETRv2は一般に、複雑なシーンを理解するために注意メカニズムを利用することで、より高い平均平均精度(mAP)を達成する。しかし、この精度はしばしば計算コストの増加を伴います。YOLOX、特にその小型のバリエーションでは、推論の待ち時間が少なく、標準的なハードウェアで効率的に実行できることを優先している。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
表に示すように、RTDETRv2-xは 54.3のmAP 最高の精度を達成し、最大のYOLOXバリエーションを凌駕しています。逆に、YOLOX-sは GPU ハードウェア上で優れた速度を示し、待ち時間の影響を受けやすいアプリケーションに非常に有効です。
YOLOX:アンカー不要の効率性
YOLOXは、アンカーレス機構に切り替え、検出ヘッドを切り離すことで、YOLO シリーズを改良しました。あらかじめ定義されたアンカーボックスの必要性をなくすことで、YOLOXはトレーニングプロセスを簡素化し、異なる物体形状に対する汎化性を向上させました。
著者Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun
Organization:Megvii
Date:2021-07-18
Arxiv:YOLOX: ExceedingYOLO Series in 2021.
主な強み
- アンカーフリー設計:アンカーのハイパーパラメータを手動で調整する必要がないため、設計の複雑さが軽減されます。
- 分離ヘッド:分類と回帰のタスクを分離することで、モデルの収束を早め、精度を向上させる。
- SimOTA:ポジティブサンプルを動的に割り当て、トレーニングの安定性を向上させる高度なラベル割り当て戦略。
弱点
- 老朽化したアーキテクチャ:2021年にリリースされ、以下のような新しいバージョンに見られる最新の最適化がいくつか欠けている。 YOLO11.
- 限られたタスクサポート:主に検出に重点を置いており、同じフレームワーク内でセグメンテーションやポーズ推定をネイティブにサポートしていない。
RTDETRv2:トランスフォーマーパワーハウス
RTDETRv2(Real-Time Detection Transformer version 2)は、リアルタイム物体検出にTransformerアーキテクチャを適用する際の飛躍を象徴する。効率的なハイブリッドエンコーダを導入することで、一般的にTransformerに関連する高い計算コストに対処している。
著者Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
Organization:Baidu
Date:2023-04-17 (v1), 2024-07 (v2)
Arxiv:RT-DETRv2:Bag-of-Freebiesによるベースラインの改善
主な強み
- グローバル・コンテキスト:自己注意メカニズムにより、モデルは画像内の離れたオブジェクト間の関係を理解することができ、複雑なシーンでの誤検出を減らすことができる。
- 高い精度:同規模のCNNベースのモデルと比較して、常に高いmAP スコアを達成。
- NMS 不要:トランスフォーマー・アーキテクチャーは、重複検出を自然に排除するため、NMS(Non-Maximum Suppression)の後処理が不要。
弱点
- メモリ強度:CNNに比べ、学習時にGPU VRAMを大幅に必要とするため、民生グレードのハードウェアでは学習が難しい。
- CPU レイテンシ: GPU用に最適化されているとはいえ、Transformerの演算は、YOLOX-Nanoのような軽量CNNに比べ、CPUエッジデバイスでは遅くなる可能性がある。
理想的なユースケース
これらのモデルの選択は、多くの場合、配備環境の特定の制約に依存する。
- 次のような場合は、YOLOXをお選びください:Raspberry Piや携帯電話のようなリソースに制約のあるエッジデバイスに導入する場合。また、対象物が硬く予測可能な工業用検査ラインにも最適です。
- 以下の場合は、RTDETRv2を選択してください:強力なGPU(NVIDIA T4やA100など)を利用でき、精度が最も重要な場合。RTDETRv2 は、混雑したシーン、自律走行、空からの監視など、コンテキストとオブジェクトの関係が重要な場面で威力を発揮します。
配備の最適化
選択したモデルにかかわらず、以下のような最適化フレームワークを利用する。 TensorRTや OpenVINOのような最適化フレームワークを利用することは、本番環境でリアルタイム速度を達成するために不可欠である。どちらのモデルも、FP16またはINT8への量子化によって大きな恩恵を受ける。
Ultralytics YOLO モデルが優れた選択肢である理由
YOLOXとRTDETRv2も素晴らしいですが、Ultralytics YOLO エコシステムはYOLO11が先導するUltralytics YOLOエコシステムは、開発者や研究者により総合的なソリューションを提供する。Ultralytics ユーザーエクスペリエンスを最優先し、最先端のAIがアクセスしやすく、効率的で、多用途であることを保証する。
1.比類なき多様性とエコシステム
YOLOXとは異なり、主に検出モデルである、 Ultralytics YOLO11は、インスタンス・セグメンテーション、ポーズ推定、分類、OBB(Oriented Bounding Box)検出を含む、幅広いコンピューター・ビジョン・タスクをネイティブにサポートしています。これにより、単一の統一されたAPIで複数の問題を解決することができます。
2.使いやすさとメンテナンス
Ultralytics パッケージは、複雑なMLOpsの世界を簡素化します。整備されたコードベース、頻繁なアップデート、豊富なドキュメントにより、ユーザーはインストールからトレーニングまで数分で行うことができます。
from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Train the model on a custom dataset
train_results = model.train(
data="coco8.yaml", # path to dataset YAML
epochs=100, # number of training epochs
imgsz=640, # training image size
device="cpu", # device to run on, i.e. device=0 or device=0,1,2,3 or device="cpu"
)
# Evaluate model performance on the validation set
metrics = model.val()
3.トレーニング効率とメモリーフットプリント
Ultralytics YOLO モデルの重要な利点の一つは、その効率性である。RTDETRv2のようなTransformerベースのモデルは、データを大量に消費し、メモリを大量に消費することが知られており、多くの場合、学習に大容量のVRAMを搭載したハイエンドGPUを必要とします。対照的に、Ultralytics YOLO モデルは、より少ないCUDA メモリを使用しながら、コンシューマーGPUを含む幅広いハードウェアで効果的にトレーニングできるように最適化されています。このトレーニング効率は、高性能AIへのアクセスを民主化します。
4.パフォーマンス・バランス
Ultralytics モデルは、スピードと精度の間の「スイートスポット」に当たるように設計されています。YOLO11 11は、小売店分析から安全監視まで、ほとんどの実世界のアプリケーションにおいて、ライブ・ビデオ・フィードに必要な驚異的な推論速度を維持しながら、Transformersに匹敵する精度を提供します。
結論
YOLOXとRTDETRv2はどちらもコンピュータビジョンの分野に大きく貢献してきました。YOLOXは、制約の厳しいレガシー組込みシステム向けの堅実な選択肢であり続ける一方、RTDETRv2はハイエンドハードウェア向けの精度の限界を押し広げています。
しかし、将来性があり、汎用性が高く、使いやすいソリューションを求めている開発者の大部分にとっては、Ultralyticsは非常に便利なソリューションです、 Ultralytics YOLO11は、最高の選択肢として際立っています。低メモリ要件、広範なタスクサポート、活発なコミュニティの組み合わせにより、あなたのプロジェクトは信頼性とパフォーマンスの基盤の上に構築されます。
その他の比較
モデル選びをさらに洗練させるために、関連する技術的な比較を検討してみてください: