RTDETRv2 vsYOLOv6.0:トランスフォーマーの高精度と産業レベルの高速処理の融合
現代の物体検出技術における課題は、処理速度と複雑なシーン理解のバランスにある。本技術比較では、2つの有力アーキテクチャを分析する:リアルタイム検出トランスフォーマーの高度な進化形であるRTDETRv2と、産業用スループット向けに最適化されたCNNベースの強力YOLOv6。
概要
RTDETRv2は、ビジョン・トランスフォーマーのグローバルコンテキスト機能を活かし、非最大抑制(NMS)なしでも複雑で雑然とした環境で優れた性能を発揮する一方、YOLOv6.YOLOv6、積極的な量子化とアーキテクチャ調整を通じて、GPU 上でのフレーム毎秒(FPS)の最大化に焦点を当てている。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
RTDETRv2: Transformerの進化
RTDETRv2(リアルタイム検出トランスフォーマー第2版)は、トランスフォーマーベースの検出をリアルタイムアプリケーションで実用化するための重要な前進を意味します。オリジナルの成功を基盤として構築された RT-DETRの成功を基盤とし、動的入力処理のための柔軟なグリッドベース手法を導入するとともに、収束速度を大幅に改善しています。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織:Baidu
- 日付:2023年4月17日(v1)、2024年7月(v2更新)
- リンク:Arxiv|GitHub
アーキテクチャとイノベーション
RTDETRv2の中核的な強みは、ハイブリッドエンコーダと不確実性を最小化するクエリ選択にある。長距離依存性に苦戦する従来のCNNとは異なり、トランスフォーマーバックボーンにより、モデルは画像の離れた部分に対して同時に「注意」を向けることが可能となる。
- グリッドボックスアンカー機構:標準的なDETRの学習済みオブジェクトクエリとは異なり、RTDETRv2はグリッドボックスを用いてクエリを初期化するため、最適化ランドスケープが平滑化され収束が高速化される。
- Bag-of-Freebies:v2アップデートでは、データ拡張戦略の改善や損失関数の最適化など、複数のトレーニング強化が組み込まれ、Smallモデルの精度が48.1mAPに向上しました。
- NMS:設計上、トランスフォーマーは一意のオブジェクト群を直接予測する。これにより、CNNベースモデルで遅延変動やハイパーパラメータ調整の煩わしさを招きがちな後処理ステップである非最大抑制(NMS)が不要となる。
トランスフォーマーの優位性
RTDETRv2のようなトランスフォーマーモデルは、物体が大きく重なり合う混雑したシーンで優れた性能を発揮する。これらは局所的ではなく画像全体の文脈をグローバルに処理するため、畳み込みベースの検出器がしばしば混乱する遮蔽問題の影響を受けにくい。
YOLOv6.0:産業用スペシャリスト
YOLOv6.YOLOv6(通称「YOLOv6 .0: A Full-Scale Reloading」)YOLOv6、ハードウェアが標準化され、スループットが最優先される産業用途向けに明示的に設計されています。美团(Meituan)のビジョンチームによって開発され、TensorRT NVIDIA T4 GPU上でのパフォーマンスを最優先しています。
技術アーキテクチャ
YOLOv6.YOLOv6、純粋なCNNベースのアーキテクチャを採用し、「EfficientRep」バックボーンの概念を洗練させている。
- RepBi-PAN:RepVGGスタイルのブロックで強化された双方向パス集約ネットワーク(Bi-PAN)。この構造により、モデルは学習時には複雑な分岐構造を持ちながら、推論時には単純で高速な3x3畳み込みのスタックへと融合する。
- アンカー補助学習(AAT):アンカーフリーの学習枠組みにアンカーベースのヒントを再導入することで学習を安定化させ、収束速度と最終精度をわずかに向上させるハイブリッド戦略。
- 量子化対応:本アーキテクチャは量子化に配慮した設計となっており、エッジGPUでの大幅な高速化を実現するためINT8精度への変換時に精度損失を最小限に抑えます。
重要な相違点とユースケース
1. グローバルな文脈とローカルな特徴
RTDETRv2は複雑なシーン理解において真価を発揮する。遠隔物体間の関係性識別や深刻な遮蔽処理(例:混雑したスタジアム内の人数カウント)を要するアプリケーションでは、トランスフォーマーの自己注意機構が明確な優位性を提供する。畳み込みに依存するYOLOv6.YOLOv6局所特徴検出に極めて有効だが、NMSトランスフォーマーと比較すると重なりが激しい状況ではやや苦戦する可能性がある。
2. ハードウェア依存性
YOLOv6.YOLOv6「ハードウェア対応」設計です。その印象的なFPS性能は、TensorRT NVIDIA (T4など)で最も発揮されます。汎用CPUやモバイルNPUでは、それらのプラットフォーム向けに最適化されたモデル(例: YOLOv10 や YOLO11といった、それらのプラットフォーム向けに最適化されたモデルと比較すると、その性能上の優位性は低下する可能性があります。一方、RTDETRv2は注意機構により計算負荷が高いものの、よりNMSパイプラインにより、プラットフォーム間で一貫した動作を提供します。
3. 訓練と配備
RTDETRv2NMS 排除することでデプロイメントパイプラインを簡素化します。これはモデルの出力結果が最終成果物となることを意味し、後処理コードでの閾値処理やソートが不要です。YOLOv6.YOLOv6標準的なNMS必要としますが、C++やCUDAで高度に最適化されていない場合、高FPSシナリオではボトルネックとなる可能性があります。
Ultralyticsの利点
RTDETRv2とYOLOv6.YOLOv6特定の分野で優れた機能を提供しますが、コードベースやAPI設計が異なるため、本番ワークフローへの統合は困難です。Ultralytics は、これらの強力なアーキテクチャを単一の合理化されたPython の下で統合します。
Ultralyticsを選ぶ理由
- 使いやすさ:単一の文字列を変更するだけでモデルアーキテクチャを切り替えられます。YOLOで使用するのと同じトレーニングコマンドでRT-DETR を学習させられます。
- メモリ要件: Ultralytics 、トレーニング中のVRAMオーバーヘッドが大幅に削減されます。これは特にRT-DETRのようなトランスフォーマーモデルにおいて重要であり、これらのモデルはCNNよりも本質的に多くのメモリを消費します。
- 汎用性: Ultralytics 検出機能を超えた拡張性を備えています。同一環境内で姿勢推定、インスタンスセグメンテーション、OBB(オブリビオンバウンドボックス)のモデルを容易に活用できます。
- 整備されたエコシステム:活発なコミュニティサポート、頻繁なアップデート、MLflowや TensorBoardなどのツールとのシームレスな連携の恩恵を受けられます。
コード例
Ultralytics Python を使えば、これらのモデルのテストは簡単です。このパッケージはデータ処理とモデルの読み込みを自動的に処理します。
from ultralytics import RTDETR, YOLO
# Load an RTDETR model (Standard or v2 via config)
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a YOLOv6 model
model_yolov6 = YOLO("yolov6l.pt")
# Run inference on an image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolov6 = model_yolov6("https://ultralytics.com/images/bus.jpg")
今後の展開: YOLO26
速度、精度、そして最新のアーキテクチャ特性の究極のバランスを求める開発者にとって、Ultralytics 最先端を体現する存在です。2026年1月にリリースされた本モデルは、トランスフォーマーとCNNの両世界の優れた側面を統合しています。
YOLO26は、RTDETRv2の簡潔さを継承しつつCNNの軽量効率性を備えた、ネイティブ NMS設計を導入。LLMトレーニングの安定性に着想を得たハイブリッド型新最適化アルゴリズムMuSGDを搭載し、ProgLoss + STALによる優れた小物体検出を実現。前世代比で最大43%CPU を達成。
トランスフォーマーのグローバルな精度を重視する場合でも、産業用CNNの生の処理能力を重視する場合でも、Ultralytics は、最小限の手間で最適なツールをタスクに展開することを可能にします。