RTDETRv2 vs. YOLO26: リアルタイム物体検出におけるトランスフォーマー vs 次世代CNN
リアルタイム物体検出の分野は絶えず進化を続けており、現在2つの主要なアーキテクチャが主導権を争っている:トランスフォーマーベースのRTDETRv2とCNNベースのYOLO26である。両モデルとも物体を迅速かつ正確に検出するという根本的な課題の解決を目指しているが、問題へのアプローチにおいて明確に異なる哲学とアーキテクチャの選択を示している。
このガイドでは、両モデルの技術仕様、パフォーマンス指標、および理想的なユースケースについて深く掘り下げ、お客様の導入ニーズに最適なアーキテクチャを選択するお手伝いをします。
RTDETRv2 概要
RTDETRv2(リアルタイム検出トランスフォーマーv2)は、DETR(検出トランスフォーマー)ファミリーの進化形であり、視覚トランスフォーマーの性能をリアルタイムアプリケーションにもたらすことを目指しています。RT-DETRを基盤としつつ、このバージョンでは柔軟性と学習収束性に重点を置いています。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織:Baidu
- 日付: 2024-07-24 (v2リリース)
- 論文:RT-DETRv2: リアルタイム検出トランスフォーマーのためのBag-of-Freebiesを用いた改良ベースライン
- GitHub:RT-DETR Repository
RTDETRv2は、CNNバックボーンとトランスフォーマー型エンコーダ-デコーダを組み合わせたハイブリッドアーキテクチャを採用している。その主要な特徴は「Bag-of-Freebies」であり、従来のトランスフォーマーと比較して収束速度を向上させる改良された学習戦略とアーキテクチャ調整を含む。しかし、先行モデルと同様に、注意機構に内在する効率的な行列乗算のためにGPU に大きく依存している。
YOLO26の概要
YOLO26は、Ultralytics 開発したUltralytics Only Look Onceシリーズの最新の飛躍を体現し、エッジデバイスにおける効率性の限界をUltralytics 畳み込みニューラルネットワーク(CNN)の速度的優位性を維持しつつ、ネイティブでエンドツーエンドNMSを採用することで、従来世代からの大きな転換点を示しています。
- 著者: Glenn Jocher、Jing Qiu
- 組織:Ultralytics
- 日付: 2026-01-14
- ドキュメント:YOLO26 ドキュメント
- GitHub:Ultralytics リポジトリ
YOLO26は「エッジファースト」展開を目的に設計されています。LLMトレーニングの安定性に着想を得たMuSGDオプティマイザを導入し、モデルエクスポートを効率化するため分布焦点損失(DFL)を削除しました。これらの変更により、トランスフォーマーがしばしば苦戦CPUにおいて、高い精度と並外れた高速性を両立するモデルが実現しました。
技術比較
以下の表は、RTDETRv2とYOLO26の性能差を比較したものです。CPU 速度とパラメータ効率における顕著な差異にご注目ください。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
アーキテクチャと設計
これらのモデルが視覚データを処理する方法に根本的な違いがある。
RTDETRv2はアテンション機構に依存している。これによりモデルはグローバルコンテキスト(離れたピクセル間の関係性)を捕捉できるが、画像サイズに比例した二次的な計算コストが発生する。このため高解像度推論は計算負荷が高くなる。訓練時に二部マッチングを用いることで非最大抑制(NMS)が不要となる点は、新たなYOLO26と共通する特徴である。
YOLO26は高度なCNNアーキテクチャを活用しつつ、画期的なエンドツーエンドNMSを導入しています。従来のYOLOでは重複バウンディングボックスを除去NMS が必要でしたが、YOLO26はDETRと同様にこのステップをネイティブに排除。トランスフォーマーの重い計算オーバーヘッドを伴いません。 さらに、分布焦点損失(DFL)の排除により、ONNX TensorRT ONNX 形式へのエクスポートが容易になり、低電力エッジアクセラレータとの幅広い互換性が確保されています。
トレーニング効率と最適化
トレーニング効率は、カスタムデータセットで反復作業を行うチームにとって重要な要素である。
- YOLO26は、SGD 融合したハイブリッド最適化手法「MuSGD」を導入します。大規模言語モデル(Moonshot AIのKimi K2など)の訓練における革新に着想を得たこの最適化手法は、視覚タスクにおいて安定性の向上と収束速度の高速化を実現します。ProgLoss(Progressive Loss)およびSTAL(Self-Taught Anchor Learning)と組み合わせることで、YOLO26は高速なトレーニング時間と低メモリ使用を実現し、コンシューマー向けGPUでのより大きなバッチサイズを可能にします。
- RTDETRv2は一般的に、注意層を安定させるためによりGPU (VRAM)と長い学習スケジュールを必要とする。トランスフォーマーはデータ消費量が非常に大きいことで知られており、CNNと比較すると収束が遅くなる傾向がある。
メモリ効率
YOLO26のCNNベースのアーキテクチャは、トランスフォーマーベースの代替手法に比べてメモリ効率が大幅に向上しています。これにより、VRAMが限られたGPU(RTX 3060や4060など)でより大規模なモデルを学習させたり、より安定した勾配を得るために大きなバッチサイズを使用したりすることが可能になります。
実世界アプリケーション分析
これらのモデル間の選択は、特定のハードウェア制約と精度要件に大きく依存します。
YOLO26が優れている点
1. エッジAIとIoT: 最大43%CPU を実現するYOLO26は、エッジ分野における絶対的な王者です。Raspberry Pi、NVIDIA Nano、またはスマートフォン上で動作するアプリケーションでは、RTDETRv2のトランスフォーマーブロックのオーバーヘッドがしばしば致命的となります。YOLO26n(Nano)は、トランスフォーマーがミリ秒単位ではなく秒単位で遅延を計測するCPU環境において、リアルタイム速度を提供します。
2. ロボティクスとナビゲーション: YOLO26のNMS設計はロボティクスにおいて極めて重要である。NMS ステップを排除することで、YOLO26は遅延のばらつきを低減し、高速ナビゲーションや操作タスクに必要な一貫性のある決定論的な推論時間を提供する。
3. 多様なビジョンタスク: YOLO26は単なる検出器ではありません。Ultralytics は、以下の一連のタスクをネイティブにサポートします:
- インスタンスセグメンテーション:ピクセルレベルでの物体理解のため。
- 姿勢推定:高精度キーポイントのための残差対数尤度推定(RLE)の活用
- オリエンテッド・バウンディング・ボックス(OBB):船舶や航空機などの回転した物体を検出するための特殊な角度損失関数。
RTDETRv2の立ち位置
RTDETRv2は主に研究目的のアーキテクチャです。以下のシナリオに最適です:
- グローバルな文脈は、局所的な特徴(例:特定の医療画像処理タスク)よりも重要である。
- ハードウェアの制約は存在せず、ハイエンドのサーバーグレードGPU(NVIDIA )が導入可能です。
- トランスフォーマーの特定の誘導バイアスが、ニッチな研究課題に必要とされる。
ただし、本番環境においては、Ultralytics と比較して成熟したデプロイメント環境が整っていないことが、Ultralytics 摩擦を生む。
Ultralyticsの利点
生データを超えた指標において、ソフトウェアエコシステムはプロジェクトの成功に重要な役割を果たす。YOLO26は堅牢なUltralytics 恩恵を受け、これにより機械学習運用(MLOps)ライフサイクル全体が効率化される。
- 使いやすさ:「ゼロからヒーローへ」の体験とは、10行未満のPython モデルの読み込み、トレーニング、デプロイを完了できることを意味します。
- よく整備されたエコシステム:数か月間更新されない研究リポジトリとは異なり、Ultralytics 頻繁なパッチUltralytics 、活発なコミュニティサポート、そして充実したドキュメントUltralytics 。
- デプロイの柔軟性: CoreML上での実行、TF.jsによるウェブブラウザ上での実行、エッジTPU上での実行など、どのような環境でも、組み込みのエクスポートモードによりシームレスな移行が可能です。
コード例: YOLO26の始め方
以下の例は、Ultralytics Python YOLO26モデルを訓練することがいかに簡単かを示しています。この簡便さは、研究ベースのトランスフォーマーモデルで必要とされる複雑な設定ファイルとは対照的です。
from ultralytics import YOLO
# Load the YOLO26 Nano model (efficient for edge devices)
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
# NMS-free prediction ensures low latency
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for broad deployment compatibility
path = model.export(format="onnx")
結論
RTDETRv2は検出におけるトランスフォーマーの学術的潜在能力を示す一方、Ultralytics 現実世界のアプリケーションの大多数に対して、より実用的で効率的かつ汎用性の高いソリューションを提供する。
エンドツーエンドNMSアーキテクチャ、MuSGD最適化、優れたエッジ性能という独自の組み合わせにより、YOLO26は2026年を見据えた将来性のある選択肢です。スマートカメラシステム、自律ドローン、高スループット動画解析パイプラインのいずれを構築する場合でも、YOLO26はプロトタイプから本番環境への移行を確信を持って進めるために必要な速度と精度のバランスを提供します。
他の最先端オプションに関心のある開発者向けに、Ultralytics は以下もサポートしています YOLO11 およびオリジナルの RT-DETRをサポートしており、統一されたAPI内で容易にベンチマークを実施できます。