コンテンツにスキップ

RTDETRv2 vs. YOLO26: 次世代オブジェクト検出器の技術比較

コンピュータビジョンプロジェクトに適したオブジェクト検出モデルを選択するには、アーキテクチャの選択、速度と精度のトレードオフ、デプロイの制約といった複雑な状況を乗り越える必要があります。このガイドでは、Baiduのリアルタイム検出TransformerであるRTDETRv2と、UltralyticsのYOLOシリーズの最新進化形であるYOLO26の詳細な技術比較を提供します。情報に基づいた決定を下せるよう、両者のアーキテクチャ、パフォーマンスベンチマーク、理想的なユースケースを分析します。

概要

両モデルは、2026年現在、リアルタイム検出の最先端を代表しています。RTDETRv2は、Transformerベースの検出の限界を押し広げ続け、特に複雑なシーンにおいて、そのアテンションメカニズムを通じて優れた精度を提供します。2026年1月にリリースされたYOLO26は、ネイティブなエンドツーエンドのNMSフリー設計を採用することでYOLOの系譜に革命をもたらし、CPUでの推論速度を大幅に向上させ、デプロイを簡素化しつつ、最先端の精度を維持しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

RTDETRv2: リアルタイムTransformerの洗練

RTDETRv2は、リアルタイムシナリオでYOLOモデルに真に挑戦した初のTransformerベース検出器であるオリジナルのRT-DETRの成功を基盤としています。Baiduによって開発され、Vision Transformer (ViT) アーキテクチャを実用的な速度と精度に最適化することに焦点を当てています。

アーキテクチャのハイライト

RTDETRv2の核となる革新は、その柔軟なハイブリッドエンコーダーと効率的なクエリ選択にあります。従来のCNNベースの検出器とは異なり、自己アテンションメカニズムを利用してグローバルなコンテキストを捉え、これは複雑な関係性やオクルージョンを持つオブジェクトの検出に特に有益です。v2アップデートでは、「Bag-of-Freebies」が導入され、推論コストを増やすことなくトレーニングの安定性とパフォーマンスを向上させます。クエリに対して離散サンプリング戦略を採用することで、モデルは最も関連性の高い画像領域に焦点を当てることができます。

性能とトレーニング

RTDETRv2は精度に優れており、高精度が要求されるシナリオでは、しばしば前世代のYOLOを上回ります。しかし、これにはコストが伴います。Transformerアーキテクチャは一般的に、CNNと比較して、トレーニング中により多くのGPUメモリと計算量を必要とします。高性能GPU(NVIDIA T4など)では推論速度が「リアルタイム」である一方、Transformer演算が畳み込み演算ほど最適化されていないCPUのみのデバイスやエッジハードウェアでは苦戦する可能性があります。

主要著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
組織:Baidu
日付: 2024年7月 (Arxiv v2)
リンク:Arxiv | GitHub

RT-DETRの詳細について。

YOLO26: エンドツーエンドのエッジ向け高性能モデル

YOLO26は、Ultralyticsにとってアーキテクチャの大きな転換を意味します。従来のNon-Maximum Suppression (NMS)への依存を捨て、ネイティブなエンドツーエンドアーキテクチャを採用しています。この設計選択は、オブジェクト検出デプロイにおける長年のボトルネックの一つである、後処理のレイテンシと複雑さに対処します。

アーキテクチャの革新

YOLO26のアーキテクチャは、効率性と汎用性を追求して合理化されています。

  • エンドツーエンドのNMSフリー: YOLO26は、トレーニング中に1対1のマッチングを予測することで、NMS推論ステップの必要性を排除します。これにより、レイテンシの予測不能性が低減され、特にFPGAやNPUのような非標準ハードウェアでのデプロイメントパイプラインが簡素化されます。
  • DFLの削除: Distribution Focal Loss (DFL)の削除により、出力ヘッドが簡素化され、ONNXやCoreMLのような形式へのモデルのエクスポートが容易になるとともに、8ビット量子化との互換性が向上します。
  • MuSGDオプティマイザ: Moonshot AIのKimi K2のような大規模言語モデル(LLM)トレーニングにおける革新に触発され、YOLO26はSGDとMuonを組み合わせたハイブリッドオプティマイザを利用しています。これにより、より速い収束とより安定したトレーニング実行が実現します。
  • ProgLoss + STAL: 新しい損失関数であるプログレッシブ損失バランシングと小ターゲット認識ラベル割り当ては、シングルステージ検出器の伝統的な弱点である小オブジェクトdetectを特にターゲットとしています。

パフォーマンスと汎用性

YOLO26は、速度と精度の魅力的なバランスを提供します。YOLO26n(nano)モデルは、以前のイテレーションと比較してCPUで最大43%高速に動作し、モバイルおよびIoTアプリケーションにとって最高の選択肢となっています。さらに、YOLO26は統合されたモデルファミリーであり、ユーザーは同じAPIを使用してオブジェクト検出インスタンスセグメンテーション姿勢推定分類、およびOriented Object Detection (OBB)タスク間をシームレスに切り替えることができます。

主要著者: Glenn Jocher and Jing Qiu
組織:Ultralytics
日付: 2026年1月14日
リンク:Ultralytics Docs | GitHub

YOLO26についてさらに詳しく

詳細な比較

1. エッジデバイスでの速度と効率

これが最も明確な差別化要因です。RTDETRv2は、GPUではうまくスケールするもののCPUのボトルネックになる可能性のある行列乗算に大きく依存しています。YOLO26は、CNNベースのバックボーンとNMSフリーのヘッドにより、リソース制約のあるデバイスで著しく効率的です。例えば、YOLO26nモデルは標準的なCPUで38.9 msのレイテンシを達成しますが、トランスフォーマーベースのモデルは専用のアクセラレーションなしではリアルタイム性能を達成するのに苦労することが多いです。

エッジ展開

Raspberry Pi、Jetson Nano、またはモバイルデバイスへのデプロイには、YOLO26が一般的に優れた選択肢となります。これは、その最適化された操作セットと低いメモリフットプリントによるものです。DFLの削除により、TFLiteおよびCoreMLへのエクスポートプロセスがさらに簡素化されます。

2. トレーニングリソース要件

Ultralyticsモデルは、その効率的なトレーニングループで知られています。YOLO26は、RTDETRv2と比較してトレーニングに必要なVRAMが大幅に少なくて済みます。トランスフォーマーは通常、収束するために大きなバッチサイズと広範なトレーニングスケジュールを必要とし、これはより高いクラウドコンピューティングコストにつながります。YOLO26のMuSGDオプティマイザは、このプロセスをさらに加速し、シングルGPUセットアップでも研究者がより迅速に反復できるようにします。

3. タスクの汎用性

RTDETRv2が主にオブジェクト検出に焦点を当てているのに対し、YOLO26エコシステムは本質的にマルチタスクです。

  • RTDETRv2: バウンディングボックス検出に優れています。
  • YOLO26: Detection、Segmentation、Pose、OBB、およびClassificationをネイティブにサポートしています。これにより、YOLO26は、ソフトウェアスタック全体を変更することなく、バウンディングボックスの検出からマスクのセグメンテーションやキーポイントの推定に切り替える必要がある開発者にとって、「スイスアーミーナイフ」となります。

4. エコシステムと使いやすさ

Ultralyticsエコシステムは、開発者体験において大きな利点を提供します。統合されたpythonパッケージ、豊富なドキュメント、およびWeights & BiasesRoboflowのようなツールとのシームレスな統合により、YOLO26モデルをデータセットからデプロイメントまで導入するのは簡単です。RTDETRv2は強力ですが、より多くの手動設定が必要になることが多く、トランスフォーマーアーキテクチャにあまり馴染みのないユーザーにとっては学習曲線が急です。

コード例: YOLO26の実行

Ultralytics APIのシンプルさにより、即座のテストと統合が可能です。

from ultralytics import YOLO

# Load a pretrained YOLO26s model
model = YOLO("yolo26s.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

結論

どちらのモデルもコンピュータビジョンにおける並外れた成果です。RTDETRv2は、複雑なシーンでの最高の精度が最重要であり、トランスフォーマーの計算コストが許容できるハイエンドGPU展開の有力候補です。

しかし、YOLO26は、ほとんどの現実世界のアプリケーションにとって推奨されるオールラウンダーです。そのNMSフリーのエンドツーエンド設計、優れたCPU性能、低いメモリ要件、および複数のビジョンタスクのサポートは、スケーラブルで効率的かつ多用途なAIシステムを構築するエンジニアにとって実用的な選択肢となります。サーバーファームにデプロイする場合でも、スマートカメラにデプロイする場合でも、YOLO26は打ち破るのが難しいバランスの取れたパフォーマンスプロファイルを提供します。

検討すべきその他のモデル

  • YOLO11: YOLO26の信頼できる前身であり、今でも広く使用され、完全にサポートされています。
  • YOLO-World: トレーニングセットに存在しないオブジェクトをdetectする必要があるオープンボキャブラリ検出に最適です。
  • FastSAM: リアルタイム速度でsegment-anything機能が特に必要な場合。

コメント