コンテンツにスキップ

YOLO26 vs. RTDETRv2: 次世代リアルタイム検出器の技術比較

急速に進歩するコンピュータービジョンの分野において、適切な物体検出モデルを選択することは、速度、精度、デプロイの柔軟性のバランスを取る上で極めて重要です。このガイドでは、リアルタイム性能のために設計された2つの最先端アーキテクチャであるUltralytics YOLO26RTDETRv2の包括的な技術比較を提供します。

両モデルは最新のイノベーションを活用して高い精度を達成していますが、そのアーキテクチャの哲学、最適化戦略、およびデプロイの容易さにおいて大きく異なります。この分析では、それらのメトリクス、構造的差異、および理想的なユースケースを深く掘り下げ、コンピュータービジョンアプリケーションに関する情報に基づいた意思決定を支援します。

概要

Ultralytics YOLO26は、2026年1月にリリースされたYOLOファミリーの最新の進化形です。これは、Non-Maximum Suppressionのような後処理ステップの必要性を排除する、ネイティブなエンドツーエンド(NMSフリー)設計を導入しています。DFLの削除や新しいMuSGDオプティマイザーなどの最適化により、YOLO26はエッジデバイスで最大の効率を発揮するように設計されており、先行モデルよりも最大43%高速なCPU推論を提供します。これは統合されたUltralyticsエコシステムの一部であり、シームレスなトレーニング、検証、およびデプロイを保証します。

Baiduによって開発されたRTDETRv2(Real-Time Detection Transformer v2)は、ハイブリッドエンコーダーを改良し、柔軟な離散クエリ選択を導入することで、オリジナルのRT-DETRを改善しています。これは、トランスフォーマーの精度上の利点をリアルタイムシナリオにもたらすことに焦点を当てています。そのトランスフォーマーアーキテクチャによりNMSを排除する一方で、CNNベースまたはハイブリッド最適化されたYOLOモデルと比較して、通常より多くの計算リソースとGPUメモリを必要とします。

性能指標の比較

下の表は、COCOデータセットにおける両モデルの性能を強調しています。YOLO26は、特にパラメーター数と推論速度において優れた効率を示し、エッジAIアプリケーションに非常に適しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

パフォーマンスバランス

YOLO26は、はるかに少ないパラメーターとFLOPsでより高いmAPを達成します。例えば、YOLO26sRTDETRv2-s(48.6 vs 48.1 mAP)を上回り、T4 GPUで約2倍高速であり、パラメーター数も半分以下(9.5M vs 20M)です。

アーキテクチャの詳細

Ultralytics YOLO26

YOLO26は、デプロイを簡素化し、精度を犠牲にすることなく速度を向上させることを目的とした、いくつかの画期的なアーキテクチャ変更を導入しています。

  • エンドツーエンドNMSフリー: 従来のYOLOアーキテクチャからの大きな転換点として、YOLO26はネイティブにエンドツーエンドです。この設計により、Non-Maximum Suppression (NMS)の後処理ステップが不要になり、デプロイ時のレイテンシーと複雑さが軽減されます。このアプローチはYOLOv10で開拓され、ここで改良されました。
  • DFLの削除: Distribution Focal Lossを削除することで、モデル構造が簡素化されます。この変更は、エッジデバイスや低電力デバイスとの互換性を向上させる上で極めて重要であり、ONNXやCoreMLなどの形式へのエクスポートを効率化します。
  • MuSGDオプティマイザー: Moonshot AIのKimi K2のような大規模言語モデル(LLM)のトレーニングイノベーションに触発され、YOLO26はSGDとMuonを組み合わせたハイブリッドオプティマイザーを利用しています。これにより、より安定したトレーニングダイナミクスと高速な収束が実現します。
  • ProgLoss + STAL: Progressive Loss BalancingとSmall-Target-Aware Label Assignmentの組み合わせは、航空画像解析のようなコンピュータービジョンタスクにおける一般的な課題である小物体検出を大幅に改善します。

YOLO26についてさらに詳しく

RTDETRv2

RTDETRv2は、CNNベースのYOLOの優位性に挑戦するために設計されたトランスフォーマーベースの検出器であるオリジナルのRT-DETRの基盤の上に構築されています。

  • Transformer Backbone: NMSなしでオブジェクトクエリを本質的に処理するTransformerエンコーダー・デコーダーアーキテクチャを採用しています。
  • Flexible Discrete Queries: 前身と比較して、クエリ選択のためのより柔軟なメカニズムを導入し、異なるスケールでの適応性を向上させることを目指しています。
  • Hybrid Encoder: マルチスケール特徴を処理するためにハイブリッドエンコーダーを採用し、自己注意の計算コストとグローバルコンテキストの必要性のバランスを取ろうと試みています。

使いやすさとエコシステム

最も重要な差別化要因の1つは、モデルを取り巻くエコシステムです。

Ultralytics YOLO26は、成熟した広範なUltralyticsエコシステムの恩恵を受けています。ユーザーは、detectionsegmentationclassificationpose estimation、およびOriented Bounding Box (OBB)を含む多様なタスクにおいて、トレーニング、検証、デプロイメントのための統一されたAPIを活用できます。Ultralytics PlatformWeights & Biasesのようなツールとのシームレスな統合により、実験の追跡とモデル管理が容易になります。

RTDETRv2は強力であるものの、多くの場合、より複雑なセットアップと構成を必要とします。特定のトランスフォーマーライブラリへの依存や高いメモリオーバーヘッドにより、「プラグアンドプレイ」ソリューションを求める開発者にとってはアクセスしにくいものとなる可能性があります。ドキュメントとコミュニティサポートは成長しているものの、Ultralyticsモデルで利用できる堅牢なリソースと比較すると、一般的に包括性に劣ります。

トレーニング効率とリソース

メモリ要件: RTDETRv2のようなトランスフォーマーベースのモデルは、非常に多くのメモリを消費することで知られています。これらは通常、YOLO26のCNN最適化アーキテクチャと比較して、トレーニングおよび推論中に大幅に多くのCUDAメモリを必要とします。このため、YOLO26は、コンシューマーグレードのGPUでのトレーニングや、リソースが限られたハードウェアへのデプロイにおいて、より実用的な選択肢となります。

トレーニング速度: MuSGD Optimizerと効率的なアーキテクチャのおかげで、YOLO26はより速い収束率を提供します。これにより、医療画像データセット製造品質管理システムに取り組んでいるかどうかにかかわらず、カスタムモデルのトレーニングに関連する時間と計算コストが削減されます。

コード例:YOLO26のトレーニング

Ultralytics Python APIを使用すれば、YOLO26のトレーニングは簡単です。

from ultralytics import YOLO

# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

ユースケースの推奨事項

YOLO26を選択する場合:

  • エッジデプロイメントが優先事項: CPU速度とモデルサイズが重要な制約となるモバイルデバイス(iOS/Android)、Raspberry Pi、または組み込みシステムでモデルを実行する必要があります。ここで43%高速なCPU推論は画期的なものです。
  • 多様性が求められる: プロジェクトに複数のタスクが含まれる場合。YOLO26は、主にdetectionに焦点を当てたRTDETRv2とは異なり、detection、segmentation、pose、およびobbをサポートする統合モデルファミリーです。
  • 迅速な開発: 豊富なドキュメント、すぐに使える事前学習済み重み、および活発なコミュニティサポートを備えた合理化されたユーザーエクスペリエンスを望む場合。
  • 小物体検出: アプリケーションが、ProgLossとSTALが明確な利点を提供するドローンベースの農業監視などの小物体の検出を伴う場合。

RTDETRv2を選択する場合:

  • 研究目的: 学術研究のためにトランスフォーマーベースのアーキテクチャを具体的に調査している場合。
  • 特定のハードウェア: メモリオーバーヘッドがそれほど懸念されず、特にトランスフォーマーベースのアプローチが必要な、ハイエンドのサーバーグレードGPU(A100など)にアクセスできる場合。

結論

RTDETRv2はリアルタイムdetectionにおけるトランスフォーマーの可能性を示していますが、Ultralytics YOLO26は、実用的で現実世界でのデプロイメントにおいて依然として優れた選択肢です。エンドツーエンドのNMS-free inference、大幅に低いリソース要件、および強力なUltralyticsエコシステムへの統合の組み合わせにより、開発者やエンジニアにとって頼りになるソリューションとなっています。スマートシティインフラ、自律型ロボット、またはモバイルアプリを構築しているかどうかにかかわらず、YOLO26は、速度、精度、使いやすさの最適なバランスを提供します。

Ultralyticsファミリーの他のモデルの探索に興味があるユーザーにとって、YOLO11は、多くのコンピュータービジョンタスクに堅牢なベースラインを提供する、完全にサポートされた強力な代替手段であり続けています。

モデルの詳細

YOLO26

RTDETRv2

  • 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
  • 組織: Baidu
  • 日付: 2023-04-17
  • Arxiv:2304.08069
  • GitHub:RT-DETR Repository

コメント