YOLO26対RTDETRv2:最新の物体検出アーキテクチャの包括的比較
コンピュータビジョンの領域は絶えず進化しており、実務者は「高度に最適化された畳み込みニューラルネットワーク(CNN)を活用すべきか、それとも新しいTransformerベースのアーキテクチャを採用すべきか」という重要な選択を迫られています。この分野における2つの有力な候補が、最先端のUltralytics YOLO26とBaiduのRTDETRv2です。どちらのモデルもリアルタイム物体検出の限界を押し広げていますが、その根底にあるアーキテクチャの哲学は根本的に異なります。
本ガイドでは、両モデルの構造、パフォーマンス指標、理想的なユースケースを技術的に深く掘り下げ、次のコンピュータビジョンプロジェクトの最適な基盤を選択するための情報を提供します。
Ultralytics YOLO26:エッジファーストVision AIの頂点
Ultralyticsによって開発されたYOLO26は、YOLOファミリーにとって大きな世代交代を象徴するものです。2026年1月にリリースされたこのモデルは、速度、精度、そしてクラウドやエッジ環境全体でのシームレスなデプロイメントを念頭に設計されています。
- 著者: Glenn Jocher および Jing Qiu
- 組織: Ultralytics
- 日付: 2026-01-14
- GitHub: Ultralytics リポジトリ
- ドキュメント: YOLO26 公式ドキュメント
アーキテクチャの革新と強み
YOLO26には、Transformerモデルだけでなく、YOLO11のような以前のバージョンとも差別化を図るいくつかの画期的な機能が導入されています。
- エンドツーエンドのNMSフリー設計: YOLO26は、後処理における従来の非最大値抑制(NMS)を排除しました。YOLOv10などのモデルで先駆的に採用されたこのネイティブなエンドツーエンドのアプローチにより、推論レイテンシの変動が低減され、特にエッジハードウェアにおけるデプロイメントロジックが簡素化されます。
- 最大43%高速なCPU推論: 分散型AIへのニーズの高まりを受け、YOLO26はRaspberry Piのように専用GPUを持たないデバイス向けに高度に最適化されています。
- DFLの削除: Distribution Focal Loss(DFL)を取り除くことで、YOLO26はエクスポートプロセスを簡素化し、低電力のエッジデバイスやマイクロコントローラとの互換性を大幅に向上させています。
- MuSGDオプティマイザ: 大規模言語モデル(LLM)のトレーニングとコンピュータビジョンの溝を埋めるため、YOLO26はMuSGDオプティマイザを採用しています。これはSGDとMuonのハイブリッドであり、Moonshot AIのKimi K2に触発されたもので、トレーニングの堅牢な安定性と高速な収束を実現します。
- ProgLoss + STAL: 高度な損失関数は、小さな物体の認識において顕著な改善をもたらします。これは航空画像解析やモノのインターネット(IoT)センサーに依存する産業にとって不可欠です。
ビジョンタスク全般における多様性
バウンディングボックスのみに限定されるモデルとは異なり、YOLO26は多用途で強力なツールです。インスタンスセグメンテーション用のセマンティックセグメンテーション損失とマルチスケールproto、姿勢推定用のResidual Log-Likelihood Estimation (RLE)、回転バウンディングボックス(OBB)タスクにおける境界問題を解決するための特殊な角度損失など、タスク固有の改善が組み込まれています。
RTDETRv2:リアルタイム検出Transformerの強化
Baiduの研究者によって開発されたRTDETRv2は、オリジナルのRT-DETRフレームワークをベースにしています。これは、Detection Transformer(DETR)がリアルタイムシナリオにおいて、高度に最適化されたCNNの速度と精度に対抗し、時にはそれを上回る可能性があることを証明することを目的としています。
- 著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 組織: Baidu
- 日付: 2024-07-24
- Arxiv: 2407.17140
- GitHub: RT-DETRv2 PyTorch実装
- ドキュメント: RT-DETRv2 README
アーキテクチャと機能
RTDETRv2はTransformerベースのアーキテクチャを採用しており、セルフアテンションメカニズムを活用してグローバルなコンテキストを理解することで、CNNとは本質的に異なる画像処理を行います。
- Bag-of-Freebies: v2イテレーションでは、推論コストを上げることなくベースラインのパフォーマンスを向上させる一連の最適化されたトレーニング手法(bag-of-freebies)が導入されています。
- グローバルコンテキストの認識: Transformerのアテンションレイヤーにより、RTDETRv2は、重なり合ったり遮蔽されたりしている物体を区別するためにグローバルなコンテキストが必要な複雑なシーンを理解することに優れています。
Transformerモデルの制限
Transformerベースの検出モデルは強力ですが、実際のデプロイメントにおいては課題に直面することがあります。一般的に、効率的なCNNと比較してトレーニング中のCUDAメモリ要件が高くなります。さらに、アテンションレイヤーに必要な複雑な演算のため、多様なエッジ環境への統合が困難な場合があり、リソース制約のある環境ではYOLO26の方がはるかに魅力的です。
パフォーマンスの比較
これらのモデルを直接比較すると、最新のCNN最適化の具体的な利点が明らかになります。以下の表は、標準的なベンチマークにおけるパフォーマンスを示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
示された通り、YOLO26はすべてのサイズバリアントにおいて一貫してRTDETRv2を上回っています。YOLO26xは、RTDETRv2-x(54.3 mAP、15.03 ms、76Mパラメータ)と比較して、より低いレイテンシ(TensorRTで11.8 ms)と大幅に少ないパラメータ数(55.7M)で、57.5 mAPという優れた結果を達成しています。
ユースケースと推奨事項
YOLO26とRT-DETRの選択は、特定のプロジェクト要件、デプロイメントの制約、およびエコシステムの好みに依存します。
YOLO26を選ぶべき場合
YOLO26は以下の場合に強力な選択肢となります:
- NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
- 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。
RT-DETRを選ぶべき場面
RT-DETRは次の場合に推奨されます:
- Transformerベースの検出研究: NMSなしでのエンドツーエンドの物体検出に向けて、アテンションメカニズムとTransformerアーキテクチャを研究するプロジェクト。
- レイテンシを柔軟に調整できる高精度シナリオ: 検出精度が最優先であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体の検出: 主に中型から大型の物体が含まれるシーン。Transformerのグローバルアテンションメカニズムが自然な利点をもたらします。
Ultralyticsの利点
適切な機械学習アーキテクチャを選択することは方程式の一部に過ぎません。周囲のエコシステムが、チームがプロトタイプからプロダクションへどれだけ迅速に移行できるかを左右します。
使いやすさとトレーニング効率
Ultralytics Python APIは、非常に合理化された体験を提供します。複雑なモデルのトレーニングに、冗長なボイラープレートコードは不要です。さらに、YOLO26のトレーニング効率は大幅に高く、RTDETRv2のメモリを大量に消費するアテンションメカニズムよりもはるかに少ないGPU VRAMを使用するため、消費者向けのハードウェアでもより大きなバッチサイズを扱うことができます。
from ultralytics import YOLO
# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Execute high-speed, NMS-free inference
predictions = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for seamless deployment
model.export(format="onnx")十分に維持されたエコシステム
Ultralyticsモデルを使用することで、開発者は、Weights & BiasesやComet MLなどの最新のトラッキングツールとネイティブに統合できる、積極的に維持されたフレームワークにアクセスできます。ノーコードアプローチを好む方には、Ultralytics Platformがクラウドトレーニング、データセット管理、ワンクリックデプロイメントを容易にします。
パフォーマンスのバランス
YOLO26は推論速度と精度の比類なきバランスを実現しています。NMSの削除とMuSGDオプティマイザの組み合わせにより、小さな物体に対しても非常に正確(ProgLoss + STALのおかげ)で、かつ本番環境で驚異的な速度を誇るモデルをデプロイできるため、ほぼすべての最新のコンピュータビジョンアプリケーションにおいて優れた選択肢となります。
エコシステム内の他のモデル
YOLO26とRTDETRv2はリアルタイム検出の最先端をカバーしていますが、既存のパイプラインを維持している開発者や、異なる効率曲線を検討している開発者は、確立されたエンタープライズ環境向けにYOLOv8を検討したり、EfficientDetのような他のアーキテクチャを探索したりするかもしれません。しかし、新しい取り組みであれば、YOLO26を決定的な推奨事項として挙げます。