YOLO26 vs RTDETRv2: 現代的な物体検出アーキテクチャの包括的比較

コンピュータビジョンの分野は絶えず進化を続けており、実践者には重大な選択が迫られている：高度に最適化された畳み込みニューラルネットワーク（CNN）を活用すべきか、それとも新たなトランスフォーマーベースのアーキテクチャを採用すべきか？この分野で特に注目される2つの有力候補が、最先端Ultralytics YOLO26とBaiduのRTDETRv2である。両モデルともリアルタイム物体検出の限界を押し広げているが、根本的に異なるアーキテクチャ哲学に基づいている。

このガイドでは、両モデルの構造、性能指標、最適なユースケースを比較し、詳細な技術的分析を通じて、次回のコンピュータビジョンプロジェクトに最適な基盤を選択するお手伝いをします。

Ultralytics ：エッジファースト視覚AIの頂点

Ultralyticsによって開発されたYOLO26は、YOLOファミリーにとって世代を超えた大きな飛躍を意味します。2026年1月にリリースされ、速度、精度、およびクラウドとエッジ環境全体でのシームレスなデプロイメントのために明示的に設計されています。

著者: Glenn Jocher、Jing Qiu
組織:Ultralytics
日付: 2026-01-14
GitHub:Ultralytics リポジトリ
ドキュメント:YOLO26 公式ドキュメント

アーキテクチャの革新と強み

YOLO26は、Transformerモデルだけでなく、以前のバージョンである YOLO11とも異なる画期的な機能をいくつか導入しています：

エンドツーエンドのNMSフリー設計: YOLO26は後処理における従来のNon-Maximum Suppression (NMS)を排除します。YOLOv10のようなモデルで開拓されたこのネイティブなエンドツーエンドアプローチは、推論レイテンシのばらつきを低減し、特にエッジハードウェアでのデプロイメントロジックを簡素化します。
最大43%高速なCPU推論: 分散型AIの需要の高まりを認識し、YOLO26はRaspberry Piのような専用GPUを持たないデバイス向けに高度に最適化されています。
DFLの削除: Distribution Focal Loss (DFL)を排除することで、YOLO26は簡素化されたエクスポートプロセスと、低電力エッジデバイスおよびマイクロコントローラとの互換性の飛躍的な向上を提供します。
MuSGDオプティマイザ: 大規模言語モデル（LLM）トレーニングとコンピュータービジョンの間のギャップを埋めるため、YOLO26はMuSGDオプティマイザを利用しています。Moonshot AIのKimi K2に触発されたSGDとMuonのこのハイブリッドは、堅牢なトレーニング安定性と高速な収束を保証します。
ProgLoss + STAL: 高度な損失関数は、小さな物体認識に顕著な改善をもたらします。これは航空画像分析やモノのインターネット（IoT）センサーに依存する産業にとって不可欠です。

YOLO26についてさらに詳しく

多様な視覚タスクへの適応性

バウンディングボックスに厳密に限定されたモデルとは異なり、YOLO26は多用途な高性能モデルである。セマンティックセグメンテーション損失やインスタンスセグメンテーションのためのマルチスケールプロト、姿勢推定のための残差対数尤度推定（RLE）、オリエンテッドバウンディングボックス（OBB）タスクにおける境界問題を解決するための専用角度損失など、タスク固有の改良が組み込まれている。

エッジデプロイメント戦略

エッジデバイスにデプロイする際は、 YOLO26n (Nano) または YOLO26s (Small) バリアント。これらのモデルをエクスポートする際に CoreML または TFLite DFLの除去とNMSアーキテクチャにより摩擦がなく、iOS Androidでスムーズなリアルタイムパフォーマンスを保証します。

RTDETRv2: リアルタイム検出トランスフォーマーの強化

百度の研究者らが開発したRTDETRv2は、オリジナルのRT-DETR を基盤としています。本モデルは、検出トランスフォーマー（DETR）がリアルタイムシナリオにおいて、高度に最適化されたCNNの速度と精度に匹敵し、場合によってはそれを上回ることができることを実証することを目的としています。

著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
組織:Baidu
日付: 2024-07-24
Arxiv:2407.17140
GitHub:RT-DETRv2 PyTorch実装
ドキュメント:RT-DETRv2 README

アーキテクチャと機能

RTDETRv2はトランスフォーマーベースのアーキテクチャを採用しており、自己注意機構を活用してグローバルな文脈を理解することで、CNNとは本質的に異なる方法で画像を処理する。

Bag-of-Freebies: v2イテレーションでは、推論コストを追加することなくベースライン性能を向上させる一連の最適化されたトレーニング技術（bag-of-freebies）が導入されています。
グローバルコンテキスト認識: Transformerのattention層により、RTDETRv2は、重複したり遮蔽されたオブジェクトを区別するためにグローバルコンテキストが必要な複雑なシーンを理解するのに本質的に優れています。

RTDETRの詳細について。

トランスフォーマーモデルの限界

強力な一方で、RTDETRv2のようなTransformerベースの検出モデルは実用的な展開において課題に直面することが多い。効率的なCNNと比較して、CUDA 要件が一般的に高い。さらに、アテンション層が要求する複雑な演算のため、多様なエッジ環境への統合が煩雑になりがちであり、リソース制約のある展開ではYOLO26のようなモデルの方がはるかに魅力的である。

パフォーマンス比較

これらのモデルを直接比較することで、最新のCNN最適化による具体的な利点が明らかになります。以下の表は、標準ベンチマークにおけるそれらのパフォーマンスを概説しています。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

示されているように、YOLO26はすべてのサイズバリアントにおいてRTDETRv2を一貫して上回ります。YOLO26xは、RTDETRv2-x (54.3 mAP、15.03 ms、76Mパラメータ) よりも低い遅延 (TensorRTで11.8 ms) と大幅に少ないパラメータ (55.7M) で、驚異的な57.5 mAPを達成します。

ユースケースと推奨事項

YOLO26とRT-DETRの選択は、特定のプロジェクト要件、デプロイ制約、およびエコシステムへの適合性によって決まります。

YOLO26を選択すべき時

YOLO26は以下に最適です：

NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

RT-DETRを選択すべきタイミング

RT-DETR 以下に推奨RT-DETR ：

トランスフォーマーベースの検出研究: NMSなしのエンドツーエンド物体検出のためのアテンションメカニズムとトランスフォーマーアーキテクチャを探求するプロジェクト。
柔軟なレイテンシーを伴う高精度シナリオ: detect精度が最優先事項であり、わずかに高い推論レイテンシーが許容されるアプリケーション。
大規模オブジェクト検出: 主に中規模から大規模なオブジェクトを含むシーンで、トランスフォーマーのグローバルアテンションメカニズムが自然な利点をもたらします。

Ultralyticsの利点

適切な機械学習アーキテクチャを選択することは、問題の一部に過ぎません。周囲のエコシステムが、チームがプロトタイピングから本番環境へどれだけ迅速に移行できるかを決定します。

使いやすさとトレーニング効率

Ultralytics Python 驚くほど効率的な体験を提供します。複雑なモデルのトレーニングに冗長な定型コードはもはや不要です。さらに、YOLO26のトレーニング効率は大幅に改善され、RTDETRv2のメモリ集約的なアテンション機構よりもはるかにGPU 動作します。これにより、コンシューマー向けハードウェア上でもより大きなバッチサイズが可能となります。

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Execute high-speed, NMS-free inference
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for seamless deployment
model.export(format="onnx")

よく整備されたエコシステム

Ultralyticsモデルを利用することで、開発者は、Weights & BiasesやComet MLのような最新のtrackツールとネイティブに統合された、活発に維持されているフレームワークにアクセスできます。ノーコードアプローチを好むユーザー向けには、Ultralytics Platformがクラウドトレーニング、データセット管理、ワンクリック展開を容易にします。

パフォーマンスバランス

YOLO26は推論速度と精度の両立において比類のないバランスを実現しています。NMS MuSGDオプティマイザNMS ProgLoss + STALによる微小物体への高い精度と、実運用環境での驚異的な高速性を両立したモデルを展開可能。これにより、ほぼ全ての現代的なコンピュータビジョンアプリケーションにおいて最適な選択肢となっています。

エコシステム内のその他のモデル

YOLO26とRTDETRv2がリアルタイム検出の最先端をカバーする一方で、レガシーパイプラインを維持している開発者や異なる効率曲線を模索している開発者は、 YOLOv8 を確立された企業環境向けに検討するか、EfficientDetのような他のアーキテクチャを探求することも可能です。ただし、新規プロジェクトにおいては、YOLO26が確固たる推奨選択肢となります。