Link to this sectionYOLO26 vs RTDETRv2#

コンピュータビジョンの状況は絶えず進化しており、実務者には重要な選択が迫られています。それは、高度に最適化された畳み込みニューラルネットワーク（CNN）を活用すべきか、それともより新しいTransformerベースのアーキテクチャを採用すべきかという点です。この分野における2つの主要な候補が、最先端のUltralytics YOLO26と、BaiduのRTDETRv2です。どちらのモデルもリアルタイム物体検出の限界を押し広げていますが、その根底にあるアーキテクチャの哲学は根本的に異なります。

本ガイドでは、両モデルの構造、性能指標、および理想的なユースケースを比較し、次期コンピュータビジョンプロジェクトに最適な基盤を選択できるように、詳細な技術的解説を提供します。

Link to this sectionUltralytics YOLO26: エッジファーストなVision AIの頂点#

Ultralyticsによって開発されたYOLO26は、YOLOファミリーにとって大きな世代交代を象徴するモデルです。2026年1月にリリースされたこのモデルは、クラウド環境およびエッジ環境における速度、精度、そしてシームレスなデプロイを目的として明示的に設計されています。

著者： Glenn Jocher and Jing Qiu
組織: Ultralytics
日付: 2026-01-14
GitHub： Ultralytics リポジトリ
ドキュメント: YOLO26 公式ドキュメント

Link to this sectionアーキテクチャの革新と強み#

YOLO26には、Transformerモデルだけでなく、YOLO11のような過去のイテレーションとも一線を画す、いくつかの画期的な機能が導入されています。

エンドツーエンドのNMSフリー設計: YOLO26は、後処理における従来のNon-Maximum Suppression (NMS)を排除しています。YOLOv10などのモデルで先駆的に採用されたこのネイティブなエンドツーエンドアプローチにより、推論遅延のばらつきが軽減され、特にエッジハードウェアにおけるデプロイロジックが簡素化されます。
CPU推論が最大43%高速化: 分散型AIへのニーズの高まりを受け、YOLO26はRaspberry Piのような専用GPUを持たないデバイス向けに高度に最適化されています。
DFLの削除: Distribution Focal Loss (DFL)を削除することで、YOLO26はエクスポートプロセスを簡素化し、低電力のエッジデバイスやマイクロコントローラとの互換性を大幅に向上させています。
MuSGDオプティマイザ: 大規模言語モデル (LLM) のトレーニングとコンピュータビジョンの間のギャップを埋めるため、YOLO26はMuSGDオプティマイザを採用しています。これはSGDとMoon（Moonshot AIのKimi K2に触発されたもの）のハイブリッドであり、堅牢なトレーニングの安定性とより高速な収束を実現します。
ProgLoss + STAL: 高度な損失関数により、小物体認識において顕著な改善がもたらされました。これは、航空画像解析やIoT (Internet of Things) センサーに依存する業界にとって不可欠です。

YOLO26の詳細はこちら

Link to this sectionビジョンタスク全般の汎用性#

バウンディングボックスに限定されるモデルとは異なり、YOLO26は多用途なパワーハウスです。セマンティックセグメンテーション損失やインスタンスセグメンテーション向けのマルチスケールproto、姿勢推定向けのResidual Log-Likelihood Estimation (RLE)、さらにOriented Bounding Box (OBB)タスクにおける境界問題を解決するための特殊な角度損失など、タスク固有の改善が組み込まれています。

エッジデプロイ戦略

エッジデバイスへデプロイする際は、YOLO26n (Nano) または YOLO26s (Small) バリアントを利用してください。DFL削除とNMSフリーアーキテクチャのおかげで、これらのモデルをCoreMLやTFLiteへエクスポートする作業は非常にスムーズであり、iOSおよびAndroidでの円滑なリアルタイムパフォーマンスが保証されます。

Link to this sectionRTDETRv2: リアルタイムDetection Transformerの強化#

Baiduの研究者によって開発されたRTDETRv2は、オリジナルのRT-DETRフレームワークを基盤としています。これは、Detection Transformers (DETR) が、リアルタイムシナリオにおいて高度に最適化されたCNNと競合し、時にはそれを上回ることができることを証明することを目的としています。

著者： Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
組織： Baidu
日付： 2024年7月24日
Arxiv： 2407.17140
GitHub: RT-DETRv2 PyTorch実装
Docs: RT-DETRv2 README

Link to this sectionアーキテクチャと機能#

RTDETRv2はTransformerベースのアーキテクチャを採用しており、セルフアテンションメカニズムを活用してグローバルなコンテキストを理解することで、CNNとは本質的に異なる画像処理を行います。

Bag-of-Freebies: v2イテレーションでは、推論コストを増加させることなくベースラインのパフォーマンスを向上させる、一連の最適化されたトレーニング手法（bag-of-freebies）が導入されています。
グローバルなコンテキスト認識: Transformerのアテンションレイヤーにより、RTDETRv2は、重なり合った物体や遮蔽された物体を識別するためにグローバルなコンテキストが必要となる複雑なシーンを理解する能力に自然と長けています。

RTDETRの詳細はこちら

Link to this sectionTransformerモデルの制限#

強力ではあるものの、RTDETRv2のようなTransformerベースの検出モデルは、実運用において課題に直面することがよくあります。一般的に、効率的なCNNと比較して、トレーニング中のCUDAメモリ要件が高くなる傾向があります。さらに、アテンションレイヤーに必要な複雑な演算のため、多様なエッジ環境への統合が困難な場合があり、リソースが制限された環境へのデプロイにおいてはYOLO26の方がはるかに魅力的です。

Link to this sectionパフォーマンスの比較#

これらのモデルを直接比較すると、最新のCNN最適化の具体的な利点が明らかになります。以下の表は、標準的なベンチマークにおけるパフォーマンスを示しています。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	パラメータ ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

示された通り、YOLO26はすべてのサイズバリアントにおいて一貫してRTDETRv2を上回ります。YOLO26xは、RTDETRv2-x（54.3 mAP、15.03 ms、76Mパラメータ）と比較して、驚異的な57.5 mAPを達成しつつ、低遅延（TensorRTで11.8 ms）かつ大幅に少ないパラメータ数（55.7M）を実現しています。

Link to this sectionユースケースと推奨事項#

YOLO26とRT-DETRのどちらを選択するかは、プロジェクト固有の要件、デプロイの制約、そしてエコシステムの好みによって決まります。

Link to this sectionYOLO26を選ぶべき時#

YOLO26は以下の場合に強力な選択肢となります:

NMSフリーのエッジ展開： Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
CPUのみの環境： GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
小さな物体の検出： aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。

Link to this sectionRT-DETRを選択すべき時#

RT-DETRが推奨される場合:

Transformerベースの検出研究： NMSなしのエンドツーエンド物体検出に向けたアテンションメカニズムやTransformerアーキテクチャを探求するプロジェクト。
高い精度が求められ、レイテンシに柔軟性があるシナリオ： 検出精度が最優先され、多少推論レイテンシが高くても許容されるアプリケーション。
大きな物体の検出： 主に中規模から大規模な物体が中心となるシーンで、Transformerのグローバルアテンションメカニズムが自然な利点となる場合。

Link to this sectionUltralyticsの利点#

適切な機械学習アーキテクチャを選択することは方程式の一部に過ぎません。周囲のエコシステムこそが、チームがプロトタイピングからプロダクションへどれだけ迅速に移行できるかを左右します。

Link to this section使いやすさと学習の効率性#

Ultralytics Python APIは、非常に合理化された体験を提供します。複雑なモデルのトレーニングに冗長なボイラープレートコードはもはや必要ありません。さらに、YOLO26のトレーニング効率は実質的に向上しており、RTDETRv2のメモリを大量に消費するアテンションメカニズムよりもはるかに少ないGPU VRAMを使用するため、消費者向けのハードウェアでもより大きなバッチサイズでの利用が可能です。

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Execute high-speed, NMS-free inference
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for seamless deployment
model.export(format="onnx")

Link to this section十分に維持されたエコシステム#

Ultralyticsモデルを利用することで、開発者はWeights & BiasesやComet MLなどの最新のトラッキングツールとネイティブに統合された、アクティブに維持管理されているフレームワークにアクセスできます。ノーコードでのアプローチを好むユーザー向けには、Ultralytics Platformがクラウドトレーニング、データセット管理、ワンクリックデプロイを容易にします。

Link to this sectionパフォーマンスのバランス#

YOLO26は、推論速度と精度の間で比類のないバランスを実現しています。NMSの削除とMuSGDオプティマイザを組み合わせることで、(ProgLoss + STALのおかげで)小物体の検出精度が高く、かつプロダクション環境で非常に高速なモデルをデプロイできます。これにより、最新のコンピュータビジョンアプリケーションのほぼすべてにおいて、優れた選択肢となっています。

Link to this sectionエコシステム内のその他のモデル#

YOLO26とRTDETRv2はリアルタイム検出の最先端をカバーしていますが、レガシーパイプラインを保守している、あるいは異なる効率曲線を探求している開発者は、確立されたエンタープライズ環境向けにYOLOv8を検討したり、EfficientDetのような他のアーキテクチャを探索したりすることもできます。しかし、あらゆる新しいプロジェクトに対しては、YOLO26が決定的な推奨事項となります。

貢献者

GLglenn-jocher⁵

作成日 2026年1月14日更新日 3 週間前