YOLO26 vs RTDETRv2: 現代的な物体検出アーキテクチャの包括的比較
コンピュータビジョンの分野は絶えず進化を続けており、実践者には重大な選択が迫られている:高度に最適化された畳み込みニューラルネットワーク(CNN)を活用すべきか、それとも新たなトランスフォーマーベースのアーキテクチャを採用すべきか?この分野で特に注目される2つの有力候補が、最先端Ultralytics YOLO26とBaiduのRTDETRv2である。両モデルともリアルタイム物体検出の限界を押し広げているが、根本的に異なるアーキテクチャ哲学に基づいている。
このガイドでは、両モデルの構造、性能指標、最適なユースケースを比較し、詳細な技術的分析を通じて、次回のコンピュータビジョンプロジェクトに最適な基盤を選択するお手伝いをします。
Ultralytics :エッジファースト視覚AIの頂点
Ultralytics開発したYOLO26は、YOLO 世代を超えた飛躍的な進化を遂げたモデルである。2026年1月にリリースされ、速度、精度、そしてクラウドとエッジ環境を横断したシームレスな展開を明確に追求して設計されている。
- 著者: Glenn Jocher、Jing Qiu
- 組織:Ultralytics
- 日付: 2026-01-14
- GitHub:Ultralytics リポジトリ
- ドキュメント:YOLO26 公式ドキュメント
建築的革新と強み
YOLO26は、Transformerモデルだけでなく、以前のバージョンである YOLO11とも異なる画期的な機能をいくつか導入しています:
- エンドツーエンドNMS設計:YOLO26は後処理における従来の非最大抑制(NMS)を排除します。 YOLOv10で先駆的に採用されたこのネイティブなエンドツーエンドアプローチは、特にエッジハードウェアにおいて、推論遅延のばらつきを低減し、デプロイロジックを簡素化します。
- 最大43%高速CPU :分散型AIの需要の高まりを認識し、YOLO26はラズベリーパイなど専用GPUを持たないデバイス向けに高度に最適化されています。
- DFL除去:分布焦点損失(DFL)を除去することで、YOLO26は簡素化されたエクスポートプロセスを実現し、低電力エッジデバイスやマイクロコントローラーとの互換性を大幅に向上させます。
- MuSGDオプティマイザー:大規模言語モデル(LLM)のトレーニングとコンピュータビジョンを橋渡しするYOLO26は、MuSGDオプティマイザーを採用しています。Moonshot AIのKimi K2に着想を得たSGD ミューオンのハイブリッドである本手法は、堅牢なトレーニング安定性と高速な収束を保証します。
- ProgLoss + STAL:高度な損失関数が小規模物体認識に顕著な改善をもたらす。これは航空画像分析やモノのインターネット(IoT)センサーに依存する産業にとって極めて重要である。
多様な視覚タスクへの適応性
バウンディングボックスに厳密に限定されたモデルとは異なり、YOLO26は多用途な高性能モデルである。セマンティックセグメンテーション損失やインスタンスセグメンテーションのためのマルチスケールプロト、姿勢推定のための残差対数尤度推定(RLE)、オリエンテッドバウンディングボックス(OBB)タスクにおける境界問題を解決するための専用角度損失など、タスク固有の改良が組み込まれている。
エッジ展開戦略
エッジデバイスにデプロイする際は、 YOLO26n (ナノ)または YOLO26s (小規模な)バリエーション。これらのモデルをエクスポートするには CoreML または TFLite DFLの除去とNMSアーキテクチャにより摩擦がなく、iOS Androidでスムーズなリアルタイムパフォーマンスを保証します。
RTDETRv2: リアルタイム検出トランスフォーマーの強化
百度の研究者らが開発したRTDETRv2は、オリジナルのRT-DETR を基盤としています。本モデルは、検出トランスフォーマー(DETR)がリアルタイムシナリオにおいて、高度に最適化されたCNNの速度と精度に匹敵し、場合によってはそれを上回ることができることを実証することを目的としています。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織:Baidu
- 日付: 2024-07-24
- Arxiv:2407.17140
- GitHub:RT-DETRv2 PyTorch
- ドキュメント:RT-DETRv2
アーキテクチャと機能
RTDETRv2はトランスフォーマーベースのアーキテクチャを採用しており、自己注意機構を活用してグローバルな文脈を理解することで、CNNとは本質的に異なる方法で画像を処理する。
- Bag-of-Freebies:v2では、推論コストを追加せずにベースライン性能を向上させる一連の最適化された学習手法(Bag-of-Freebies)を導入した。
- グローバルコンテキスト認識:トランスフォーマーの注意層により、RTDETRv2は重なり合う物体や遮蔽された物体を識別するためにグローバルコンテキストが必要な複雑なシーンの理解に自然に長けている。
トランスフォーマーモデルの限界
強力な一方で、RTDETRv2のようなTransformerベースの検出モデルは実用的な展開において課題に直面することが多い。効率的なCNNと比較して、CUDA 要件が一般的に高い。さらに、アテンション層が要求する複雑な演算のため、多様なエッジ環境への統合が煩雑になりがちであり、リソース制約のある展開ではYOLO26のようなモデルの方がはるかに魅力的である。
パフォーマンス比較
これらのモデルを直接比較評価することで、最新のCNN最適化の具体的な利点が明らかになる。下表は標準ベンチマークにおける各モデルの性能をまとめたものである。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
実証された通り、YOLO26は全サイズバリエーションにおいてRTDETRv2を一貫して上回る性能を発揮する。YOLO26xは、RTDETRv2-x(54.3mAP、15.03 ms、76Mパラメータ)mAP より低いレイテンシ(TensorRT.8 ms)mAP 大幅に少ないパラメータ数(55.7M)mAP 57.5mAP 顕著なmAP を達成している。
ユースケースと推奨事項
RT-DETR 、プロジェクトの具体的な要件、デプロイメント上の制約、およびエコシステムの選好RT-DETR 。
YOLO26を選択すべき時
YOLO26は以下に最適です:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
RT-DETRを選択すべきタイミング
RT-DETR 以下に推奨RT-DETR :
- トランスフォーマーベースの検出研究: NMSを用いないエンドツーエンド物体検出のための注意機構とトランスフォーマーアーキテクチャを探求するプロジェクト。
- 高精度シナリオ(柔軟なレイテンシ対応):検出精度が最優先事項であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体検出:主に中~大型の物体が存在するシーンにおいて、トランスフォーマーのグローバルアテンション機構が自然な優位性を発揮する。
Ultralyticsの利点
適切な機械学習アーキテクチャの選択は方程式の一部に過ぎない。周囲のエコシステムこそが、チームがプロトタイピングから本番環境への移行をいかに迅速に進められるかを決定づける。
使いやすさとトレーニング効率
Ultralytics Python 驚くほど効率的な体験を提供します。複雑なモデルのトレーニングに冗長な定型コードはもはや不要です。さらに、YOLO26のトレーニング効率は大幅に改善され、RTDETRv2のメモリ集約的なアテンション機構よりもはるかにGPU 動作します。これにより、コンシューマー向けハードウェア上でもより大きなバッチサイズが可能となります。
from ultralytics import YOLO
# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Execute high-speed, NMS-free inference
predictions = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for seamless deployment
model.export(format="onnx")
健全に維持された生態系
Ultralytics を活用することで、開発者は以下のような最新のトラッキングツールとネイティブに統合された、積極的にメンテナンスされているフレームワークを利用できます。 Weights & BiasesComet 、継続的にメンテナンスされるフレームワークを利用できます。ノーコードアプローチを好むユーザー向けに、Ultralytics トレーニング、データセット管理、ワンクリックデプロイメントを実現します。
パフォーマンスバランス
YOLO26は推論速度と精度の両立において比類のないバランスを実現しています。NMS MuSGDオプティマイザNMS ProgLoss + STALによる微小物体への高い精度と、実運用環境での驚異的な高速性を両立したモデルを展開可能。これにより、ほぼ全ての現代的なコンピュータビジョンアプリケーションにおいて最適な選択肢となっています。
エコシステム内のその他のモデル
YOLO26とRTDETRv2がリアルタイム検出の最先端をカバーする一方で、レガシーパイプラインを維持している開発者や異なる効率曲線を模索している開発者は、 YOLOv8 を確立された企業環境向けに検討するか、EfficientDetのような他のアーキテクチャを探求することも可能です。ただし、新規プロジェクトにおいては、YOLO26が確固たる推奨選択肢となります。