RTDETRv2 vs. YOLO11: リアルタイム物体検出アーキテクチャの徹底解説
コンピュータビジョンの世界は絶えず進化しており、新しいアーキテクチャがエッジデバイスやクラウドサーバーで可能なことの境界を押し広げています。現在、リアルタイム物体検出の分野で最も注目されている2つのモデルが RTDETRv2 と YOLO11 です。どちらのモデルも優れたパフォーマンスを発揮しますが、その設計思想は根本的に異なります。Transformerベースのアプローチと、高度に最適化された畳み込みニューラルネットワーク(CNN)という対照的なアプローチをとっています。
本技術比較ガイドでは、両モデルのアーキテクチャ、パフォーマンス指標、学習手法、そして最適なユースケースを解説し、次期AIアプリケーション開発における意思決定をサポートします。
RTDETRv2: Transformerベースの挑戦者
オリジナルのReal-Time Detection Transformerの進化版として導入されたRTDETRv2は、アテンションメカニズムを活用して視覚データを処理します。画像パッチをシーケンスとして扱うことで、画像コンテキストをグローバルに理解することができ、複雑なシーンにおける重なり合う物体の検出に非常に有効です。
モデルの詳細:
- 著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 組織: Baidu
- 日付: 2024-07-24
- Arxiv: 2407.17140
- GitHub: RT-DETR Repository
- Docs: RTDETRv2 Documentation
アーキテクチャの強みと弱み
RTDETRv2の最大の革新は、エンドツーエンドのNMSフリーアーキテクチャです。Non-Maximum Suppression(NMS)を排除することで、後処理パイプラインを簡素化しました。さらに、オリジナルの RT-DETR model と比較してマルチスケール特徴抽出機能が向上しており、さまざまなサイズの物体をより正確に識別できるようになりました。
しかし、Transformerに依存しているため、RTDETRv2は学習時に大幅に高いメモリ要件を必要とする傾向があります。一般的にTransformerは収束が遅く、従来のCNNと比較して大幅に多くのCUDAメモリを消費するため、コンシューマー向けハードウェアで運用したり、制約のある edge AI 環境にデプロイしたりする場合にはハードルが高くなります。
Ultralytics YOLO11: CNN効率の頂点
長年の基礎研究の上に構築されたUltralytics YOLO11は、YOLO系統における飛躍的な進歩を遂げました。CNNアーキテクチャを洗練させることで、比類のない速度と精度を実現しつつ、コミュニティが期待する柔軟で開発者に優しいエコシステムを維持しています。
モデルの詳細:
- 著者: Glenn Jocher および Jing Qiu
- 組織: Ultralytics
- 日付: 2024年9月27日
- GitHub: Ultralytics リポジトリ
Ultralyticsの利点
YOLO11の強みは Performance Balance(性能のバランス) にあります。速度と精度の間で驚異的なトレードオフを実現しており、大規模な cloud computing クラスターから軽量なモバイルデバイスまで、多様な現場のデプロイ環境において極めて高い汎用性を発揮します。
さらに、Ultralytics YOLOモデルは学習および推論時のメモリ使用量が少ないことでも定評があります。VRAMを簡単に使い果たしてしまう可能性があるTransformerモデルとは異なり、YOLO11は標準的なGPUでより大きなバッチサイズを扱うことができます。また、YOLO11は単なる物体検出にとどまらず、Instance Segmentation、Image Classification、Pose Estimation、そして Oriented Bounding Boxes (OBB) をネイティブサポートする卓越した Versatility(多用途性) を備えています。
パフォーマンスとメトリクスの比較
数値を比較すると、RTDETRv2が優れた精度を達成している一方で、YOLO11は特にTensorRT上において、より詳細なモデルサイズ選択と優れた推論速度を提供していることが明らかです。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
表に示す通り、YOLO11x モデルは、RTDETRv2-xバリアントと比較して、より少ないFLOPs(194.9B vs 259B)で54.7%という優れたmAPvalを達成し、TensorRT上での推論速度も高速(11.3ms vs 15.03ms)です。また、nanoおよびsmallのYOLO11バリアントは、Raspberry Pi のような制約のあるデバイスに対して比類のない軽量な選択肢を提供します。
エコシステム、使いやすさ、および学習
Ultralyticsモデルの決定的な特徴は、効率化されたユーザーエクスペリエンスです。ultralytics Pythonパッケージは、data augmentation、分散学習、モデルエクスポートといった複雑な処理を統一された直感的なAPIで提供します。RTDETRv2の研究用リポジトリには煩雑なボイラープレートや設定が必要ですが、Ultralyticsは「ゼロからヒーローへ」と導くパイプラインを提供しています。
興味深いことに、Ultralyticsのエコシステムは非常に堅牢であり、RT-DETRモデルをYOLOモデルと併用することも可能です。これにより、Weights & Biases や Comet ML との統合を含む、Ultralyticsの Well-Maintained Ecosystem(手厚いエコシステム) を活用して、実験を簡単に追跡できます。
from ultralytics import RTDETR, YOLO
# Load an RTDETR model seamlessly through the Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a highly optimized YOLO11 model
model_yolo = YOLO("yolo11n.pt")
# Train YOLO11 with highly efficient memory usage
results = model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained YOLO model to ONNX format
model_yolo.export(format="onnx")機械学習において学習効率は最優先事項です。Ultralyticsモデルは、急速に収束する事前学習済みウェイトを活用します。データセットの管理、学習実行、デプロイエンドポイントをコードを書かずに実行したい場合は、統合されたMLOpsエクスペリエンスを提供する Ultralytics Platform をご確認ください。
実世界の応用例
これらのアーキテクチャの選択は、多くの場合、プロジェクト特有のデプロイの制約によって決まります。
RTDETRv2が優れている点: RTDETRv2のTransformerバックボーンは、グローバルコンテキストが必要とされる、密集して重なり合った物体があるシナリオで非常に効果的です。計算予算よりもアテンションベースの関係マッピングの精度が重視される学術研究や応用において高く評価されています。
YOLO11が優位な点: YOLO11は、実用的な現場デプロイにおいて圧倒的な強さを誇ります。最小限のメモリフットプリントと爆速の推論速度は、次のような用途に最適です。
- Smart Manufacturing: 産業用PCを使用した製造ラインでのリアルタイム欠陥検出。
- Agriculture: ドローンに搭載したリアルタイムの作物健康状態モニタリングや、自動収穫ロボット。
- Retail Analytics: 巨大なサーバー群を必要とせず、複数のカメラストリームを並行処理して行列管理や在庫追跡を行うこと。
ユースケースと推奨事項
RT-DETRとYOLO11の選択は、特定のプロジェクト要件、デプロイの制約、エコシステムの好みによって異なります。
RT-DETRを選ぶべき場面
RT-DETRは以下のような場合に適した選択肢です:
- Transformerベースの検出研究: NMSなしでのエンドツーエンドの物体検出に向けて、アテンションメカニズムとTransformerアーキテクチャを研究するプロジェクト。
- レイテンシを柔軟に調整できる高精度シナリオ: 検出精度が最優先であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体の検出: 主に中型から大型の物体が含まれるシーン。Transformerのグローバルアテンションメカニズムが自然な利点をもたらします。
YOLO11を選択すべき場合
YOLO11は次のような場合に推奨されます:
- 本番環境のエッジデプロイメント: 信頼性と積極的なメンテナンスが最優先される、Raspberry PiやNVIDIA Jetsonなどのデバイス上での商用アプリケーション。
- マルチタスクビジョンアプリケーション: 単一の統合フレームワーク内で、検出、セグメンテーション、ポーズ推定、およびOBBを必要とするプロジェクト。
- 迅速なプロトタイピングとデプロイメント: 合理化されたUltralytics Python APIを使用して、データ収集から本番環境まで迅速に移行する必要があるチーム。
Ultralytics (YOLO26) を選択すべき場合
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:
- NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
- 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。
今後の展望: YOLO26の登場
新規プロジェクトを開始される場合は、次世代のビジョンAIである Ultralytics YOLO26 もぜひご検討ください。2026年1月にリリースされたYOLO26は、両方の長所を融合させています。End-to-End NMS-Free Design(YOLOv10 で初めて導入されたもの)を採用しており、RTDETRv2と同様に後処理の遅延を完全に排除しつつ、CNNの比類なき速度を実現しています。
YOLO26は、LLM学習の革新的な技術に触発された MuSGD Optimizer を搭載しており、信じられないほど安定した高速収束を実現します。さらに、Distribution Focal Loss(DFL)を削除することで 43% 高速なCPU推論 を可能にしました。特殊な ProgLoss + STAL 損失関数が小物体認識を大幅に改善したYOLO26は、あらゆる最新コンピュータビジョンパイプラインにとって究極の推奨モデルです。
その実績ある汎用性のYOLO11、アテンションメカニズムのRTDETRv2、あるいは究極のエッジ性能を持つ最新のYOLO26のいずれを選択するにしても、Ultralytics documentation には、コンピュータビジョンの旅を成功させるために必要なすべてのリソースが揃っています。