RTDETRv2 vs.YOLO11:リアルタイム物体検出アーキテクチャの徹底比較
コンピュータビジョンの分野は絶えず進化を続けており、新たなアーキテクチャがエッジデバイスやクラウドサーバーにおける可能性の限界を押し広げている。現在のリアルタイム物体検出領域で最も注目される2つの手法は、RTDETRv2と YOLO11である。両モデルとも卓越した性能を発揮するが、その基盤となるアーキテクチャの哲学は根本的に異なる。トランスフォーマーベースのアプローチと、高度に最適化された畳み込みニューラルネットワーク(CNN)との対比である。
この包括的な技術比較では、両モデルのアーキテクチャ、性能指標、トレーニング手法、および最適なユースケースを検証し、次の人工知能アプリケーションにおける情報に基づいた意思決定を支援します。
RTDETRv2: トランスフォーマーベースの挑戦者
オリジナルのリアルタイム検出トランスフォーマーを進化させたRTDETRv2は、注意機構を活用して視覚データを処理する。画像パッチをシーケンスとして扱うことで、画像コンテキストの全体的な理解を実現し、複雑なシーンにおける重なり合う物体の検出に極めて有効である。
モデル詳細:
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織:Baidu
- 日付: 2024-07-24
- Arxiv:2407.17140
- GitHub:RT-DETR Repository
- ドキュメント:RTDETRv2 ドキュメント
建築上の長所と短所
RTDETRv2の主な革新点は、NMSである。非最大抑制(NMS)を排除することで、後処理パイプラインを簡素化する。さらに、マルチスケール特徴抽出能力がRT-DETR 向上し、様々なサイズの物体をより正確に識別できるようになった。
ただし、Transformersに依存しているため、RTDETRv2は通常、学習中に著しく高いメモリ要件に悩まされる。Transformersは一般的に収束が遅く、従来のCNNと比較して大幅にCUDA 必要とするため、コンシューマー向けハードウェアで作業する研究者や、制約のあるエッジAI環境に展開する場合に利用しづらい。
Ultralytics YOLO11:CNN効率化の頂点
長年にわたる基礎研究を基盤として、Ultralytics YOLO 飛躍的YOLO11 Ultralytics 。CNNアーキテクチャを洗練させ、前例のない速度と精度を実現しつつ、コミュニティが期待する柔軟性と開発者向けのエコシステムを維持しています。
モデル詳細:
- 著者: Glenn Jocher、Jing Qiu
- 組織:Ultralytics
- 日付: 2024年9月27日
- GitHub:Ultralytics リポジトリ
Ultralyticsの利点
YOLO11 パフォーマンスバランスにおいてYOLO11 。速度と精度の間で並外れたトレードオフを実現し、大規模なクラウドコンピューティングクラスターから軽量モバイルデバイスまで、多様な実世界の展開シナリオにおいて非常に汎用性の高い性能を発揮する。
さらに、Ultralytics YOLO 、トレーニング時および推論時のメモリ使用量が少ないことで知られています。VRAMを容易に枯渇させるTransformerモデルとは異なり、YOLO11 標準GPU上でより大きなバッチサイズをYOLO11 。さらに、YOLO11 単なる物体検出にYOLO11 、驚異的な汎用性を誇り、インスタンスセグメンテーション、画像分類、姿勢推定、およびオリエンテッドバウンディングボックス(OBB)のネイティブサポートを備えています。
パフォーマンスとメトリクスの比較
数値を比較すると、RTDETRv2が優れた精度を達成している一方で、YOLO11 モデルサイズの選択肢がはるかに細かく、特にTensorRT上では優れた推論速度YOLO11 明らかになる。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
表に示す通り、YOLO11xモデルはRTDETRv2-xバリアントと比較して、より少ないFLOPs(194.9B対259B)を利用しながら優れたmAPval54.7%を達成し、TensorRT 上での推論速度も高速化TensorRT 11.3ms対15.03ms)しています。 nanoおよびsmallYOLO11 、Raspberry Piのような制約のあるデバイス向けに比類のない軽量オプションを提供します。
エコシステム、使いやすさ、およびトレーニング
Ultralytics 決定的な特徴は、合理化されたユーザー体験である。 ultralytics Python 、面倒な処理を代行する統一された直感的なAPIを提供します。 データ拡張分散トレーニングとモデルエクスポート。RTDETRv2の研究リポジトリでは大量の定型コードと設定が必要ですが、Ultralytics 「ゼロからヒーローへ」のパイプラインUltralytics 。
興味深いことに、Ultralytics は非常に堅牢で、RT-DETR YOLO 同時に実行することをネイティブにサポートしています!これにより、Ultralyticsの整備されたエコシステムを活用できます——これには以下との統合も含まれます Weights & BiasesComet )を活用して、実験の追跡を容易に行うことができます。
from ultralytics import RTDETR, YOLO
# Load an RTDETR model seamlessly through the Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a highly optimized YOLO11 model
model_yolo = YOLO("yolo11n.pt")
# Train YOLO11 with highly efficient memory usage
results = model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained YOLO model to ONNX format
model_yolo.export(format="onnx")
ワークフローを効率化する
機械学習においてトレーニング効率は最重要課題です。Ultralytics 事前学習済み重みを活用し、迅速に収束します。コードを書かずにデータセット管理、トレーニング実行、デプロイ先エンドポイントを実現するには、統合型MLOps環境Ultralytics 検討ください。
現実世界のアプリケーション
これらのアーキテクチャの選択は、多くの場合、プロジェクト固有のデプロイ制約によって決まります。
RTDETRv2が優れている点: RTDETRv2のTransformerバックボーンは、密な配置で重度に遮蔽された物体を含むシナリオにおいて、グローバルな文脈が求められる場合に極めて効果的です。これは、計算リソースの制約よりも純粋な注意ベースの関係マッピングが重視される学術研究や応用分野で頻繁に評価されています。
YOLO11 分野: YOLO11 実用的な実環境展開において、誰もが認めるYOLO11 。最小限のメモリ使用量と驚異的な推論速度により、以下の用途に最適です:
- スマート製造:産業用PCを用いた生産ラインでのリアルタイム欠陥検出の実行。
- 農業:ドローンを活用したリアルタイム作物健康モニタリングと自動収穫ロボットの導入。
- 小売分析:大規模なサーバーファームを必要とせずに、複数のカメラストリームを同時に処理し、列管理と在庫追跡を実現する。
ユースケースと推奨事項
YOLO11 RT-DETR 具体的なプロジェクト要件、デプロイメント上の制約、およびエコシステムの選YOLO11 。
RT-DETRを選択すべきタイミング
RT-DETR 以下に最適RT-DETR :
- トランスフォーマーベースの検出研究: NMSを用いないエンドツーエンド物体検出のための注意機構とトランスフォーマーアーキテクチャを探求するプロジェクト。
- 高精度シナリオ(柔軟なレイテンシ対応):検出精度が最優先事項であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体検出:主に中~大型の物体が存在するシーンにおいて、トランスフォーマーのグローバルアテンション機構が自然な優位性を発揮する。
YOLO11を選択すべき時
YOLO11 以下に推奨YOLO11 :
- 生産環境への導入: ラズベリーパイやNVIDIA などのデバイス上で動作する商用アプリケーションにおいて、信頼性と積極的なメンテナンスが最優先事項となる場合。
- マルチタスク視覚アプリケーション:単一の統合フレームワーク内で検出、セグメンテーション、姿勢推定、およびOBBを必要とするプロジェクト。
- 迅速なプロトタイピングとデプロイメント:データ収集から生産までを迅速に進める必要があるチーム向けに、Ultralytics Python 効率化されたインターフェースを提供します。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
展望:YOLO26の登場
新しいプロジェクトを始めるなら、次世代のビジョンAIも検討すべきです: Ultralytics 。2026年1月にリリースされたYOLO26は、両方の長所を兼ね備えています。エンドツーエンドNMS設計(最初に YOLOv10で初めて導入された)を完全に組み込み、RTDETRv2と同様に後処理の遅延を完全に排除しながら、CNNの比類のない速度を実現しています。
YOLO26は、LLMトレーニングの革新に着想を得たMuSGDオプティマイザーを搭載し、驚異的な安定性と高速な収束を実現。分布焦点損失(DFL)を除去することで最大43%CPU を提供します。特殊なProgLoss + STAL損失関数により小物体認識が大幅に向上したYOLO26は、あらゆる現代的なコンピュータビジョンパイプラインにおける究極の推奨ソリューションです。
YOLO11 確かな汎用性、RTDETRv2の注意メカニズム、あるいは究極のエッジ性能を誇る最先端のYOLO26YOLO11 を選択する場合でも、Ultralytics 、コンピュータビジョンにおける成功に必要なあらゆるリソースを提供します。