RTDETRv2 vs.YOLO:リアルタイム精度をめぐる戦い
最適な物体検出アーキテクチャの追求では、トランスフォーマーによるグローバルコンテキストモデリングと畳み込みニューラルネットワーク(CNN)の速度とのトレードオフがしばしば生じる。この分野における有力な候補として、RTDETRv2とYOLO挙げられる。 RTDETRv2(百度のリアルタイム検出トランスフォーマー第2世代)は、アテンション機構を活用することで非最大抑制(NMS)の必要性を排除する。一方、YOLO 、ニューラルアーキテクチャ検索(NAS)と効率的な再パラメータ化に焦点を当て、従来のCNN構造から最大限の性能を引き出すことに注力している。
このガイドでは、それらのアーキテクチャ、ベンチマーク、および理想的な導入シナリオについて深く掘り下げ、開発者がコンピュータービジョンプロジェクトに最適なツールを選択するために必要な知見を提供します。
概要
RTDETRv2は、物体が大きく重なり合う複雑な環境下で高精度を必要とするアプリケーションに最適な選択肢です。そのトランスフォーマーベースの設計はグローバルコンテキストを自然に処理するため、遮蔽に対して頑健です。ただし、これは特にエッジデバイスにおいて、より高い計算リソースを必要とするという代償を伴います。
YOLO、標準ハードウェア上で低遅延を優先する産業シナリオにおいて優れた性能を発揮する。NASの活用と効率的なバックボーン設計により、リアルタイムの製造・検査タスクに極めて有効である。高速である一方、トランスフォーマーのエンドツーエンド特性と比較すると、従来のアンカーベース手法に依存しているため、ハイパーパラメータ調整の影響を受けやすい。
両方の世界のベストを求める方々——最先端の速度、エンドツーエンドNMS推論、そして使いやすさ——にとって、Ultralytics モデルは優れた選択肢を提供します。損失関数の最新最適化CPU 向上を組み合わせたものです。
RTDETRv2: リアルタイムTransformerの洗練
RTDETRv2(リアルタイム検出トランスフォーマーv2)は、オリジナルの成功を基盤としています RT-DETRの成功を基盤とし、ハイブリッドエンコーダと不確実性を考慮したクエリ選択をさらに洗練させています。これは、トランスフォーマーモデルの優れた精度を維持しつつ、その典型的な遅延ボトルネックを解決することを目的としています。
著者:呂文宇, 趙一安, 張琴瑶, 黄奎, 王冠中, 劉毅
所属:Baidu
日付:2023年4月17日
Arxiv:RTDETRv2論文
GitHub:RT-DETR
主要なアーキテクチャ革新
- ハイブリッドエンコーダ:同一スケール内相互作用と異スケール融合を分離することで多スケール特徴を効率的に処理し、標準的な変形可能DETRエンコーダと比較して計算コストを大幅に削減する。
- 不確実性最小化クエリ選択:分類スコアが最も高い特徴を選択することでオブジェクトクエリの初期化を改善し、収束の高速化と初期検出の精度向上を実現する。
- NMS推論:トランスフォーマーベースのモデルであるRTDETRv2は、固定されたオブジェクトセットを直接予測するため、非最大抑制(NMS)が不要です。これにより、デプロイメントパイプラインが簡素化され、高密度予測のポスト処理に伴う遅延変動が排除されます。
- 柔軟なバックボーンサポート:本アーキテクチャはResNetやHGNetv2を含む様々なバックボーンをサポートし、利用可能な計算リソースに基づいてモデルをスケーリングすることを可能にします。
Transformerの利点
CNNがピクセルの局所的な近傍を処理するのとは異なり、RTDETRv2の自己注意機構は画像のあらゆる部分が他のあらゆる部分に注意を向けることを可能にする。この「グローバルな受容野」は、大きな物体の検出や、シーン内の離れた部分同士の関係の理解に特に有用である。
YOLO:産業レベルの効率性
YOLO 、厳密なニューラルアーキテクチャ検索(NAS)と新規特徴融合技術を通じて、「You Only Look Once」パラダイムの効率最大化にYOLO 。産業用途向けに速度と精度を両立させた堅牢な汎用検出器として設計されています。
著者:許賢哲, 江一琪, 陳偉華, 黄一倫, 張元, 孫秀宇
所属:Alibaba Group
日付:2022年11月23日
Arxiv:YOLO
GitHub:YOLO
主要なアーキテクチャ機能
- MAE-NAS Backbone:ニューラルアーキテクチャ探索における補助固有値法を活用し、分類の代用ではなく検出タスクに特化して最適化されたバックボーンを発見する。
- 効率的なRepGFPN:再パラメータ化(Rep)技術で最適化された汎用特徴ピラミッドネットワーク(GFPN)。これにより、学習時には複雑な特徴融合を可能としつつ、推論時には単純で高速な構造へと収束する。
- ZeroHead:パラメータ数とFLOPsを大幅に削減しながら、平均精度(mAP)を犠牲にしない軽量検出ヘッド。
- AlignedOTA:分類タスクと回帰タスクの間の不整合を解決し、トレーニング中に高品質なアンカーが選択されることを保証する、改良されたラベル割り当て戦略。
技術的パフォーマンス比較
これらのアーキテクチャを比較する際には、純粋な推論速度と検出精度(mAP)のトレードオフを検討することが極めて重要である。下表が示すように、RTDETRv2は特に難易度COCO において概して高い精度を達成する一方、YOLO 特定のハードウェア構成において潜在的に低いレイテンシで競争力のある性能YOLO 。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
導入とユースケース
RTDETRv2の理想的なシナリオ
- 複雑な都市景観:グローバルアテンション機構は混雑した街路における遮蔽処理に優れており、自動運転や交通監視に最適である。
- 医療画像診断:精度が最優先され、偽陰性が重大な結果を招く腫瘍検出などの分野において、RTDETRv2の高い精度は有益である。
- 群衆計測: NMS 重なり合う個人を識別できる能力により、群衆管理アプリケーションにおいて優位性を発揮する。
DAMO-YOLOの理想的なシナリオ
- 高速製造: 欠陥検出にミリ秒単位の遅延が求められる組立ラインにおいて、YOLO遅延性がスループットのボトルネック化を防止します。
- 組み込みIoT:演算能力が限られ、変換演算が負荷となるデバイスにおいて、YOLO CNNベースの効率性が優位性をYOLO 。
- 小売分析:棚上の商品追跡や在庫管理において、処理速度を大幅に高速化するために中程度の精度が許容される場合。
Ultralytics のUltralytics :YOLO26
YOLO 強力な特徴YOLO 、Ultralytics 効率性と実用性の頂点を体現している。2026年1月にリリースされたYOLO26は、トランスフォーマーのNMS設計を高度に最適化されたエッジ対応アーキテクチャに統合することで、これら二つの設計思想の隔たりを埋める。
開発者がUltralyticsを選ぶ理由
- 統合プラットフォーム:メンテナンスが不十分な研究リポジトリとは異なり、Ultralytics モデルのトレーニング、デプロイ、管理のための包括的なプラットフォーム Ultralytics 。姿勢推定、セグメンテーション、OBBのいずれが必要であっても、すべて1つのライブラリで利用可能です。
使いやすさ:最先端モデルのトレーニングに必要なコードは最小限です。このアクセシビリティにより、研究者は複雑なトレーニングループのデバッグではなくデータに集中できます。
from ultralytics import YOLO # Load the latest YOLO26 model (NMS-free by design) model = YOLO("yolo26n.pt") # Train on a custom dataset with MuSGD optimizer results = model.train(data="coco8.yaml", epochs=100, imgsz=640)エンドツーエンド効率性:YOLO26はエンドツーエンドNMS設計を導入する。YOLOv10 先駆的にYOLOv10 実運用向けに改良されたものである。YOLO に見られる後処理のオーバーヘッドをYOLO RTDETRv2のフルアテンション層が伴う重い計算コストを回避している。
- エッジ最適化:ディストリビューション焦点損失(DFL)の削除とCPU 向けの特定最適化により、YOLO26はエッジデバイス上で前世代比最大43%高速化され、モバイル展開に最適な選択肢となっています。
- 高度なトレーニング: MuSGDオプティマイザー(LLMトレーニングに着想を得た)やProgLossといった機能により、安定したトレーニングとより速い収束が保証され、モデル開発に関連する時間とコストを削減します。
結論
純粋な研究や、ハイエンドGPU上で最大限の理論的精度が求められるシナリオにおいては、RTDETRv2が有力な選択肢となる。絶対最小のCNNフットプリントを必要とする厳しく制約されたレガシーシステムにおいては、YOLO依然として有効である。しかし、速度、精度、汎用性、導入容易性のバランスを必要とする現実世界のアプリケーションの大多数においては、Ultralytics 推奨されるソリューションである。
他の比較を探って、Ultralytics どのように評価されるかを確認してください YOLOv8 およびEfficientDetとの比較を確認してください。