RTDETRv2 vsYOLOv10:NMSリアルタイム物体検出の進展
コンピュータビジョンの進化は、主に速度と精度のバランスを追求する不断の努力によって推進されてきた。 従来、リアルタイム物体検出パイプラインでは、重複するバウンディングボックスを除去する後処理ステップとして非最大抑制(NMS)に依存してきた。NMS 遅延のボトルネックや複雑なハイパーパラメータ調整NMS 。近年、この問題を本質的に解決する2つの異なるアーキテクチャ手法が登場している:RTDETRv2のようなトランスフォーマーベースモデルと、YOLOv10CNNベースモデルである。
本ガイドでは、これら2つのモデルについて包括的な技術比較を行い、アーキテクチャ、パフォーマンス指標、最適なユースケースを分析するとともに、Ultralytics における最新のイノベーションが、現代的な導入環境における究極のソリューションをいかに提供しているかを明らかにします。
RTDETRv2: リアルタイム検出トランスフォーマー
RTDETRv2はオリジナルの RT-DETR アーキテクチャを基盤として構築され、ビジョントランスフォーマーのグローバルコンテキスト理解能力と、従来YOLO が支配してきたリアルタイム処理速度要件を融合させることを目指しています。
主な特徴:
- 著者:呂文宇、趙一安、常琴耀、黄奎、王冠中、劉毅
- 組織:Baidu
- 日付: 2024年7月24日
- Arxiv:https://arxiv.org/abs/2407.17140
- GitHub:RT-DETR
アーキテクチャとトレーニング手法
RTDETRv2は、NMS本質的に回避するエンドツーエンドのトランスフォーマーアーキテクチャを採用しています。前世代モデルから改良を加え、「Bag-of-Freebies」アプローチを導入し、トレーニング戦略を最適化するとともに、マルチスケール検出機能を組み込んでいます。 本モデルはCNNバックボーンを用いて特徴マップ(エッジやテクスチャなどの視覚的詳細)を抽出し、それをトランスフォーマーのエンコーダ-デコーダ構造で処理します。これにより画像全体の文脈を同時に分析可能となり、物体が密集または重なり合う複雑なシーンの理解に極めて効果的です。
長所と短所
長所:
- グローバルコンテキスト: 注意機構により、モデルは複雑で雑然とした環境において優れた性能を発揮する。
- NMS:物体の座標を直接予測し、デプロイメントパイプラインを簡素化します。
- 高精度: COCO において優れた平均精度(mAP)を達成。
弱点:
- リソース集約的:トランスフォーマーアーキテクチャは、CNNと比較してトレーニング中に大幅に多くのCUDA 必要とするため、標準的なハードウェアでの微調整にコストがかかる。
- 推論速度の変動性:高速である一方、負荷の高い注意計算は、専用AIアクセラレータを欠くエッジデバイスにおけるコンピュータビジョン処理においてFPSの低下を招く可能性がある。
YOLOv10: リアルタイムエンドツーエンド物体検出
YOLOv10 、CNNフレームワーク内で直接的に長年のNMS に対処することで、YOLO 検出の系譜において大きな転換点YOLOv10 。
主な特徴:
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織:清華大学
- 日付: 2024-05-23
- Arxiv:https://arxiv.org/abs/2405.14458
- GitHub:https://github.com/THU-MIG/yolov10
アーキテクチャとトレーニング手法
YOLOv10 核となる革新YOLOv10 NMSトレーニングを実現する一貫した二重YOLOv10 。トレーニング時には2つの検出ヘッドを採用する:豊富な監督信号を提供する1対多アサインメント(従来のYOLOと同様)と、NMS不要にする1対1アサインメントである。推論時には1対1ヘッドのみを使用し、エンドツーエンドのプロセスを実現する。 さらに著者らは、効率性と精度を両立させる包括的なモデル設計戦略を採用し、計算上の冗長性を削減するため各構成要素を総合的に最適化した。
長所と短所
長所:
- 極限の高速性: NMS を除去しアーキテクチャを最適化することで、YOLOv10 驚異的に低い推論遅延 YOLOv10 。
- 効率性:他のモデルと同等の精度を達成するために必要なパラメータとFLOPsが少ないため、制約のある環境に非常に適している。
- NMS展開: スマート監視などのエッジアプリケーションへの統合を効率化します。
弱点:
- 第一世代コンセプト:この特定のNMS YOLO として、基盤を築きつつも、後続モデル(例: YOLO11 やYOLO26に見られるようなマルチタスクの汎用性と最適化の余地を残した。
パフォーマンス比較
モデルを本番環境で評価する際、精度と計算コストのバランスが極めて重要である。下表は、RTDETRv2とYOLOv10の各種サイズにおける性能トレードオフをまとめたものである。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
RTDETRv2は高い精度を提供する一方、YOLOv10 特に小型バリエーション(NanoおよびSmall)において、レイテンシとパラメータ効率の面で顕著な優YOLOv10 、エッジコンピューティングやAIoTアプリケーションにおいて非常に魅力的な選択肢となっている。
適切なスケールの選択
サーバーグレードのGPUにデプロイする場合、 バッチサイズ VRAMの制約が緩和されるため、より大きなモデル(例えば -x または -l精度を最大化する。ラズベリーパイや携帯電話などのエッジデバイスでは、nanoを優先する。-nまたは小さい(-sリアルタイムのフレームレートを維持するためのバリアント。
ユースケースと推奨事項
YOLOv10 具体的なプロジェクト要件、デプロイメント上の制約、およびエコシステムのYOLOv10 。
RT-DETRを選択すべきタイミング
RT-DETR 以下に最適RT-DETR :
- トランスフォーマーベースの検出研究: NMSを用いないエンドツーエンド物体検出のための注意機構とトランスフォーマーアーキテクチャを探求するプロジェクト。
- 高精度シナリオ(柔軟なレイテンシ対応):検出精度が最優先事項であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体検出:主に中~大型の物体が存在するシーンにおいて、トランスフォーマーのグローバルアテンション機構が自然な優位性を発揮する。
YOLOv10を選択すべき時
YOLOv10 以下に推奨YOLOv10 :
- NMSリアルタイム検出:ノンマキシマム抑制なしのエンドツーエンド検出により、導入の複雑さを軽減するアプリケーション。
- 速度と精度のバランスの取れたトレードオフ:様々なモデル規模において、推論速度と検出精度との強力なバランスを必要とするプロジェクト。
- 一貫したレイテンシを必要とするアプリケーション:予測可能な推論時間が極めて重要な展開シナリオ(例:ロボティクスや自律システム)。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
Ultralytics :YOLO26のご紹介
YOLOv10 学術的に画期的な進歩YOLOv10 、実世界での展開には堅牢で適切に管理されたソフトウェアエコシステムが不可欠です。Ultralytics 、使いやすさ、充実したドキュメント、データアノテーションとデプロイのための強力なツールを組み合わせ、比類のない開発者体験を提供します。
2026年に究極の最先端を求める開発者のために、 Ultralytics が究極の選択肢です。両アーキテクチャの優れたアイデアを統合しつつ、画期的な改良を実現しています:
- エンドツーエンドNMS設計: YOLOv10が先駆けた概念を基盤とし、YOLO26はNMS ネイティブに排除。これにより、より高速でシンプルなデプロイロジックとゼロレイテンシー変動を実現。
- DFL除去:分布焦点損失を除去することで、YOLO26はモデルエクスポートを簡素化し、エッジデバイスや低消費電力デバイスとの互換性を大幅に向上させます。
- MuSGDオプティマイザー: SGD ミューオンのハイブリッド(LLMトレーニングの革新に着想を得た)であるこの新規オプティマイザーは、従来の方法と比較してより安定したトレーニングと著しく速い収束を提供する。
- 最大43%高速CPU :専用GPUのない環境向けに最適化され、高性能ビジョンAIを広く普及させます。
- ProgLoss + STAL:これらの高度な損失関数は、ドローンやIoTセンサーを利用するアプリケーションにおいて極めて重要な、小規模物体認識において顕著な改善をもたらす。
- 比類なき汎用性:バウンディングボックスに限定されたモデルとは異なり、YOLO26はインスタンスセグメンテーション、姿勢推定、画像分類、OBB検出を含む全タスク群をサポートし、姿勢推定向けの残差対数尤度推定(RLE)などタスク固有の改良も完備している。
Pythonによるシームレスな実装
Ultralytics Python これらのモデルのトレーニングとデプロイは、摩擦なく行えるよう設計されています。トレーニング時のメモリ要件は、トランスフォーマーを多用するアーキテクチャと比較して著しく低く、標準的なハードウェア上で強力なモデルをトレーニングすることが可能です。
from ultralytics import YOLO
# Load the cutting-edge YOLO26 model (recommended)
# Alternatively, load a YOLOv10 model using YOLO('yolov10n.pt')
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Easily export to various formats for edge deployment
model.export(format="onnx", simplify=True)
セキュリティ警報システムの実装であれ、医療画像解析の実施であれ、活発Ultralytics が支援するモデルを選択すれば、成功に必要なツール、ハイパーパラメータ調整ガイド、継続的な更新が保証されます。YOLOv10 NMSキテクチャの道を開いた一方で、YOLO26はその手法を完成させ、性能、汎用性、実用性の面で最適なバランスを提供します。