YOLO . RTDETRv2: リアルタイム検出のためのアーキテクチャ
最適な物体検出アーキテクチャの選択は、推論レイテンシからデプロイコストに至るまであらゆる要素に影響を与える極めて重要な決定である。 現状に挑戦を突きつけた二つの革新的なモデルが、YOLO 百度のRTDETRv2である。YOLO ニューラルアーキテクチャ検索(NAS)と効率的な再パラメータ化にYOLO 一方、RTDETRv2はDETRパラダイムを洗練させることでリアルタイムトランスフォーマーの限界を押し広げている。
このガイドでは、各モデルのアーキテクチャ、性能指標、トレーニング手法について詳細な技術分析を行い、特定のコンピュータービジョン要件に最適なモデルを選択する手助けをします。さらに次世代の Ultralytics がこれらの手法の長所を統合し、統一された使いやすいフレームワークとして実現する方法を検証します。
DAMO-YOLO の概要
YOLO Distillation-Enhanced Neural Architecture Search-OptimizedYOLO)YOLO 、低遅延と高精度が必須条件となる産業用途の特定ニーズに対応するため、アリババグループによって開発された。性能を損なうことなくモデルを圧縮する一連の技術を導入している。
著者:許賢哲, 江一琪, 陳偉華, 黄一倫, 張遠, 孫秀宇
所属:Alibaba Group
日付:2022年11月23日
Arxiv:YOLO
GitHub:YOLO
主要なアーキテクチャ革新
YOLO 効率性を追求した複数の「特典の詰め合わせ」によって差別化YOLO :
- ニューラルアーキテクチャ検索(NAS):手動設計されたバックボーンを持つモデルとは異なり、YOLO バックボーンの最も効率的な構造を自動的に発見する(MAE-NAS)。これにより浮動小数点演算量(FLOPs)と精度のトレードオフを最適化する。
- 効率的なRepGFPN:再パラメータ化を活用する一般化特徴ピラミッドネットワーク(RepGFPN)を採用している。これにより、学習時に使用される複雑な構造を、推論時にはより単純で高速な畳み込みに融合させることが可能となる。
- ZeroHead:軽量な検出ヘッドであり、最終予測層に通常伴う計算負荷を最小限に抑える。
- AlignedOTA:学習中の分類タスクと回帰タスク間の位置ずれ問題を解決する最適化されたラベル割り当て戦略。
RTDETRv2 概要
RTDETRv2(リアルタイム検出トランスフォーマーv2)は、YOLO するRT-DETR成功を基盤としています。百度によって開発された本モデルは、収束速度と柔軟性を向上させつつ、非最大抑制(NMS)後処理の必要性を排除することを目指しています。
著者:呂文宇, 趙一安, 張勤耀, 黄奎, 王冠中, 劉毅
所属:Baidu
日付:2023年4月17日 (v1), 2024年7月 (v2)
Arxiv:RT-DETRv2
GitHub:RT-DETR
主要なアーキテクチャ革新
RTDETRv2は実用的な視覚タスク向けにトランスフォーマーアーキテクチャを改良します:
- ハイブリッドエンコーダ:CNNバックボーンと効率的なハイブリッドエンコーダを組み合わせ、同一スケール内相互作用と異スケール融合を分離することで、標準的な自己注意機構の高い計算コストを解決する。
- IoUクエリ選択:このメカニズムは、交差率(IoU)スコアに基づいて高品質な初期オブジェクトクエリを選択し、トレーニングの収束を早める。
- 柔軟なデプロイメント:前世代とは異なり、RTDETRv2は柔軟な入力形状をサポートし、 TensorRTの最適化を強化し、多様なハードウェアバックエンドでの実用性を高めています。
- NMS:対象物群を直接予測することで、NMS起因する遅延変動を排除し、リアルタイム動画解析において決定的な優位性を発揮します。
パフォーマンス比較
これらのアーキテクチャを比較する際には、異なるハードウェア構成における平均精度(mAP)と推論速度のバランスを検討することが極めて重要である。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
分析
- 精度:RTDETRv2は一般的にmAP を達成し、特に中規模および大規模のバリエーションで顕著である。「X」モデルは54.3%という高い mAPを達成し、最大のYOLO を上回る性能を示した。これにより、医療画像診断や欠陥検出など、高精度な検出が求められるアプリケーションに適している。
- 速度:YOLO TensorRT 最適化ハードウェアにおいて卓越したスループットを発揮します。再パラメータ化されたCNNアーキテクチャは、RTDETRv2のトランスフォーマーブロックよりも本質的にハードウェア親和性が高く、「Tiny」および「Small」バリエーションにおいて低遅延を実現します。
- パラメータ効率:YOLO 同等の性能レベルにおいてパラメータ数が少ないYOLO 、ストレージ制約のあるエッジデバイスにとって有利となる。
Ultralyticsの利点:なぜYOLO26を選ぶのか?
YOLO 特化した強みを持つ一方、開発者は複雑なトレーニングパイプライン、限定的なプラットフォームサポート、断片化されたドキュメントといった課題に直面することが多い。Ultralytics 、最先端のイノベーションをシームレスでユーザー中心のエコシステムに統合することで、これらの課題を解決する。
統合された卓越性
YOLO26はCNNの高速性とトランスフォーマーのエンドツーエンドの簡便性を統合し、NMS設計によりデプロイを簡素化しながら、GPU CPU 従来モデルを上回る性能を発揮する。
1. 優れたユーザー体験とエコシステム
UltralyticsUltralytics 特長は 使いやすさ研究リポジトリでは複雑な環境設定が必要となることが多い一方、YOLO26は数秒でインストールして実行できます。 ultralytics パッケージ。 Ultralytics Platform さらに、ウェブベースのデータセット管理、ワンクリックでのトレーニング、自動化されたデプロイメントを提供することで、これを強化します。
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100)
2. エンドツーエンドNMS
YOLO26はネイティブなエンドツーエンドNMSを採用しており、この特徴はRTDETRv2と共通するが、高度に最適化されたCNNフレームワーク内で実装されている。この画期的な進歩により、デプロイメントパイプラインにおける一般的なボトルネックである非最大抑制(NMS)が不要となった。NMS排除することで、YOLO26は一貫した推論時間を保証し、OpenVINOなどのツールとの統合を簡素化する。 OpenVINO やCoreMLなどのツールとの統合を簡素化します。
3. 訓練の効率性と安定性
YOLO26は、視覚タスクに前例のない安定性をもたらすMuSGDオプティマイザーを導入する。SGD ューオン(LLMトレーニングに着想を得た)のハイブリッド手法であり、RTDETRv2のようなトランスフォーマーベースモデルでしばしば必要とされる複雑なスケジュールの代わりに、より速い収束とハイパーパラメータ調整の削減を可能にする。
4. エッジファースト最適化
ラズベリーNVIDIA などのエッジデバイスにデプロイする開発者向けに、YOLO26は最大CPU を実現します。分布焦点損失(DFL)の除去により、エクスポート用モデルグラフがさらに簡素化され、計算負荷の高いトランスフォーマーの注意機構と比較して、低電力アクセラレータとの互換性が向上します。
5. タスクを超えた汎用性
多くの特化型検出器とは異なり、YOLO26は真のマルチタスク学習器である。単一のコードベース内で、物体検出、インスタンスセグメンテーション、姿勢推定、分類、およびオリエンテッドバウンディングボックス(OBB)タスクをサポートする。
ユースケースの推奨事項
- YOLO を選択YOLO :特定のNVIDIA でのTensorRT 唯一のデプロイ先であり、単純な検出タスクにおいて絶対的な最低遅延を必要とする、厳密に産業用検査タスクに取り組んでいる場合。
- RTDETRv2を選択すべき場合:遮蔽を含む複雑なシーンで高精度検出が必要であり、トランスフォーマーの計算コストが許容範囲内の高性能GPUを利用できる場合。また、NMS推論NMS厳格な要件でありながらトランスフォーマーアーキテクチャを優先する場合にも有力な選択肢となる。
- Ultralytics を選択すべき場合:最先端の精度、NMS速度、CPU、GPU、モバイルデバイスへの容易な展開を兼ね備えた、最高の総合性能を求める場合。堅牢なドキュメント、活発なコミュニティサポート、Ultralytics との統合により、本番システムにおいて将来性のある選択肢となります。
結論
物体検出の分野には多様な選択肢が存在する。YOLO効率性におけるニューラルアーキテクチャ検索の威力を示し、RTDETRv2はリアルタイムトランスフォーマーの可能性を体現している。Ultralytics 、これらの進歩を統合することで際NMS推論、エッジ最適化による高速処理、LLMに着想を得たトレーニング安定性を提供し、これら全てを業界で最も開発者フレンドリーなエコシステムに包み込んでいる。
次のプロジェクトを始める準備が整った方にとって、YOLO26のドキュメントを調べることは、最小限の手間で最先端の結果を達成するための推奨される第一歩です。