YOLOv10 RTDETRv2: リアルタイムエンドツーエンド物体検出器の評価
コンピュータビジョンの分野は驚異的なスピードで進化しており、新たなアーキテクチャがリアルタイム物体検出の先端技術を絶えず再定義している。 この進化における二つの重要なマイルYOLOv10 。両モデルとも、従来の検出パイプラインにおける根本的なボトルネックである非最大抑制(NMS)後処理の必要性を排除することを目指しているが、この課題へのアプローチは全く異なるアーキテクチャパラダイムに基づいている。
この技術比較では、各ツールのアーキテクチャ、トレーニング手法、および最適な導入シナリオについて詳細な分析を行い、開発者や研究者が次なるビジョンAIプロジェクトに最適なツールを選択する手助けをします。
YOLOv10:NMS先駆者
清華大学の研究者によって開発されたYOLOv10 、アーキテクチャ効率と後処理ボトルネックの解消に重点YOLOv10 。NMSトレーニングに向けた一貫した二重アサインメントを導入することで、推論遅延を大幅に低減しながら競争力のある性能を達成している。
技術仕様
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織:清華大学
- 日付: 2024-05-23
- ArXiv:YOLOv10
- GitHub:THU-MIG/yolov10
- ドキュメント:YOLOv10
アーキテクチャと方法論
YOLOv10主な革新点は、効率性と精度を両立させる包括的なモデル設計にある。両方の観点から様々な構成要素を最適化し、計算オーバーヘッドを大幅に削減している。一貫した二重アサインメント戦略により、モデルはNMS依存せずに学習でき、これにより合理化されたエンドツーエンドのデプロイメントパイプラインが実現される。これは特に、モデルをONNXやPython形式などのエッジフォーマットにエクスポートする際に有益である。 ONNX や TensorRTなどのエッジフォーマットにモデルをエクスポートする場合に特に有益です。後処理操作が予期せぬ遅延を引き起こす可能性があるためです。
長所と短所
このモデルは特に小型バリエーション(NおよびS)において、速度と精度のトレードオフが極めて優れている。最小限のレイテンシにより、高速エッジ環境での使用に最適である。ただし、YOLOv10 検出速度そのものにおいてはYOLOv10 ものの、依然として検出専用の特化モデルである。インスタンスセグメンテーションや姿勢推定を必要とするチームは、より汎用性の高いフレームワークを検討する必要がある。
RTDETRv2: 検出トランスフォーマーの改良
オリジナルのリアルタイム検出トランスフォーマーを基盤とし、RTDETRv2はベースラインを改善するために「フリービーの袋」を組み込み、トランスフォーマーがリアルタイムシナリオにおいてCNNと競合し得ることを実証している。
技術仕様
- 著者:呂文宇、趙一安、常琴耀、黄奎、王冠中、劉毅
- 組織:Baidu
- 日付: 2024年7月24日
- ArXiv:RTDETRv2 論文
- GitHub:RT-DETR
- ドキュメント:RTDETRv2 ドキュメント
アーキテクチャと方法論
RTDETRv2はハイブリッドアーキテクチャを採用し、視覚特徴抽出用の畳み込みニューラルネットワーク(CNN)バックボーンと、包括的なシーン理解のためのトランスフォーマーエンコーダ-デコーダを組み合わせています。トランスフォーマーの自己注意機構により、モデルは画像をグローバルに捉えることが可能となり、複雑なシーン、重なり合う物体、密集した群衆の処理に極めて効果的です。
長所と短所
トランスフォーマーアーキテクチャは、特に大きなパラメータスケールにおいて優れた精度を提供し、NMS最終的な検出結果をネイティブに出力します。しかし、これには代償が伴います。トランスフォーマーモデルは従来、トレーニング中に大幅にCUDA 必要とし、純粋なCNNアーキテクチャと比較して収束が遅くなる可能性があります。RTDETRv2は推論速度を改善していますが、一般的にYOLO 多くのメモリを消費します。
パフォーマンス比較
パフォーマンス指標を評価することで、各モデルがどの点で優れているかがより明確になります。以下の表は、COCO における各モデルの能力をまとめたものです:
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
データ分析において、YOLOv10 同等のサイズ範囲でパラメータ効率とTensorRT において明確な優位性をYOLOv10 。RTDETRv2-xは精度において大規模なYOLOv10xに匹敵するが、約2000万個多いパラメータと著しく高いFLOPsを必要とする。
ユースケースと推奨事項
RT-DETR YOLOv10 具体的なプロジェクト要件、デプロイメント上の制約、およびエコシステム上の好みにRT-DETR 。
YOLOv10を選択すべき時
YOLOv10 以下に最適YOLOv10 :
- NMSリアルタイム検出:ノンマキシマム抑制なしのエンドツーエンド検出により、導入の複雑さを軽減するアプリケーション。
- 速度と精度のバランスの取れたトレードオフ:様々なモデル規模において、推論速度と検出精度との強力なバランスを必要とするプロジェクト。
- 一貫したレイテンシを必要とするアプリケーション:予測可能な推論時間が極めて重要な展開シナリオ(例:ロボティクスや自律システム)。
RT-DETRを選択すべきタイミング
RT-DETR 以下に推奨RT-DETR :
- トランスフォーマーベースの検出研究: NMSを用いないエンドツーエンド物体検出のための注意機構とトランスフォーマーアーキテクチャを探求するプロジェクト。
- 高精度シナリオ(柔軟なレイテンシ対応):検出精度が最優先事項であり、わずかに高い推論レイテンシが許容されるアプリケーション。
- 大型物体検出:主に中~大型の物体が存在するシーンにおいて、トランスフォーマーのグローバルアテンション機構が自然な優位性を発揮する。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
Ultralytics :エコシステムとイノベーション
YOLOv10 堅牢な検出能力を提供しますが、モデル選択は往々にして周辺ソフトウェアエコシステムが鍵となります。Ultralytics 、深層学習の複雑さを抽象化したシームレスで統一されたインターフェースを提供します。
新たな基準:Ultralytics
最高のパフォーマンスを求める開発者にとって、Ultralytics 近年のアーキテクチャ進歩の集大成です。2026年初頭にリリースされたYOLO26は、YOLOv10先駆けたエンドツーエンドNMS設計を継承し、NMS 完全に排除することで、より高速かつシンプルなデプロイを実現します。
YOLO26を選ぶ理由
YOLO26はMuSGDオプティマイザー(SGD ハイブリッド)により、大規模言語モデル(LLM)のトレーニング技術をコンピュータビジョン分野に革新をもたらし、より安定したトレーニングと高速な収束を実現します。さらに最大43%CPU 誇り、エッジコンピューティングにおける最良の選択肢となっています。
さらに、YOLO26はProgLoss + STALを導入し、小規模物体認識において顕著な改善を実現。YOLOv10、極めて高い汎用性を提供する。物体検出、セグメンテーション、姿勢推定、方向付きバウンディングボックス(OBB)をネイティブにサポートし、セマンティックセグメンテーション損失や姿勢推定のための残差対数尤度推定(RLE)といったタスク特化型の改善を施している。 さらに、分布焦点損失(DFL)の削除により、エクスポートの簡素化と低電力デバイスとの互換性向上が図られています。
使いやすさとトレーニング効率
古い世代のモデル(例: Ultralytics YOLO11 といった旧世代モデルから最先端のYOLO26まで、合理化されたPython トレーニング時のメモリ使用量が低減され、極めて高速なワークフローが実現します。
from ultralytics import RTDETR, YOLO
# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")
整備されたエコシステムは、ハイパーパラメータ調整を容易にするツールを提供し、広範な追跡ソリューションやモデルデプロイメントオプションとシームレスに統合されます。
結論
YOLOv10 NMS物体検出の追求における重要なマイルストーンである。RTDETRv2は、メモリ要件は高いものの、トランスフォーマーが優れたグローバル文脈理解能力を備えつつリアルタイム遅延を達成できることを実証した。YOLOv10 、リソース制約のある検出タスク向けに最適化された、高効率で高速なCNN代替手法YOLOv10 。
ただし、バランスの取れた性能、マルチタスク対応の汎用性、そして最も成熟したエコシステムを求める開発者には、Ultralytics 活用を強く推奨します。これは、先行モデルのアーキテクチャ革新と、ビジョンAIのデプロイをシームレスな現実とする堅牢でユーザーフレンドリーなツール群が見事に融合したソリューションです。