YOLOv10 RTDETRv2:リアルタイム検出におけるアーキテクチャと性能
適切な物体検出アーキテクチャの選択は、コンピュータビジョンアプリケーションを開発する開発者にとって極めて重要な決定事項です。本ガイドでは、リアルタイム検出に向けた二つの異なるアプローチについて深く掘り下げます: YOLOv10:CNNベースYOLO 進化形であり、エンドツーエンド機能を実装。RTDETRv2:CNNの優位性に挑むべく設計されたトランスフォーマーベースのモデル。両モデルのアーキテクチャ、ベンチマーク、および様々な導入シナリオへの適合性を分析します。
モデルの概要と起源
これらのモデルの系譜を理解することは、その設計思想と想定される使用事例を明確にするのに役立つ。
YOLOv10:NMSのCNN
清華大学の研究者により2024年5月に発表YOLOv10 、YOLO における重要な転換点YOLOv10 。リアルタイム検出器の長年のボトルネックである非最大抑制(NMS)に対処している。NMSトレーニングを実現する一貫した二重アサインメントを採用することで、YOLOv10 YOLOv9 YOLOv8前世代モデルと比較し、低遅延化とデプロイメントパイプラインの簡素化YOLOv10 。
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織:清華大学
- 日付: 2024-05-23
- リンク:Arxiv論文 | GitHubリポジトリ
RTDETRv2: トランスフォーマーの挑戦者
RT-DETR Real-Time Detection Transformer)は、YOLO 真に匹敵する初のトランスフォーマーベースモデルであった。 百度が開発したRTDETRv2は、「Bag of Freebies」アプローチでこのアーキテクチャを改良し、収束性と柔軟性を高めるため学習戦略と構造を最適化している。視覚トランスフォーマー(ViT)の力を活用してグローバルコンテキストを捕捉し、計算コストは高いものの、遮蔽のある複雑なシーンではCNNを凌駕することが多い。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Changら
- 組織:Baidu
- 日付:2023年4月17日(原資料:RT-DETR)、2024年に更新
- リンク:Arxiv論文 | GitHubリポジトリ
技術アーキテクチャの比較
これらのモデルが特徴量を処理し予測を生成する方法に、根本的な違いがある。
YOLOv10アーキテクチャ
YOLOv10 畳み込みニューラルネットワーク(CNN)のバックボーンYOLOv10 、ヘッドとトレーニングプロセスに革新をもたらした。
- 一貫した二重割り当て:学習時には豊富な教師情報のための多対一割り当てを、推論時には一対一割り当てを使用します。これによりモデルはオブジェクトごとに単一の最適ボックスを予測でき、NMSの必要性を排除します。
- ホリスティック効率設計:本アーキテクチャは軽量分類ヘッドと空間チャネル分離型ダウンサンプリングを採用し、計算上の冗長性を低減する。
- 大規模カーネル畳み込み:近年の進歩と同様に、自己注意機構の重いコストを伴わずに精度を向上させるため、大きな受容野を用いる。
RTDETRv2 アーキテクチャ
RTDETRv2はトランスフォーマーのエンコーダ-デコーダ構造を基盤としています。
- ハイブリッドエンコーダ:CNNバックボーン(通常はResNetまたはHGNetv2)を用いて特徴量を抽出し、それをトランスフォーマーエンコーダで処理する。これにより画像全体にわたる長距離依存関係をモデル化できる。
- 不確実性最小化クエリ選択:このメカニズムはデコーダ向けに高品質な初期クエリを選択し、初期化と収束速度を向上させる。
- 柔軟な分離:RTDETRv2は離散サンプリングをサポートし、ユーザーが速度と精度のトレードオフをより動的に行えるようにします。これは剛体CNN構造よりも優れています。
なぜエコシステムが重要なのか
RTDETRv2のような学術モデルは斬新なアーキテクチャを提供する一方で、実運用に必要な堅牢なツール群を欠いていることが多い。Ultralytics である YOLO26 や YOLO11 は完全なエコシステムに統合されています。これには、データセット管理の簡素化、ワンクリックでのトレーニング、エッジデバイスへのシームレスなデプロイを実現Ultralytics が含まれます。
パフォーマンス指標
以下の表は、COCO における両モデルの性能を比較したものです。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
ベンチマークの分析
- レイテンシ優位性: YOLOv10 全モデルサイズにおいて著しく低いレイテンシYOLOv10 。例えば、T4 GPU上ではYOLOv10sがRTDETRv2-sよりも約2倍高速でありながら、同等の精度を維持している(mAP 46.7% 対 48.1%)。
- パラメータ効率: YOLOv10 パラメータ数とFLOPsにおいて非常にYOLOv10 。YOLOv10mはRTDETRv2-mと同等の精度を達成しながら、パラメータ数を半分以下(1540万対3600万)に抑えており、モバイルおよびエッジAIアプリケーションにおいてはるかに優れた性能を発揮する。
- 精度の上限:RTDETRv2は、トランスフォーマーのグローバルコンテキスト認識能力を活用し、生の精度(mAP)において「小」および「中」カテゴリで優れた性能を発揮する。しかし、最大スケール(超大)では、YOLOv10 、RTDETRv2を上回る性能を示しつつ、より高速な処理を維持する。
トレーニングと展開に関する考慮事項
研究段階から生産段階へ移行する際、トレーニング効率やメモリ使用量といった要素が極めて重要となる。
メモリ要件
自己注意機構の二次的な複雑さにより、RTDETRv2のようなトランスフォーマーベースのモデルは、一般的にトレーニング中に大幅にCUDA 消費します。これにより、トレーニングには高価なハイエンドGPUが必要となります。対照的に、Ultralytics YOLO メモリ効率の高さで知られています。YOLOv10 新しいYOLO26のようなモデルは、多くの場合、コンシューマー向けハードウェアや標準的なクラウドインスタンス上で微調整が可能であり、参入障壁を低くしています。
使いやすさとエコシステム
Ultralytics YOLOv10 最も重要な利点の一つは、合理化されたユーザー体験である。
- Ultralytics :わずか数行のPython YOLOv10 ロード、トレーニング、デプロイできます。これは YOLOv8YOLO11。
- エクスポートオプション: Ultralytics 、以下のような形式への即時エクスポートUltralytics ONNX、TensorRT、CoreML、OpenVINO。一方、RTDETRv2はデプロイメントサポートを改善しましたが、トランスフォーマーに関連する動的形状を処理するには、より複雑な設定が必要となる場合が多くあります。
- ドキュメント: 包括的なドキュメントにより、開発者はチュートリアル、ハイパーパラメータガイド、トラブルシューティングリソースにアクセスできます。
from ultralytics import YOLO
# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with just one line
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX for deployment
model.export(format="onnx")
理想的なユースケース
YOLOv10を選択すべき時
YOLOv10 、速度とリソース制約が重要なシナリオにおいて最適な選択肢YOLOv10 。
- モバイルアプリケーション:バッテリーを消耗せずにリアルタイム推論を必要とするiOS 。
- 組込みシステム:Raspberry PiNVIDIA のような、メモリ(RAM)が限られているデバイス上で動作する。
- 高FPS動画処理:交通監視やスポーツ分析などのアプリケーションでは、モーションブラーやイベントの取りこぼしを避けるために高フレームレートを維持することが不可欠である。
RTDETRv2を選択すべき時
RTDETRv2は、精度が最優先でありハードウェアリソースが豊富な場合に適しています。
- 複雑なシーン:重度の遮蔽や雑然とした環境において、グローバル注意機構が重なり合う物体の識別を支援する。
- サーバーサイド推論:モデルが強力なクラウドGPU上で実行されるシナリオ。これにより、わずかなmAP向上のために高いレイテンシとメモリコストが許容される。
未来: Ultralytics YOLO26
YOLOv10 NMS概念YOLOv10 一方で、この分野は急速に進化している。2026年1月にリリースされた Ultralytics はこの進化の頂点を示すものである。
YOLO26YOLOv10 先駆けたエンドツーエンドNMS設計YOLOv10 LLMトレーニングに着想を得たMuSGDオプティマイザや ProgLossなどの改良損失関数で強化しています。これにより、トレーニングが容易になるだけでなく、 CPU上で前世代モデルと比較して最大43%高速化を実現しました。 さらに、YOLO26はセグメンテーション、姿勢推定、OBBを含む全タスクをネイティブにサポートし、RTDETRv2のような検出特化モデルでは実現できない汎用性を提供します。
速度、精度、導入の容易さの最適なバランスを求める開発者には、YOLO26への移行を強く推奨します。
概要
YOLOv10 リアルタイム物体検出の限界を押し広げている。YOLOv10 NMS を解消YOLOv10 、驚異的な高速性と効率性を備えた純粋なCNNアーキテクチャを実現した。 RTDETRv2はトランスフォーマーがリアルタイム処理の有力候補となり得ることを証明し、複雑な特徴抽出において卓越した性能を発揮します。しかし、速度・効率性・開発者向けツールの融合を必要とする現実世界のアプリケーションの大多数においては、YOLOv10、YOLO11、そして最先端のYOLO26をサポートUltralytics 業界標準であり続けています。
さらに比較したい場合は、YOLOv8 YOLOv10YOLOv8 分析をご覧ください。または、エクスポートガイドでモデルの最適化方法を学んでください。