RTDETRv2 対YOLOv10:リアルタイム検出アーキテクチャの比較
コンピュータビジョンの急速に進化する分野において、精度、速度、効率の最適なバランスを追求する取り組みが、イノベーションを牽引し続けている。最近の議論を形作ってきた二つの重要なアーキテクチャは RT-DETRv2 と YOLOv10である。両モデルともリアルタイム物体検出という長年の課題解決を目指すものの、そのアプローチは根本的に異なるアーキテクチャ的視点——トランスフォーマー対CNNベースの革新——に基づいている。
この技術比較では、各ツールのアーキテクチャ、パフォーマンス指標、および理想的なユースケースを検証し、開発者や研究者が特定のアプリケーションに最適なツールを選択する手助けをします。
比較表
以下の表は、COCO における主要な性能指標を示しています。太字の値は各カテゴリにおける最良の性能を示します。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
RTDETRv2: リアルタイムTransformerの洗練
RT-DETRv2 リアルタイム検出トランスフォーマー第2版)RT-DETRv2 、オリジナルのRT-DETRの成功を基盤としています。オリジナルのRT-DETRは、CNNベースのモデル(例: YOLOv8などの速度に真正面から対抗した最初のトランスフォーマーベース検出器でした。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織:Baidu
- 日付:2023年4月17日(オリジナル)、2024年7月(v2)
- Arxiv:RT-DETRv2: リアルタイム検出トランスフォーマーのためのBag-of-Freebiesを用いた改良ベースライン
アーキテクチャとイノベーション
RT-DETRv2 、トランスフォーマーの中核的な強みである「画像全体にわたるグローバルな文脈をモデル化する能力」RT-DETRv2 、複雑で雑然としたシーンにおける物体検出に特に有効である。局所的な受容野に依存する従来のCNNとは異なり、RT-DETRv2 マルチスケール特徴を効率的に処理するハイブリッドエンコーダーRT-DETRv2 。
v2アップデートの主要な特徴は、より柔軟なグリッドサンプリングを可能にする離散サンプリング機構の導入であり、これにより速度と精度のトレードオフがさらに最適化されます。本モデルは、一連のオブジェクトを直接予測することで非最大抑制(NMS)の必要性を排除し、後処理パイプラインを簡素化します。
Transformerのメモリ使用量
トランスフォーマーはグローバルコンテキスト処理に優れる一方、CNNと比較して学習時に大幅にGPU 必要とする。ハードウェアリソースが限られているユーザーは、軽量YOLO と比較してRTDETRv2の学習が困難と感じる可能性がある。
パフォーマンス
RT-DETRv2 卓越した精度RT-DETRv2 、COCO において同規模YOLO しばしば上回る性能を発揮する。特に高精度と遮蔽耐性が求められるシナリオで強みを発揮する。ただし、この精度は高い計算リソースを必要とする代償を伴うことが多く、Ultralytics YOLO と比較すると、CPUッジ展開には適さない。
YOLOv10: エンドツーエンドCNNの進化
YOLOv10 、従来のCNNアーキテクチャにNMSトレーニングを導入することで、YOLO における大きな転換点をYOLOv10 。この革新は、CNNの簡潔さとトランスフォーマーのエンドツーエンド能力との間のギャップを埋めるものである。
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織:清華大学
- 日付: 2024年5月23日
- Arxiv:YOLOv10: リアルタイムエンド・トゥ・エンドオブジェクトdetect
アーキテクチャとイノベーション
YOLOv10 NMSトレーニングを実現する一貫した二重アサインメント戦略YOLOv10 。トレーニング中、モデルは1対多と1対1の両方のラベルアサインメントを使用する。これにより、モデルは豊富な監督信号の恩恵を受けつつ、推論時にはオブジェクトごとに1つのボックスのみを予測することを保証する。
さらに、このアーキテクチャは効率性と精度を追求した包括的な設計を特徴としています。これには軽量な分類ヘッドと空間チャネル分離型ダウンサンプリングが含まれ、計算オーバーヘッド(FLOPs)とパラメータ数を削減します。
パフォーマンス
YOLOv10 推論遅延においてYOLOv10 。NMS去することで遅延のばらつきを低減し、自動運転のようなリアルタイムアプリケーションに不可欠な特性を実現している。YOLOv10nやYOLOv10sといった小型化モデルはエッジデバイス上で驚異的な速度を提供し、リソース制約のある環境において極めて効果的である。
重要な相違点とユースケース
1.NMS
両モデルとも「エンドツーエンド」機能を主張しているが、その実現方法は異なる。RT-DETRv2 トランスフォーマー固有のRT-DETRv2 個別の物体を予測する。YOLOv10 バックボーンに適用した新規トレーニング戦略によりこれをYOLOv10 。YOLOv10 畳み込み演算に最適化された標準ハードウェア上でYOLOv10 高速化する一方、RT-DETRv2 並列トランスフォーマー計算が効率的なGPU環境でRT-DETRv2 。
2. 学習効率とメモリ
Ultralytics 従来から優れている分野の一つがトレーニング効率である。RT-DETRv2 のようなトランスフォーマーモデルは、メモリ消費が激しく収束が遅いRT-DETRv2 。これに対し、YOLOv10 YOLO11 はハードウェアリソースに対してはるかに寛容です。
Ultralytics YOLO 、この点で明確な優位性を維持しています:
- ローワーメモリ: YOLO トレーニングには通常、より少ないVRAMで済むため、コンシューマー向けGPUでより大きなバッチサイズが可能となる。
- 収束の高速化:CNNは、トランスフォーマーベースのアーキテクチャと比較して、収束に達するまでに必要なエポック数が一般的に少ない。
3. 多機能性とエコシステム
RT-DETRv2 YOLOv10 強力なYOLOv10 、主にバウンディングボックス検出に焦点を当てています。これに対し、Ultralytics は、より幅広いタスクを標準でサポートするモデルを提供します。
Ultralytics 、ユーザーが単なるモデルではなく完全なワークフローを入手できることを保証します。これには、データセット管理Ultralytics シームレスな統合や、 ONNX、TensorRT、OpenVINO簡単なエクスポートが含まれます。
Ultralytics :YOLO26のご紹介
RT-DETRv2 YOLOv10 優れた特徴YOLOv10 ものの、この分野は進化を続けています。性能、効率性、使いやすさの絶対的な頂点を求める開発者にとって、Ultralytics 最良の選択肢です。
2026年1月にリリースされたYOLO26は、トランスフォーマーとCNNの両方から最良の革新技術を統合し、次世代の統一アーキテクチャを実現した。
YOLO26が推奨される理由
- ネイティブのエンドツーエンド設計: YOLOv10と同様に、YOLO26はエンドツーエンドNMS設計を採用しています。これにより後処理の遅延ボトルネックが解消され、安全性が極めて重要なシステムにおいて不可欠な、一貫性と予測可能性を備えた推論速度が保証されます。
- あらゆるハードウェア向けに最適化:YOLO26は分布焦点損失(DFL)を排除し、モデルグラフを大幅に簡素化。これによりエッジAIアクセラレータとの互換性が向上し、前世代と比較して CPU 最大43%高速化。
- 高度なトレーニングダイナミクス:Moonshot AIのLLMトレーニングに着想を得た、SGD ハイブリッドであるMuSGDオプティマイザーを組み込むことで、YOLO26は安定したトレーニングとより速い収束を実現し、大規模言語モデルの革新をコンピュータビジョンにもたらす。
- タスクの汎用性: RT-DETRv2検出に特化しているのとは異なり、YOLO26はオブジェクト検出、インスタンスセグメンテーション、姿勢推定、方向付きバウンディングボックス(OBB)、分類をネイティブにサポートします。
シームレスな移行
Ultralytics を使えば、YOLO26への切り替えは簡単です。Python 内のモデル名を変更するだけです:
from ultralytics import YOLO
# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")
# Train on your custom dataset
model.train(data="coco8.yaml", epochs=100)
結論
純粋な研究や、GPU 制限でトランスフォーマーの注意機構が特に必要とされるシナリオにおいては、 RT-DETRv2 は有力な選択肢です。エッジデバイス上で低遅延を優先し、NMSCNNアーキテクチャを求めるユーザーには、 YOLOv10 は依然として確固たる学術的選択肢である。
ただし、速度、精度、堅牢なツールのバランスが求められる本番環境での展開においては、Ultralytics 最善の選択肢です。整備されたエコシステムへの統合、多様なコンピュータビジョンタスクへの対応、画期的なアーキテクチャ改良により、2026年以降を見据えた将来性において最も優れたソリューションとなっています。
参照
- Ultralytics YOLO11 - 業界で広く採用されている堅牢な前身モデル。
- RT-DETR - オリジナルのリアルタイム検出トランスフォーマー。
- YOLOv8 -YOLO 万能な定番モデル。