RTDETRv2 vs.YOLOv8: リアルタイム物体検出の変革
コンピュータビジョンの分野は急速に進化し、従来の畳み込みニューラルネットワーク(CNN)からトランスフォーマーを組み込んだハイブリッドアーキテクチャへと移行している。この移行期において特に注目すべきモデルが、RTDETRv2(リアルタイム検出トランスフォーマー第2版)と Ultralytics YOLOv8である。両モデルともリアルタイム物体検出の課題解決を目指すものの、そのアプローチは根本的に異なる哲学とアーキテクチャ設計に基づいている。
このガイドは、推論速度、精度、トレーニング効率などの要素を考慮し、開発者、研究者、エンジニアが特定のデプロイメント要件に適したモデルを選択するための技術的比較を提供します。
モデルの概要
メトリクスを掘り下げる前に、各モデルの系譜とアーキテクチャ上の目標を理解することが不可欠である。
RTDETRv2
RTDETRv2は、リアルタイムシナリオにおいてYOLO 真正面から挑んだ初のトランスフォーマーベース検出器である初代RT-DETRの成功を基盤としています。 百度の研究者によって開発された本モデルは、純粋なCNNではしばしば不足しがちなグローバルコンテキストを捉えるため、ビジョントランスフォーマーバックボーンを活用しています。その最大の特徴はエンドツーエンド予測能力にあり、これにより後処理としての非最大抑制(NMS)が不要となります。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Changら
- 組織:Baidu
- 日付:2024年7月(v2 論文)
- Arxiv:RT-DETRv2: Bag-of-Freebiesで改善されたベースライン
- GitHub:RT-DETR Repository
Ultralytics YOLOv8
YOLOv8Ultralytics公開したYOLOv8は、CNNベースの物体検出効率の頂点を代表するモデルである。アンカーフリー検出ヘッドと刷新されたCSPDarknetバックボーンを導入している。汎用性を追求した設計により、YOLOv8 単なる検出器YOLOv8 、インスタンスセグメンテーション、姿勢推定、分類といったタスクをネイティブにサポートする。データセット管理からデプロイまでを簡素化する堅牢なソフトウェアエコシステムに支えられている。
- 著者: Glenn Jocher、Ayush Chaurasia、Jing Qiu
- 組織:Ultralytics
- 日付: 2023年1月10日
- ドキュメント:YOLOv8 ドキュメント
技術アーキテクチャの比較
これらのモデルが視覚情報を処理する方法に、根本的な違いがある。
ビジョン・トランスフォーマー対CNN
RTDETRv2は、アテンション機構を用いて画像特徴を処理するハイブリッドエンコーダを採用している。これによりモデルは画像全体を一度に「認識」し、離れた物体間の関係を効果的に理解できる。このグローバルコンテキストは、混雑したシーンや物体が遮蔽されている場合に特に有用である。ただし、これには代償が伴う:トランスフォーマーは通常、トレーニング中に大幅にGPU (VRAM)GPU 必要とし、CNNベースの手法に比べて収束が遅くなる可能性がある。
対照的に、YOLOv8 深層畳み込みネットワークにYOLOv8 。CNNはエッジやテクスチャといった局所特徴の抽出に特に優れている。YOLOv8 これを「Bag of Freebies」でYOLOv8 ——推論コストを増やさずに精度を向上させるアーキテクチャ調整だ。その結果、驚くほど軽量なモデルが実現され、民生用ハードウェアでのトレーニングが高速化され、ラズベリーパイのようなエッジデバイスへの効率的な展開が可能となった。
NMS
RTDETRv2の特筆すべき点の一つは、NMS設計である。YOLOv8 従来の検出器は多数の重複する境界ボックスYOLOv8 、それらをフィルタリングするために非最大抑制(NMS)を用いる。RTDETRv2は対象物の正確な集合を直接予測する。
注:新しいYOLO26も NMS設計を採用しており、このアーキテクチャ上の利点とUltralyticsの特徴である高速処理を組み合わせています。
パフォーマンス指標
以下の表は、各種モデルサイズの性能を比較したものです。RTDETRv2は高い精度(mAP)を示していますが、YOLOv8 パラメータ数と計算負荷(FLOPs)の面で優れたYOLOv8 、これは制約のあるデバイス上での速度に直接つながります。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
主なポイント
- 低遅延エッジAI: YOLOv8n Nano)YOLOv8n 、T4GPU 約1.47msという驚異的な速度を実現しGPU CPUGPU リアルタイム性能を維持する点で他を圧倒する。RTDETRv2には、リソースが極めて制約された環境向けの同等の「nano」モデルが存在しない。
- 精度上限:RTDETRv2-xYOLOv8x 53.9)と比較してわずかにmAP 54.3)を達成し、複雑な検証環境におけるトランスフォーマー注意機構の威力を示している。 COCOなどの複雑な検証において、トランスフォーマー注意メカニズムの威力を示しています。
- 計算効率: YOLOv8 同等の性能レベルにおいてYOLOv8 少ないFLOPsで済むため、モバイル展開においてバッテリー消費を抑えやすい。
エコシステムと使いやすさ
パフォーマンス指標は物語の半分しか語らない。エンジニアリングチームにとって、統合と保守の容易さが往々にして決定的な要因となる。
Ultralytics : YOLOv8 Ultralytics YOLOv8 、シームレスな「箱から出してすぐに使える」体験を提供します。
- 統一API: YOLOv8の間で切り替え可能 YOLO11、RT-DETR 、たった1行のRT-DETR 。
- プラットフォームサポート: Ultralytics 、定型コードを記述することなく、トレーニング、結果の可視化、データセット管理のためのウェブベースのツールを提供します。
- 広範な展開:組み込みのエクスポートモードにより、ONNX、TensorRT、CoreML、TFLite形式への即時変換が可能です。
RTDETRv2 スタンドアロン版と統合版: 公式のRTDETRv2リポジトリは研究目的のコードベースである一方、RT-DETR Ultralytics RT-DETR 自社パッケージに直接Ultralytics 。これにより、RTDETRv2のアーキテクチャ上の利点を活用しつつ、Ultralytics を利用できます。
コード例:学習と予測
以下は、Python Ultralytics ワーク内でPython 。これはライブラリのモジュール性を強調しています。
from ultralytics import RTDETR, YOLO
# --- Option 1: Using YOLOv8 ---
# Load a pretrained YOLOv8 model (recommended for edge devices)
model_yolo = YOLO("yolov8n.pt")
# Train on a custom dataset
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# --- Option 2: Using RT-DETR ---
# Load a pretrained RT-DETR model (recommended for high-accuracy tasks)
model_rtdetr = RTDETR("rtdetr-l.pt")
# Run inference on an image
# Note: RT-DETR models predict without NMS natively
results = model_rtdetr("https://ultralytics.com/images/bus.jpg")
# Visualize the results
results[0].show()
現実世界のアプリケーション
RTDETRv2が優れている点
トランスフォーマーベースのアーキテクチャにより、RTDETRv2は精度が最優先されハードウェアリソースが豊富なシナリオ(例:高性能GPUを用いたサーバーサイド処理)に最適です。
- 医療画像診断:X線画像における微細な異常の検出。類似組織の識別において全体的な文脈が役立つ。
- 群衆分析:通常、遮蔽により標準的なCNNが混乱する密集した群衆内での個人追跡。
- 航空監視:地上の特徴間の関係性が重要な高解像度ドローン映像における小型物体の識別。
YOLOv8が優れている点
YOLOv8 、速度と信頼性のバランスを必要とする多様なリソース制約のあるアプリケーションにおいて、 YOLOv8 最適なソリューションYOLOv8 。
- 組み込みIoT:スマートシティの交通監視向けに、NVIDIA Orin Nanoなどのデバイス上で動作。
- ロボティクス:衝突を回避するために、遅延がミリ秒単位で重要なリアルタイム障害物回避。
- 製造:高速組立ライン検査において、モデルは高速コンベアベルトに追従しなければならない。
- マルチタスク:作業員の安全監視のため、回転物体や姿勢推定にOBBを必要とするアプリケーション。
将来展望:YOLO26で両方の長所を兼ね備える
RTDETRv2がNMS検出を前面に押し出した一方で、この分野は進化を続けている。最近リリースされた YOLO26 は、これら二つのアーキテクチャの間のギャップを効果的に埋めるものである。
YOLO26は、トランスフォーマーが先駆けたエンドツーエンドNMS設計を採用しつつ、高度に最適化されたCPUアーキテクチャで実装しています。MuSGDオプティマイザーやディストリビューションフォーカルロス(DFL)の除去といった特徴により、YOLO26はトランスフォーマーのトレーニング安定性とグローバルコンテキスト認識能力を、YOLO 驚異的な速度と低メモリ消費量と組み合わせて提供します。 2026年以降に開始する新規プロジェクトにおいて、YOLO26を検討することは、YOLOv8強みを兼ね備えた将来を見据えたソリューションを保証します。
結論
RTDETRv2とYOLOv8 、コンピュータビジョンエンジニアの武器庫において優れたYOLOv8 。RTDETRv2は、VRAMが制約とならずグローバルコンテキストが重要な研究やハイエンドサーバー展開において堅牢な選択肢です。 YOLOv8は比類のない汎用性、エコシステムサポート、効率性を提供し、大多数の商用およびエッジAIデプロイメントにおける実用的な選択肢となっています。
これらの哲学の究極の組み合わせ——トランスフォーマーのオーバーヘッドなしでのエンドツーエンド処理速度——を求める開発者には、次世代ビジョンAIがワークフローをいかに加速させるかを確認するため、YOLO26のドキュメントを調査することをお勧めします。
参考資料