YOLOv8 . RTDETRv2:リアルタイム物体検出の深層分析
物体検出の分野では長年畳み込みニューラルネットワーク(CNN)が主流であったが、トランスフォーマーベースのアーキテクチャの登場により、魅力的な新たなパラダイムが導入された。本技術比較では、 Ultralytics YOLOv8(汎用リアルタイムビジョンにおける業界標準)と、Baiduが開発した強力な研究指向モデルであるRTDETRv2(Real-Time DEtection TRansformer version 2)との差異を検証する。
YOLOv8 の実証済みの効率性をYOLOv8 、高速性と使いやすさを実現する一方で、RTDETRv2はビジョン・トランスフォーマーを活用してグローバルな文脈を捉え、精度向上に向けた異なるアプローチを提供している。
性能指標の比較
以下の表は主要な性能指標を比較したものです。RTDETRv2はCOCO高い精度を示していますが、 YOLOv8 はより幅広いモデルサイズ(NanoからX-Large)を提供し、標準ハードウェア上で優れた推論速度を実現しており、実環境での展開に向けた最適化が際立っています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
モデル概要
Ultralytics YOLOv8
YOLOv8 YOLOv8は、YOLO 重要な進化形であり、世界で最も利用しやすく高性能なビジョンAIモデルとして設計されています。最先端のアンカーフリーアーキテクチャを導入し、NVIDIA デバイスからクラウドAPIに至るまで、多種多様なハードウェアターゲットにおいて、検出精度と推論遅延のバランスを実現しています。
- 著者: Glenn Jocher、Ayush Chaurasia、Jing Qiu
- 組織:Ultralytics
- 発売日:2023年1月10日
- フレームワーク: PyTorch ONNX、OpenVINO、CoreML、TFLiteネイティブエクスポート機能付き)
- GitHub:ultralytics/ultralytics
RTDETRv2
RTDETRv2は、リアルタイム検出トランスフォーマー(RT-DETR)を進化させたものです。効率的なハイブリッドエンコーダーを採用し、トランスフォーマーデコーダーアーキテクチャを通じてノンマキシマム抑制(NMS)後処理の必要性を排除することで、ビジョン・トランスフォーマー(ViT)に典型的に伴う高い計算コストの解決を目指しています。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Changら
- 組織: Baidu
- リリース日:2023年4月17日(オリジナルRT-DETR)、2024年7月(v2ペーパー)
- フレームワーク: PyTorch
- GitHub:lyuwenyu/RT-DETR
- Arxiv:RT-DETRv2論文
アーキテクチャの違い
これらのモデルが視覚的特徴を処理する方法に、根本的な相違点がある。
YOLOv8CNNベースのバックボーンにC2fモジュール(2つの畳み込み層を備えたクロスステージ部分ボトルネック)を採用しています。この設計により、軽量性を維持しつつ勾配の流れと特徴量の豊かさを向上させます。アンカーフリーヘッドを利用し、事前定義されたアンカーボックスを調整する代わりに、物体の中心を直接予測します。これにより学習プロセスが簡素化され、不規則な物体形状に対する汎化性能が向上します。
RTDETRv2はマルチスケール特徴を処理するハイブリッドエンコーダを採用する。計算負荷の高い従来型トランスフォーマーとは異なり、RTDETRv2は(CNNを用いた)同一スケール内相互作用と(アテンションを用いた)異スケール融合を分離することで速度を大幅に向上させる。その特徴IoUクエリ選択を備えたトランスフォーマーデコーダであり、NMS必要とせず固定された境界ボックスセットを出力可能とする。
NMS NMS
従来、YOLOv8 のような物体検出器は、重複する検出ボックスをフィルタリングするために非最大抑制(NMS) YOLOv8 。RTDETRv2のトランスフォーマーアーキテクチャは、本質的にNMS。しかし、最新のUltralytics であるYOLO26も、CNNの高速性とトランスフォーマーのような簡潔さを兼ね備えた、エンドツーエンドNMS設計を実現しています。
エコシステムと使いやすさ
開発者とエンジニアにとって、この区別が最も明確になるのがここである。
Ultralytics :
YOLOv8 単なるモデルではなく、成熟したプラットフォームの一部である。 ultralytics Python 統一されたインターフェースを提供します 学習, 検証, 予測、および エクスポート.
- 汎用性: インスタンスセグメンテーション、姿勢推定、分類、OBBのネイティブサポート。RTDETRv2は主に検出に焦点を当てた研究リポジトリです。
- エクスポートモード:1行のコードで、YOLOv8 エクスポートできます ONNX、 TensorRT、CoreML、TFLiteにエクスポートでき、モバイル端末やエッジデバイスへのスムーズなデプロイを保証します。
- コミュニティ:数百万人のユーザーからなる広大なコミュニティにより、チュートリアル、ガイド、サードパーティ統合(Ultralytics Comet)が容易に入手可能です。
RTDETRv2 エコシステム: RTDETRv2は研究グレードのリポジトリです。優れた学術的成果を提供しますが、カスタムデータセットには手動設定が頻繁に必要となり、Ultralytics のような「箱から出してすぐ使える」洗練さが欠けています。Raspberry Piのような制約のあるエッジデバイスへのデプロイには、大幅なエンジニアリング作業なしでは困難を伴う場合があります。
コード例: Ultralyticsのシンプルさ
YOLOv8 トレーニングYOLOv8 直感的YOLOv8 、最小限の定型コードしか必要としません:
from ultralytics import YOLO
# Load a pretrained YOLOv8 model
model = YOLO("yolov8n.pt")
# Train on a custom dataset with one command
# The system handles data loading, augmentation, and logging automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX for production
model.export(format="onnx")
トレーニング効率とリソース使用量
メモリ効率性: YOLO 効率性を重視して設計されています。トランスフォーマーベースのアーキテクチャと比較して、GPU (VRAM)消費量が一般的に少ないため、研究者はコンシューマー向けGPU(例:NVIDIA 3060/4070)でより大規模なバッチサイズでのトレーニングが可能となり、高性能AIへのアクセスが民主化されます。
RTDETRv2は注意機構に依存するため、より多くのメモリを必要とする可能性がある。トランスフォーマーは、YOLOv8のようなCNNの迅速な収束と比較して、完全に収束するまでに長いトレーニング期間を要することが多い。
トレーニングの安定性: YOLOv8 COCO における広範なハイパーパラメータ進化のYOLOv8 、最小限の調整で安定したトレーニング実行を実現します。Ultralytics 、メトリクスの可視化と実験管理を容易に行うUltralytics を提供しています。
現実世界のアプリケーション
YOLOv8が優れている点
YOLOv8 コンピュータビジョンの「万能ツール」YOLOv8 、以下に最適です:
- エッジAIとIoT:低消費電力デバイスでの実行 Android スマートフォンやスマートカメラなどの低電力デバイス上で動作します。
- ロボティクス:ミリ秒単位の遅延が重大な影響を及ぼすリアルタイムナビゲーションと障害物回避。
- 産業用検査:高速組立ラインにおいて、検出、セグメンテーション、および回転部品向けのOBB(外形境界ボックス)を同時に必要とする。
- スポーツアナリティクス: 姿勢推定を用いた選手の高速動作追跡
RTDETRv2の立ち位置
RTDETRv2は次の分野で有力な候補です:
- サーバーサイド処理:メモリ制約が緩い強力なGPU上で動作するアプリケーション。
- 複雑なシーン理解:密集した群衆において、グローバルアテンション機構が重なり合う物体をより効果的に分離できるシナリオ。
- 研究:最終的な0.1%mAP 絞り出すことが主要な目標mAP 学術的なベンチマーク。
未来:YOLO26の登場
YOLOv8 DETRv2はいずれも優れていますが、この分野は急速に進化しています。Ultralytics YOLO26をリリースしました。これは両アーキテクチャの強みを統合したものです。
YOLO26にアップグレードする理由
- ネイティブにNMS:RTDETRv2と同様に、YOLO26NMS排除し、デプロイメントパイプラインを簡素化し推論レイテンシを安定化させるが、効率的なYOLO 内でこれを実現する。
- MuSGDオプティマイザー:LLMトレーニングの革新(Moonshot AIのKimi K2など)に着想を得たこのハイブリッドオプティマイザーは、安定したトレーニングとより速い収束を保証します。
- エッジ向けに最適化:YOLO26は前世代比で最大43%CPU を実現し、トランスフォーマー系の大規模モデルに比べ、GPU 実用性が大幅に向上しています。
- DFL除去:分布焦点損失(DFL)を除去することでモデルグラフが簡素化され、組み込みNPUへのエクスポートがさらに円滑になります。
現代のトランスフォーマーの精度とUltralytics速度・エコシステムを両立させたい開発者にとって、2026年の新規プロジェクトにはYOLO26が推奨される選択肢です。
概要
| 機能 | Ultralytics YOLOv8 | RTDETRv2 |
|---|---|---|
| アーキテクチャ | CNN(C2f、アンカーフリー) | ハイブリッドエンコーダ+トランスフォーマーデコーダ |
| NMS | はい(標準) | いいえ(ネイティブにNMS) |
| トレーニング速度 | 高速収束 | より遅く、より多くのエポックを必要とする |
| タスクサポート | 検出、セグメンテーション、姿勢推定、分類、OBB | 主にdetect |
| 使いやすさ | 高(シンプルなAPI、充実したドキュメント) | 中程度(研究リポジトリ) |
| デプロイ | ワンクリックエクスポート(ONNX、TRT、CoreML) | 手動でのエクスポートが必要です |
ほとんどのユーザーにとって、 YOLOv8 (およびより新しいYOLO26)は、性能、汎用性、開発者体験の最適なバランスを提供します。小型のエッジデバイスから大規模クラスターまで拡張可能な能力と、包括的なUltralytics が相まって、実稼働システムにおいて最も安全かつ強力な選択肢となっています。