RTDETRv2とYOLOv5の比較:リアルタイム物体検出トランスフォーマーとCNNの評価
コンピュータビジョンの進化は、精度とリアルタイム推論速度のバランスを追求し続ける歴史そのものでした。RTDETRv2とUltralytics YOLOv5を比較する際、開発者は本質的に、トランスフォーマーアーキテクチャの洗練されたグローバルなコンテキスト理解能力と、畳み込みニューラルネットワーク(CNN)の高度に最適化され、実戦で鍛え上げられた効率性を天秤にかけていることになります。
本ガイドでは、これら2つの主要なアーキテクチャについて詳細な技術的分析を行い、性能指標、学習手法、メモリ要件、そして理想的なデプロイシナリオを詳述します。これにより、特定のユースケースに最適な物体検出モデルの選択をサポートします。
RTDETRv2:リアルタイム検出へのTransformerアプローチ
オリジナルのリアルタイム物体検出トランスフォーマー(RT-DETR)をベースに構築されたRTDETRv2は、推論レイテンシを犠牲にすることなくベースラインアーキテクチャを改善するために、一連の「bag-of-freebies(学習効率化手法)」を導入しています。
- 著者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 組織: Baidu
- 日付: 2024-07-24
- リンク: Arxiv論文, GitHubリポジトリ
アーキテクチャと機能
RTDETRv2はハイブリッドなCNN-Transformerアーキテクチャを活用しています。CNNはバックボーンとして機能し、微細な視覚的特徴を抽出します。一方、トランスフォーマーのエンコーダー・デコーダーレイヤーは、特徴マップ全体を処理してグローバルなコンテキストを理解します。RTDETRv2の大きな特徴は、そのエンドツーエンドの性質にあり、Non-Maximum Suppression (NMS)の後処理を完全に不要にしています。
RTDETRv2は、特に物体が重なり合う複雑で密集したシーンにおいて優れた精度を達成しますが、顕著なトレードオフも存在します。トランスフォーマー固有のアテンションメカニズムは、標準的なCNNと比較して、学習中に大幅に多くのCUDAメモリを消費します。さらに、NVIDIA A100やT4のようなハイエンドGPUでは優れた性能を発揮しますが、標準的なCPUやリソースが厳しく制限されたエッジデバイスでは動作が著しく低速になります。
Ultralytics YOLOv5: 効率性の業界標準
Ultralytics YOLOv5は、リリース時に機械学習の実装環境を根本的に変革し、極めて直感的なフレームワークを通じて、世界中の開発者が高性能なコンピュータビジョンを利用できるようにしました。
- 作成者: Glenn Jocher
- 組織: Ultralytics
- 日付: 2020年6月26日
- リンク: 公式ドキュメント, GitHubリポジトリ
エコシステムと性能のバランス
YOLOv5は完全にPyTorchフレームワーク上に構築されており、非常に効率的なCNNアーキテクチャを採用しています。これは使いやすさを第一に設計されており、合理化されたAPIとAI業界でも屈指の充実したドキュメントを備えています。
YOLOv5の最大の利点は、その比類のない汎用性と低いメモリ要件にあります。YOLOv5モデルの学習に必要なVRAMはトランスフォーマーベースのモデルよりも劇的に少ないため、ハードウェア予算が限られている研究者やエンジニアにとって利用しやすいものとなっています。さらに、RTDETRv2が境界ボックス(Bounding Box)検出のみに焦点を当てているのに対し、YOLOv5はインスタンスセグメンテーションや画像分類にも対応する多機能な強力ツールへと進化しています。
究極の効率化されたワークフローを体験するには、Ultralytics Platformを使用して、YOLOv5の学習、検証、デプロイを直接行うことができます。同プラットフォームは、クラウド上での学習機能とゼロコードのデプロイパイプラインを提供します。
パフォーマンスとメトリクスの比較
標準のCOCOデータセットにおける生の性能を分析すると、これらのモデルがどのようにリソースに優先順位を置いているかの明確な違いが見て取れます。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
トレードオフの分析
The data reveals that RTDETRv2-x achieves a peak mean Average Precision (mAP) of 54.3%, slightly outperforming YOLOv5x's 50.7%. However, this minor accuracy gain comes at a massive computational cost. YOLOv5x operates with lower latency (11.89 ms vs 15.03 ms on TensorRT) and requires a fraction of the memory footprint. For ultra-low-power edge deployments, YOLOv5n (Nano) remains unchallenged, completing inferences in just 1.12ms with a minuscule 2.6M parameter footprint—a tier that RTDETRv2 does not even attempt to compete in.
学習効率とコードのシンプルさ
Ultralyticsエコシステムの重要な強みの一つは、統合されたAPIです。特定の計算負荷が高いタスクにRT-DETRのトランスフォーマーアーキテクチャを採用することを決めた場合でも、Ultralytics Pythonパッケージ内で完結させることができ、わずか1行のコードでモデルをシームレスに切り替えることが可能です。
from ultralytics import RTDETR, YOLO
# Load the Ultralytics YOLOv5 small model
model_yolo = YOLO("yolov5s.pt")
# Load the RT-DETR large model via Ultralytics
model_rtdetr = RTDETR("rtdetr-l.pt")
# Train YOLOv5 effortlessly on your custom data
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with both models seamlessly
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo[0].show()Ultralyticsライブラリを活用することで、開発者は実験追跡の統合(Weights & BiasesやComet MLなど)や、ONNXやOpenVINOといったデプロイ形式へのワンクリックエクスポート機能を備えた、十分にメンテナンスされたエコシステムに自動的にアクセスできるようになります。
実世界でのアプリケーションと理想的な使用例
RTDETRv2が輝く場面
RTDETRv2は、ハードウェアの制限がなく、可能な限り最高の精度を唯一の目標とする環境に最適です。
- サーバーサイドの医療画像診断: 高解像度X線画像における微細な異常の検出。
- 衛星画像: 強力なクラウドクラスター上で実行される航空監視タスクにおける、密集して重なり合った物体の追跡。
YOLOv5が優位な場面
YOLOv5は、多様なハードウェア全体で実用的な実世界へのデプロイを行うための紛れもないチャンピオンです。
- エッジAIデバイス: メモリが厳しく制限されたRaspberry PiやNVIDIA Jetsonデバイス上でのセキュリティ警報システムのデプロイ。
- モバイルアプリケーション: CoreMLやTFLiteを介して、スマートフォン上で直接実行される高速でリアルタイムな境界ボックスおよびセグメンテーション推論。
- 高速産業製造: ミリ秒単位のレイテンシが運用成功に不可欠な、迅速な生産ラインでの部品検査。
YOLOv5は伝説的なモデルですが、Ultralyticsのエコシステムは常にAIの限界を押し広げています。2026年に新しいプロジェクトのためにモデルを比較検討しているなら、最先端のUltralytics YOLO26を探索することを推奨します。YOLO26は、ネイティブなエンドツーエンドNMSフリー設計(トランスフォーマーに似ているがCNNの速度を実現)を組み込み、非常に安定した学習を可能にする画期的なMuSGD Optimizerを搭載しており、CPU推論を最大43%高速化します。あるいは、YOLO11も姿勢推定やOBB検出を必要とする多目的なデプロイにおいて、非常に優れた、サポートの充実した選択肢であり続けます。
最終的に、RTDETRv2はトランスフォーマーレイヤーを使用して精度の上限を押し広げますが、Ultralytics YOLOフレームワークは、速度、軽量なメモリ要件、そしてプロトタイプから本番環境への時間を劇的に短縮する、見事に設計された開発者体験という比類のないバランスを提供します。