コンテンツにスキップ

RTDETRv2 対 YOLOv5: 技術比較

適切な物体検出アーキテクチャの選択は、導入コストからユーザー体験に至るまであらゆる要素に影響を与える極めて重要な決定です。本詳細比較では、百度の最先端リアルタイムトランスフォーマーであるRTDETRv2とUltralytics YOLOv5(コンピュータビジョン分野における使いやすさと信頼性の基準を確立した伝説的なCNNベースモデル)のトレードオフを検証します。

RTDETRv2がトランスフォーマーベースの革新的な技術を導入する一方で、YOLOv5 その後継モデル(最先端のYOLO26など)YOLOv5 、汎用性、展開速度、開発者体験において業界のベンチマークであり続けている。

概要

RTDETRv2(リアルタイム検出トランスフォーマーv2)は、DETRアーキテクチャを進化させたもので、非最大抑制(NMS)を排除GPU 上で高精度を実現するように設計されています。VRAMが豊富な研究環境やハイエンドサーバー展開に最適です。

YOLOv5 (You Only Look Once v5) は成熟した実用レベルのCNNアーキテクチャです。「インストールしてすぐに実行可能」という簡便さで知られ、エッジコンピューティング、高速学習、幅広いハードウェア互換性に優れています。速度と精度において最新の性能を求める開発者には、Ultralyticsは現在YOLO26を推奨しています。これはNMSという利点YOLO性を兼ね備えています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

アーキテクチャと設計

これらのモデルが視覚情報を処理する方法に根本的な違いがある:トランスフォーマー対畳み込みニューラルネットワーク(CNN)。

RTDETRv2:Transformerアプローチ

著者:Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
所属:Baidu
日付:2023年4月17日 (オリジナルRT-DETR), 2024年 (v2)
リンク:ArXiv|GitHub

RTDETRv2はハイブリッドエンコーダ-デコーダ構造を採用している。CNNバックボーン(多くの場合ResNetまたはHGNetv2)を用いて特徴量を抽出し、それを効率的なトランスフォーマーエンコーダで処理する。主な革新点はハイブリッドエンコーダであり、スケール内相互作用とスケール間融合を分離することで計算コストを削減する。

最も注目すべき特徴は、NMS予測である。学習時に二部マッチングを用いることで、モデルはオブジェクトごとに正確に1つのボックスを出力するよう学習し、非最大抑制(NMS)のような後処理ステップが不要となる。ただし、純粋なCNNと比較してメモリ消費量が多く、学習収束が遅くなるという代償を伴う。

YOLOv5: 畳み込みニューラルネットワークの標準

著者:Glenn Jocher
組織:Ultralytics
日付:2020-06-26
リンク:ドキュメント|GitHub

YOLOv5 CSPNetバックボーンとPANetネックに基づく高度に最適化されたCNNアーキテクチャYOLOv5 。この設計は勾配の流れと特徴の再利用を優先し、非常に軽量かつ高速なモデルを実現しています。グローバルコンテキストを学習するために膨大なデータセットを必要とするトランスフォーマーとは異なり、YOLOv5誘導バイアスにより、より少ない計算量で小規模なデータセットから効果的に学習することが可能です。

YOLOv5について詳しくはこちら

進化:YOLO26

YOLOv5 NMS YOLOv5 一方、Ultralytics RTDETRv2と同様のNMS設計を採用しつつ、YOLO の速度と学習効率を維持している。さらにMuSGDオプティマイザーを導入し、収束を大幅に加速させる。

パフォーマンス分析

推論速度とレイテンシ

本番環境へのデプロイ時には、レイテンシがボトルネックとなることが多い。YOLOv5 CPU環境やエッジデバイスにおいてYOLOv5 。CNNのアーキテクチャの簡潔さは、標準プロセッサやモバイルNPUへの効率的なマッピングを可能にする。

RTDETRv2は、行列乗算演算が効果的に並列化されるNVIDIA A100などの現代的なGPUで真価を発揮します。しかし、ラズベリーパイのようなエッジデバイスでは、トランスフォーマー演算が非常に負荷が高く、YOLOv5nやYOLOv5sと比較してFPSが低下する可能性があります。

精度(mAP)

RTDETRv2は、特にグローバルコンテキストが重要な大型物体や複雑なシーンにおいて、YOLOv5と比較してCOCO 上で高い平均精度(mAP)を達成する傾向がある。例えば、RTDETRv2-Lは53.mAP を達成し、より少ないパラメータを使用しながらYOLOv5x(50.7%)を上回っている。

Ultralytics 、精度だけが唯一の指標ではない。微小物体やモーションブラーのある映像フィードを含む実世界シナリオでは、その差は縮まる。さらに、 YOLO11 やYOLO26などのUltralyticsの新モデルはこの差を縮め、同等かそれ以上の精度を高い効率で提供している。

トレーニング効率とエコシステム

Ultralytics が明確な優位性を発揮します。

Ultralytics YOLOv5 YOLO26:

  • 急速な収束:CNNは通常、トランスフォーマーよりも速く収束します。単一GPUで数時間以内に実用的なYOLOv5 を学習できます。
  • 低メモリフットプリント: YOLO トレーニングには大幅に少ないVRAMYOLO 、コンシューマー向けグラフィックカード(例:RTX 3060)を使用する研究者でも利用可能となる。
  • データ拡張: Ultralytics には、デフォルトで有効化された最先端の拡張戦略(モザイク、MixUp)が含まれています。
  • プラットフォーム統合:データセット管理、クラウドトレーニング、ワンクリックデプロイメントのためにUltralytics とシームレスに連携します。

RTDETRv2:

  • リソース集約的:トランスフォーマーは学習中にデータ消費量が多く、計算負荷が高いことで知られている。アテンション機構を安定させるには、より長い学習スケジュールが必要となる場合が多く(YOLO より少ないエポック数でYOLO 結果に匹敵するには、しばしば72エポック以上を要する)。
  • 複雑な設定:研究特化型リポジトリとして、カスタムデータセット向けにRTDETRv2を設定するには、設定ファイルの修正やデータローダーの手動適応が頻繁に必要となります。
# Training with Ultralytics is standardized and simple
from ultralytics import YOLO

# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")

# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

実際のユースケース

YOLOv5 YOLO26の理想的なシナリオ

Ultralytics コンピュータビジョンの「万能ツール」であり、商用アプリケーションの90%に適しています。

RTDETRv2の理想的なシナリオ

  • ハイエンド監視:強力なサーバーに接続された固定式セキュリティカメラ。エッジ処理の遅延よりも最高精度が優先される。
  • 学術研究:注意メカニズムとビジョントランスフォーマーの探求
  • 混雑した場面:ハードウェアが計算負荷をサポートできる場合、グローバルアテンション機構は純粋なCNNよりも重度のオクルージョンを処理できることがある。

結論

RTDETRv2とYOLOv5 はいずれも物体検出の歴史における重要なマイルストーンYOLOv5 。RTDETRv2は、トランスフォーマーが高性能GPU上でリアルタイム動作可能であることを実証し、高い精度と洗練されたNMSアーキテクチャを実現している。

しかしながら、大多数の開発者や商用アプリケーションにとって、Ultralytics 依然として優れた選択肢です。成熟した YOLOv5 エコシステムとYOLO26の最先端技術革新の組み合わせにより、あらゆる制約条件に対応できる最適なツールが保証されます。

なぜYOLO26にアップグレードすべきか? 2026年の新規プロジェクトでこれらのモデルを比較検討されているなら、YOLO26を強く推奨します。両モデルの優れた点を兼ね備えているからです:

  1. ネイティブのエンドツーエンド:RTDETRv2と同様に、NMS 排除NMS シンプルな導入NMS 。
  2. 最大43%高速CPU :重いトランスフォーマーとは異なり、エッジ向けに最適化されています。
  3. タスクの汎用性:単一フレームワークで検出、セグメンテーション、姿勢推定、OBBをサポートします。

YOLO26についてさらに詳しく

他のアーキテクチャに関する詳細情報については、RT-DETR YOLO11の比較、およびYOLOv8 EfficientDetYOLOv8 比較をご覧ください。


コメント