RTDETRv2とYOLOv5：技術的な比較

急速に進化する物体検出において、適切なモデルを選択するには、アーキテクチャの複雑さ、推論速度、実用的な使いやすさの間のトレードオフを乗り越える必要があります。このガイドでは、Baidu社のトランスフォーマベースのリアルタイム検出器であるRTDETRv2と、YOLOv5の包括的な技術比較を行います。 YOLOv5Ultralytics 社の伝説的なCNNベースのモデルであるYOLOv5との包括的な技術比較を行っています。

性能分析：速度 vs. 精度

これら2つのモデルの根本的な違いは、そのアーキテクチャ哲学にある。RTDETRv2は、Vision Transformer (ViT)アプローチを採用し、グローバルコンテキストをキャプチャすることで、ベンチマークでの最大精度を目指している。対照的に、YOLOv5 5は高度に最適化された畳み込みニューラルネットワーク（CNN）設計を利用し、スピード、効率、多様なハードウェアへの展開のしやすさのバランスを優先している。

下表はこの違いを示している。RTDETRv2はCOCO データセットで高いmAP スコアを達成しているが、計算リソースは大幅に多く必要である。YOLOv5、特にその小型版（NanoとSmall）は、推論速度が劇的に速く（特にCPUで）、メモリフットプリントが大幅に少ないため、実世界のアプリケーションに実用的な選択肢となっている。

モデル	サイズ ^{(ピクセル)}	mAP^値 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

メモリ効率

YOLOv5 、RTDETRv2のようなトランスフォーマーベースのモデルと比較して、トレーニングに必要なCUDA メモリが大幅に少なくて済みます。このように参入障壁が低いため、開発者は標準的なコンシューマー向けGPUや、Google Colabのようなクラウドベースの環境でも、OOM（Out-Of-Memory）エラーに陥ることなくカスタムモデルをトレーニングすることができます。

RTDETRv2：トランスフォーマー・チャレンジャー

RTDETRv2 (Real-Time Detection Transformer v2)は、リアルタイムシナリオにトランスフォーマーの精度の利点をもたらす取り組みである。ハイブリッド・アーキテクチャを使用することで、一般的にビジョン・トランスフォーマーに関連する高い計算コストを軽減しようとしている。

著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
組織: Baidu
Date: 2023-04-17
Arxiv：2304.08069
GitHub：RT-DETR リポジトリ
ドキュメントRTDETRv2ドキュメント

アーキテクチャーと強み

RTDETRv2は、効率的な特徴抽出のためのCNNバックボーンと、変換エンコーダ・デコーダを組み合わせている。この設計により、このモデルはオブジェクト間の大域的な関係を理解するために自己注意メカニズムを利用することができ、これはオクルージョンや混雑のある複雑なシーンで有益である。このモデルの主な強みは、学術的ベンチマークにおける精度の高さであり、純粋なmAP メトリクスにおいて、同規模のCNNベースのモデルを上回ることが多い。

弱点

RTDETRv2は、その精度にもかかわらず、汎用性と使いやすさに課題がある。トランスフォーマーアーキテクチャは本質的に重いため、トレーニング時間が遅くなり、メモリ消費量も多くなる。さらに、RTDETRv2のエコシステムは主に研究に特化しており、より成熟したフレームワークに見られるような広範なツール、デプロイメントサポート、コミュニティリソースがない。また、主にオブジェクト検出に限定されているが、最近のプロジェクトでは、同じパイプライン内でセグメンテーションや分類が必要になることが多い。

RTDETRv2の詳細について。

Ultralytics YOLOv5：多用途スタンダード

YOLOv5 5は、最も実用的でユーザーフレンドリーなコンピュータビジョンモデルの一つとして広く知られています。Ultralytics構築されたYOLOv5は、合理化された "トレーニング、デプロイ、完了 "の体験を優先し、趣味の人から企業のエンジニアまで、誰もが高度なAIにアクセスできるようにします。

著者: Glenn Jocher
組織Ultralytics
Date: 2020-06-26
GitHub：YOLOv5 リポジトリ
ドキュメントYOLOv5 ドキュメント

YOLOv5 際立つ理由

YOLOv5 いるのは、機械学習オペレーション（MLOps）に対する全体的なアプローチにある。単なるモデル・アーキテクチャではなく、完全なエコシステムなのだ。

使いやすさ：シンプルなPython APIとコマンドラインインターフェイスにより、ユーザーは数分でカスタムデータのトレーニングを開始できます。
性能バランス：モデルファミリー（NanoからX-Large）は、スピードと精度の完璧なグラデーションを提供し、ユーザーはNVIDIA JetsonやRaspberry Piなど特定のハードウェアに合わせて選択することができます。
汎用性：RTDETRv2とは異なり、YOLOv5 画像分類やインスタンスセグメンテーションを含む複数のタスクをネイティブにサポートしているため、ビジョンタスクごとに別々のコードベースを維持する必要がありません。
エクスポート可能： Ultralytics 、以下のエクスポートをビルトインでサポートしています。 ONNXTensorRT、CoreML、TFLiteエクスポートをサポートしており、モバイルアプリからクラウドサーバーまで、どこにでもモデルを展開できます。

YOLOv5の詳細について。

使用例

YOLOv5 5はシンプルに設計されています。以下はPyTorch Hubを使って事前に学習させたモデルをロードして推論を実行する例で、Ultralytics 誇る直感的なAPIを実証しています。

import torch

# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Define an image URL
img = "https://ultralytics.com/images/zidane.jpg"

# Perform inference
results = model(img)

# Print results to the console
results.print()

# Show the image with bounding boxes
results.show()

トレーニングとエコシステムの比較

開発者のエクスペリエンスは、生のモデル性能と同じくらい重要であることが多い。ここでは、その差は歴然としている。

トレーニング効率

YOLOv5 5は、計算効率の高いアンカーベースの検出器を使用している。Ultralytics フレームワークには、モザイク補強や自動アンカー進化などの「bag-of-freebies」が含まれており、少ないデータでモデルの収束を早め、汎化を向上させる。逆に、RTDETRv2のトレーニングは、変換器の注目レイヤーが2次関数的に複雑なため、より多くのリソースを必要とし、多くの場合、かなりのVRAMを搭載したハイエンドのGPUを必要とします。

エコシステム・サポート

Ultralytics エコシステムは明確な利点を提供します。ユーザーには以下のメリットがあります：

積極的な開発：頻繁なアップデートにより、PyTorch CUDA最新バージョンとの互換性を確保しています。
コミュニティ・サポート：GitHubとDiscord上の大規模なコミュニティは、問題の迅速なトラブルシューティングを支援します。
統合ツール： Ultralytics HUBのようなツールとのシームレスな統合により、ノーコードでのモデルトレーニング、データセット管理、ワンクリックでのデプロイが可能になります。

RTDETRv2は、技術的には素晴らしいが、このレベルの周辺インフラがないため、プロダクションパイプラインに統合するのがより難しくなっている。

理想的なユースケース

適切なモデルを選択するかどうかは、特定の制約と目標に依存する。

RTDETRv2を選択するタイミング

学術研究： COCO ようなデータセットで最先端のmAP 数をプッシュするのが目標で、フラッグシップGPU（A100など）にアクセスできる場合。
複雑なコンテキスト：遠くの物体間の関係を理解することが、推論速度やハードウェアコストよりも重要なシナリオ。

YOLOv5選ぶとき

エッジ展開：モバイル機器、ドローン、組込みシステムなど、CPU スピードと電力効率が最優先されるアプリケーション向け。
リアルタイム生産： セキュリティアラームシステムやトラフィックモニタリングなど、低レイテンシーが要求される用途に最適です。
迅速な開発：データ収集からデプロイされたモデルまで、迅速な反復を必要とするスタートアップ企業や企業チームは、YOLOv55のワークフローが大幅に高速化されていることに気づくだろう。
マルチタスク要件：検出とセグメンテーションの両方が必要なプロジェクトでは、単一のフレームワークを使用できるため、技術スタックを簡素化できる。

最新技術をお探しですか？

YOLOv5 強力なツールであることに変わりはないが、最新のパフォーマンスとアーキテクチャを求める開発者は、以下をチェックしてほしい。 YOLO11.YOLO11 、YOLOv55の遺産を基に、より高い精度、より速いスピード、ポーズ推定や指向性オブジェクト検出（OBB）などの拡張機能を提供します。

結論

RTDETRv2とYOLOv5 5は、どちらもコンピュータビジョンエンジニアの強力な武器となるツールです。RTDETRv2は、高精度検出のためのトランスフォーマーの可能性を示すもので、十分な計算リソースを持つ、研究の多いアプリケーションの強力な候補となります。

しかし、実用的で現実的な展開の大部分では、Ultralyticsを使用することはできません、 Ultralytics YOLOv5が優れた選択肢であることに変わりはありません。その比類のない使いやすさ、エコシステムの成熟度、多用途性により、信頼性の高い高速な結果を必要とする開発者にとって、最適なソリューションとなっています。クラウドやエッジにデプロイする場合でも、Ultralytics 提供する効率性とサポートは、コンセプトからプロダクションへのスムーズなパスを保証します。

その他のモデル比較

最も十分な情報に基づいた決断を下すために、これらのモデルがこの分野の他のアーキテクチャーとどのように比較されるかを調べてみてください：