YOLOv5 RTDETRv2の比較:リアルタイムスピードと変圧器精度のバランス
急速に進化するコンピュータビジョンにおいて、適切な物体検出モデルを選択することはプロジェクトの成功に不可欠です。この包括的な技術比較では、2つの異なるアプローチを検証します: YOLOv5この包括的な技術比較では、汎用性とスピードで知られる伝説的なCNNベースの検出器であるYOLOv5と、高精度に焦点を当てた最新の変換器ベースのモデルであるRTDETRv2の2つの異なるアプローチを検証します。
RTDETRv2はVision Transformers (ViT)を活用し、グローバルなコンテキストをキャプチャします、 Ultralytics YOLOv5は、リソースのオーバーヘッドが少なく、堅牢でデプロイ可能なソリューションを必要とする開発者にとって、最良の選択肢であり続けています。
モデルの仕様と起源
パフォーマンス・メトリクスの話に入る前に、各モデルの背景とアーキテクチャーの哲学を理解することが不可欠である。
| 特徴 | Ultralytics YOLOv5 | RTDETRv2 |
|---|---|---|
| アーキテクチャ | CNNベース(アンカーベース) | ハイブリッド(CNNバックボーン+トランスフォーマー) |
| 主な焦点 | リアルタイムのスピード、多様性、使いやすさ | 高精度、グローバル・コンテキスト |
| 著者紹介 | グレン・ジョーチャー | Wenyu Lv, Yian Zhao, et al. |
| 組織 | Ultralytics | 百度 |
| 発売日 | 2020-06-26 | 2023-04-17 |
| タスク | 検出、セグメント化、分類 | 検出 |
建築とデザイン哲学
これらのモデルの根本的な違いは、視覚データの処理方法にある。
Ultralytics YOLOv5
YOLOv5 5は、高度に最適化された畳み込みニューラルネットワーク(CNN)アーキテクチャを採用している。修正CSPDarknetバックボーンとPANet(Path Aggregation Network)ネックを利用して特徴マップを抽出する。
- アンカーベース:オブジェクトの位置を予測するために、事前に定義されたアンカーボックスに依存します。これにより、一般的なオブジェクトの形状に対する学習プロセスが簡素化されます。
- 効率性: NVIDIA Jetsonのようなエッジデバイスから標準的なCPUまで、様々なハードウェア上で推論速度を最大化するように設計されています。
- 汎用性: インスタンスのセグメンテーションや 画像の分類など、複数のタスクを単一の統一されたフレームワークでサポートします。
RTDETRv2
RTDETRv2(Real-Time Detection Transformer v2)は、トランスフォーマーアーキテクチャへのシフトを表している。
- ハイブリッド設計:CNNバックボーンと変換エンコーダ・デコーダを組み合わせ、自己注意メカニズムを利用してオブジェクトの関係を処理する。
- グローバルコンテキスト:トランスフォーマーコンポーネントにより、モデルは画像全体を一度に「見る」ことができ、オクルージョンのある複雑なシーンでのパフォーマンスが向上します。
- 計算コスト:この洗練されたアーキテクチャは、純粋なCNNベースのソリューションと比較して、一般的にGPU メモリと計算能力(FLOPs)を大幅に必要とします。
パフォーマンス分析
以下の表は、主要な性能指標を直接比較したものである。RTDETRv2がCOCO データセットにおいて素晴らしい精度mAP)を示す一方で、YOLOv5 、特にトランスフォーマーがしばしば苦戦するCPU ハードウェアにおいて、優れた推論速度を示している。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
データの解釈
RTDETRv2がより高いmAP 数を達成している一方で、Speedと FLOPsの列に注目してください。YOLOv5nはCPU上では73.6msで動作し、非加速ハードウェア上のリアルタイムアプリケーションで実現可能です。RTDETRv2モデルは著しく重く、リアルタイムのフレームレートを維持するために強力なGPUを必要とします。
トレーニング効率とメモリ使用量
の重要な利点 YOLOv5の決定的な利点は、そのトレーニング効率である。RTDETRv2のようなトランスフォーマーベースのモデルは、VRAM消費量が多く、収束速度が遅いことで悪名高い。
- 低メモリーフットプリント: YOLOv5 コンシューマーグレードのGPUで学習でき、CUDA メモリはわずかであるため、AI開発へのアクセスを民主化できる。
- より速いコンバージェンス:ユーザーはより少ないエポックで使用可能な結果を得られることが多く、貴重な時間とクラウド計算コストを節約できます。
Ultralytics YOLOv55の主な強み
ほとんどの開発者や商用アプリケーションにとって、YOLOv5 5はよりバランスの取れた実用的な利点を提供する:
- 比類のない使いやすさ: Ultralytics Python APIは、シンプルさの業界標準です。モデルのロード、推論の実行、カスタムデータでのトレーニングは、わずか数行のコードで実行できます。
- 豊富なエコシステム:大規模なオープンソースコミュニティに支えられたYOLOv5 5は、Ultralytics HUBとシームレスに統合され、ノーコードでトレーニングを行うことができます。ONNXやTensorRTような多様なエクスポート形式とシームレスに統合されています。
- 展開の柔軟性: iOS Android モバイル・アプリケーションからRaspberry Piやクラウド・サーバーまで、YOLOv55の軽量アーキテクチャは、より重いトランスフォーマーモデルでは不可能な場所でも動作させることができます。
- タスクの多様性:主に物体検出器であるRTDETRv2とは異なり、YOLOv5 5は分類とセグメンテーションをサポートしており、異なる視覚タスク用に複数のコードベースを維持する必要性を低減します。
アップグレードパス
これらのエコシステムの利点を維持しながら、YOLOv5 さらに高い精度が必要な場合は、新しい YOLO11.YOLO11には、トランスの精度に匹敵する、あるいはそれに勝る最新のアーキテクチャーの改良が組み込まれており、YOLO期待される効率性を備えています。
コード比較:使いやすさ
次の例は、YOLOv5 Ultralytics パッケージの使いやすさを示している。
from ultralytics import YOLO
# Load a pre-trained YOLOv5 model
model = YOLO("yolov5s.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
for result in results:
result.show() # show to screen
result.save(filename="result.jpg") # save to disk
理想的なユースケース
Ultralytics YOLOv5選ぶとき
- エッジ・コンピューティング:バッテリー駆動やリソースに制約のあるデバイス(ドローン、携帯電話、IoT)への展開。
- リアルタイムビデオ解析: トラフィック管理やセキュリティのために複数のビデオストリームを同時に処理します。
- ラピッドプロトタイピング:データセットからデプロイされたモデルまで、数日ではなく数時間で作成する必要がある場合。
- マルチタスク要件:物体検出と画像セグメンテーションの両方を必要とするプロジェクト。
RTDETRv2を選択するタイミング
- 学術研究:速度が二の次となる静的データセットで、絶対的な最先端技術とのベンチマークを行う。
- ハイエンドGPU 利用可能性:サーバーグレードの専用GPU(NVIDIA A100など)がトレーニングと推論の両方に利用できる環境。
- 複雑な静的シーン:オクルージョンが密集しているシナリオでは、自己注視メカニズムが精度に決定的な優位性をもたらす。
結論
RTDETRv2は、コンピュータビジョンにおけるトランスフォーマーの可能性を印象的な精度の数値で示す一方で、ハードウェアリソースやトレーニングの複雑さという点で、大きなコストを伴います。大半の実世界のアプリケーションでは Ultralytics YOLOv5が優れた選択肢であることに変わりはありません。その速度、精度、および低メモリ使用量の完璧なブレンドは、支援エコシステムと広範なドキュメントと組み合わされ、開発者がスケーラブルで効率的かつ効果的なAIソリューションを構築できることを保証します。
Ultralytics フレームワークの使い勝手を犠牲にすることなく、絶対的な最新パフォーマンスを求める方には、以下を強くお勧めします。 YOLO11は、CNNの効率とトランスフォーマー・レベルの精度のギャップを埋めるものです。