YOLOv7 RTDETRv2の比較:最新の物体検出器の技術比較
最適な物体検出アーキテクチャを選択することは、ロバストなコンピュータビジョンソリューションを開発する上で極めて重要なステップです。この決定には多くの場合、推論速度、検出精度、および計算リソース要件の間の複雑なトレードオフをナビゲートする必要があります。このガイドでは YOLOv7と、グローバルなコンテキスト理解をリアルタイムアプリケーションにもたらすために設計された最先端の変換器ベースモデルであるRTDETRv2との詳細な技術比較を行います。
YOLOv7:CNNの効率性の頂点
YOLOv7 、You Only Look OnceYOLO)ファミリーの大きな進化であり、畳み込みニューラルネットワーク(CNN)がリアルタイムシナリオで達成できることの限界を押し広げるためにリリースされました。アーキテクチャの改良と高度なトレーニング戦略に重点を置くことで、GPU ハードウェア上で驚異的なスピードを実現しています。
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織: Institute of Information Science, Academia Sinica, Taiwan
- Date: 2022-07-06
- Arxiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7
- ドキュメントhttps://docs.ultralytics.com/models/yolov7/
建築イノベーション
YOLOv7 、勾配経路を破壊することなくネットワークの学習能力を向上させる新しいバックボーン設計、拡張効率的レイヤー集約ネットワーク(E-ELAN)を導入している。これにより、学習効率を維持したまま、より深いネットワークを実現します。YOLOv7 7の決定的な特徴は、「学習可能なbag-of-freebies」であり、モデルの再パラメータ化や粗から細への誘導ラベル割り当てなどの最適化手法のコレクションで、推論の待ち時間を増加させることなく精度を向上させる。
長所と短所
YOLOv7 、標準GPUでのリアルタイム推論が優先される環境で優れている。そのアーキテクチャーはCUDA高度に最適化されており、ビデオフィードに高いFPSを提供する。しかし、純粋なCNNとしては、トランスフォーマーに比べて長距離依存性に苦戦する可能性がある。さらに、その複雑なアーキテクチャーをカスタマイズすることは、初心者には難しいかもしれない。
RTDETRv2:リアルタイム検出用トランスフォーマー
RTDETRv2は、Real-Time Detection TransformerRT-DETR)の成功に基づき、Vision Transformers(ViT)のパワーを活用して、画像全体のグローバルな情報をキャプチャします。ピクセルの局所的な近傍を処理するCNNとは異なり、トランスフォーマーは、遠くのオブジェクト間の関係を理解するために自己注意メカニズムを使用します。
- 著者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang、Yi Liu
- 組織: Baidu
- 日付:2023-04-17(オリジナルRT-DETR)、2024-07(RTDETRv2)
- Arxiv:https://arxiv.org/abs/2304.08069
- GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
建築イノベーション
RTDETRv2はハイブリッド・アーキテクチャを採用している。効率的な特徴抽出にはCNNバックボーンを用い、検出ヘッドには変換エンコーダ・デコーダを用いる。重要なのは、アンカーフリーであることで、手動で調整するアンカーボックスや、構成によっては非最大抑制NMS)の後処理が不要になる。v2 "の改良点は、高い平均平均精度(mAP)を維持しながら、待ち時間をさらに短縮するための柔軟なバックボーンと改良されたトレーニング戦略に重点を置いている。
長所と短所
RTDETRv2の主な利点は、そのグローバルなコンテキスト認識により、オクルージョンのある複雑なシーンでの精度である。RTDETRv2は多くの場合、mAP同規模のCNNを凌駕する。しかし、これには代償が伴います。トランスフォーマ・モデルは、トレーニング中にメモリを大量に消費することで有名で、収束が遅くなることがあります。一般的に、YOLOv7ようなCNNと比較して、効果的に学習するためにはより強力なGPUを必要とします。
パフォーマンス比較:指標と分析
次の表は、主要な性能指標を並べて比較したものである。RTDETRv2-xが優れた精度を達成しているのに対し YOLOv7モデルは、そのCNNネイティブな設計により、特定のハードウェア構成における純粋な推論速度において優位に立つことが多い。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
トレードオフを理解する
これらのアーキテクチャのどちらかを選択するときは、デプロイハードウェアを考慮してください。RTDETRv2のようなTransformerは、NVIDIA GPU上でその潜在的な速度をフルに発揮するために、しばしば特定のTensorRT 最適化を必要としますが、YOLOv7 ようなCNNは、一般的に、より少ないチューニングで、より幅広いハードウェア上で効率的に実行されます。
トレーニング方法とリソース
トレーニング手法は2つのアーキテクチャで大きく異なる。YOLOv7 、Mosaicのようなデータ増強パイプラインを中心に、標準的な確率的勾配降下(SGD)またはAdam オプティマイザを利用する。比較的メモリ効率が高いため、ミッドレンジGPUでの学習が可能です。
対照的に、RTDETRv2は、よりリソース集約的なトレーニング方法を必要とする。変換器の自己注意メカニズムは、シーケンス長(画像サイズ)に応じて二次関数的にスケールするため、VRAMの使用量が多くなります。より大きなRT-DETR バリアントを効果的にトレーニングするためには、大容量メモリ(例えばA100)を搭載したハイエンドのNVIDIA GPUが必要になります。さらに、変換器は通常、CNNと比較して収束するまでに長い学習スケジュール(より多くのエポック)を必要とします。
Ultralytics 選ばれる理由
YOLOv7 RTDETRv2はそれぞれ優れたモデルであるが、Ultralytics エコシステムは、最先端の YOLO11-を筆頭とするUltralyticsエコシステムは、最新のAI開発により包括的なソリューションを提供する。
優れた使いやすさとエコシステム
Ultralytics モデルは、開発者の経験を優先して設計されています。YOLOv7 RTDETRv2で必要とされる複雑な設定ファイルや手動設定とは異なり、Ultralytics 統一されたシンプルなPython APIを提供します。これにより、わずか数行のコードでモデルをロード、トレーニング、デプロイすることができます。
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on your custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
バランスのとれた性能と多用途性
YOLO11は、スピードと精度の卓越したバランスを達成し、しばしばYOLOv7 RT-DETR 両方を効率で上回る。重要なことは、Ultralytics モデルは物体検出に限定されないということです。Ultralyticsのモデルは、同じフレームワークの中で、さまざまなコンピュータビジョンタスクをネイティブにサポートします:
- インスタンス分割:正確なオブジェクトのアウトライン化。
- 姿勢推定:人間や動物のポーズのキーポイント検出。
- 分類:画像全体の分類。
- 回転物体検出(OBB):回転した物体を検出する(航空画像など)。
効率とトレーニング
Ultralytics モデルは、メモリ効率のために最適化されています。通常、RTDETRv2のようなトランスフォーマーベースの代替品よりも、学習時に必要なCUDA メモリが大幅に少なく、高性能AIへのアクセスを民主化します。広く利用可能な事前学習済みの重みと効率的な転移学習機能により、わずかな時間で生産可能な結果を得ることができます。
結論
YOLOv7は、厳密に最適化されたCNN推論を必要とするレガシーシステムにとって強力な候補であり続ける一方、RTDETRv2は、計算リソースが豊富な複雑なシーンにおいて最先端の精度を提供する。しかし、モダンで汎用性が高く、ユーザーフレンドリーなソリューションを求める大多数の開発者や研究者にとっては、Ultralyticsは、そのようなニーズに応えるものである、 Ultralytics YOLO11が優れています。
Ultralytics選択することで、活発なコミュニティへのアクセス、頻繁なアップデート、データ管理から展開までMLOpsライフサイクル全体を簡素化する堅牢なツールセットを得ることができます。
その他のモデル比較
あなたの決断をより確かなものにするために、これらの技術的な比較もご覧ください: