YOLOv7 EfficientDetの比較:リアルタイム物体検出アーキテクチャの技術比較
物体検出は依然としてコンピュータ・ビジョンの要であり、自律走行から医療用画像処理に至るまで、さまざまな分野の技術革新を牽引しています。適切なアーキテクチャを選択することは、精度、スピード、計算リソースのバランスをとる上で非常に重要です。この分析では YOLOv7とEfficientDetの2つの影響力のあるモデルを深く掘り下げる。
建築デザインと哲学
これら2つのアーキテクチャの根本的な違いは、最適化の目的にある。Google Brainチームが開発したEfficientDetは、パラメータ効率と浮動小数点演算(FLOPs)を優先している。スケーラブルなアーキテクチャを活用することで、ユーザーはリソースと精度をリニアにトレードオフできる。これに対して YOLOv7は、YOLOv4の作者(Chien-Yao Wangら)によって開発され、最先端の精度を維持しながらGPU ハードウェア上で推論速度を最大化することに重点を置いています。
EfficientDet:複合スケーリングとBiFPN
EfficientDetはEfficientNetのバックボーン上に構築されており、ネットワークの解像度、深さ、幅を均一にスケールする複合スケーリング手法を利用しています。EfficientDetにおける重要な革新は、双方向特徴ピラミッドネットワーク(BiFPN)です。従来のFPNとは異なり、BiFPNは異なる入力特徴の重要性を学習するために学習可能な重みを導入することで、簡単かつ高速なマルチスケール特徴フュージョンを可能にします。この設計により、EfficientDetは、メモリやFLOPが厳しく制限されるエッジコンピューティング・アプリケーションに非常に有効です。
YOLOv7:E-ELANとモデルの再パラメータ化
YOLOv7 、拡張効率的レイヤ集約ネットワーク(E-ELAN)を導入している。このアーキテクチャは、最短と最長の勾配パスを制御し、元の勾配パスを破壊することなくネットワークの学習能力を向上させる。さらに、YOLOv7 、複雑な学習構造を簡素化し、合理的な推論構造にする手法であるモデル再パラメータ化を採用している。この結果、学習時にはロバストでありながら、GPU上での展開時には極めて高速なモデルが実現する。
パフォーマンス分析指標とベンチマーク
パフォーマンスを比較する場合、その選択はしばしば導入ハードウェアに依存する。EfficientDetは低消費電力環境(CPU)で輝き、YOLOv7 高スループットのGPU 推論用に設計されている。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
主なポイント
- レイテンシ対効率:EfficientDet-d0が使用するパラメータ数が大幅に少ない(3.9M)のに対し、YOLOv7lはGPU上で極めて低いレイテンシ(6.84ms)ではるかに高いmAP (51.4%)を提供します。これは、YOLOv77の並列処理能力の優れた利用を示しています。
- スケーラビリティ:EfficientDetはd0からd7までのきめ細かなスケーリングパスを提供し、開発者は特定のCPU 制約に合わせてモデルサイズを微調整することができます。
- ハイエンドの精度:トップエンドでは、EfficientDet-d7が優れた精度(53.7%mAP)を達成していますが、その代償として待ち時間が長くなっています(~128ms)。YOLOv7xは、T4GPU推論時間の10分の1以下(11.57ms)で同等の精度(53.1%mAP)を達成しています。
ハードウェアに関する考察
導入対象が汎用CPU モバイルプロセッサの場合、EfficientDetモデル(特にd0-d2)のFLOPsが低いほど、バッテリ寿命と熱管理が向上することがよくあります。エッジGPU(NVIDIA Jetsonなど)やクラウド推論サーバーの場合、 YOLOv7は、リアルタイムのビデオ解析のフレームレートを大幅に向上させます。
トレーニング方法論と最適化
これらのモデルのトレーニングストラテジーは、そのアーキテクチャーの目標を反映している。
YOLOv7は "Bag-of-Freebies "アプローチを採用し、学習コストは増加するが、推論速度に影響を与えることなく精度を向上させる手法を組み込んでいる。主なテクニックは以下の通り:
- 粗目から細目への深層スーパービジョン:補助ヘッドは、補助ヘッドをリードヘッドとは異なる方法で導くラベル割り当て戦略で、ネットワークの中間層を監督するために使用される。
- 動的なラベル割り当て:このモデルは、学習中に地上真実オブジェクトのアンカーへの割り当てを適応させ、収束を向上させる。
EfficientDetは、最適なバックボーンと特徴ネットワークのアーキテクチャを見つけるために、AutoMLに大きく依存している。そのトレーニングには通常
- ストキャスティック・デプス:学習中にレイヤーをランダムに削除して汎化を向上させる。
- スウィッシュ活性化:より深いネットワークにおいてReLUを常に上回る、滑らかで非単調な関数。
Ultralytics 優位性
YOLOv7 EfficientDetも強力ですが、コンピュータビジョンの状況は急速に進化しています。Ultralytics エコシステムは、次のような最新の選択肢を提供しています。 YOLO11のような現代的な選択肢を提供し、開発者のエクスペリエンスを向上させながら、以前のアーキテクチャの優れた特徴を統合しています。
使いやすさとエコシステム
研究指向のリポジトリ(オリジナルのEfficientDetコードベースのような)の主な課題の1つは、統合の複雑さです。Ultralytics 、統一されたPython パッケージでこれを解決します。開発者は、包括的なドキュメントと活発なコミュニティサポートに支えられながら、わずか数行のコードでモデルのトレーニング、検証、デプロイを行うことができます。
汎用性と性能のバランス
Ultralytics モデルはバウンディングボックスに限定されません。インスタンスのセグメンテーション、ポーズ推定、分類、およびOBB(Oriented Object Detection)をネイティブにサポートしています。パフォーマンスに関しては、最新のYOLO バージョン(YOLOv8 YOLO11)は、多くの場合、EfficientDetよりもパラメータあたりの精度が高く、YOLOv7高速な推論を達成し、実世界での展開に理想的なバランスを保っています。
記憶力とトレーニング効率
Ultralytics YOLO モデルは、そのメモリ効率で有名です。通常、Transformerベースのディテクターや旧式のスケーラブルアーキテクチャーと比較して、トレーニング時に必要なCUDA メモリが少なくて済みます。これにより、研究者はコンシューマーグレードのハードウェアで最先端のモデルをトレーニングすることができます。さらに、すぐにダウンロード可能な高品質の事前学習済み重みにより、移行学習が効率化されます。
from ultralytics import YOLO
# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with high speed
predictions = model("https://ultralytics.com/images/bus.jpg")
モデル仕様
YOLOv7
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織: Institute of Information Science, Academia Sinica, Taiwan
- 発売日2022年7月6日
- 論文YOLOv7:リアルタイム物体検出のための訓練可能なbag-of-freebiesが新たな最先端を示す
- ソースGitHubリポジトリ
EfficientDet
- 著者: Mingxing Tan、Ruoming Pang、Quoc V. Le
- 組織 Google リサーチ、ブレイン チーム
- リリース日2019年11月20日
- 論文EfficientDet:スケーラブルで効率的な物体検出
- ソースGitHubリポジトリ
実際のユースケース
EfficientDetを選ぶとき
EfficientDetは、GPU アクセラレーションが利用できない組込みシステムの有力な候補であることに変わりはない。
- モバイルアプリ: CPU上で物体検出を行うAndroidiOS アプリケーション。
- リモートIoTセンサー:ミリワット単位の計算が重要な環境変化を監視するバッテリー駆動のデバイス。
YOLOv7選ぶとき
YOLOv7 、高性能の工業用環境で優れた性能を発揮する。
- 自律走行:歩行者と車両を高フレームレートで検出し、安全を確保。
- スマートシティ:エッジサーバーでのトラフィック管理のために複数のビデオストリームを同時に解析。
結論
両アーキテクチャは、コンピュータ・ビジョンにおける重要なマイルストーンである。EfficientDetは、パラメータ効率のための複合スケーリングの威力を実証した。 YOLOv7はGPU レイテンシ最適化で可能なことの限界を押し広げた。
しかし、最もモダンで保守性が高く、汎用性の高いソリューションを求める開発者にとっては Ultralytics YOLO11モデルファミリーを推奨する。優れた精度とスピードのトレードオフ、よりシンプルなワークフロー、データセットのキュレーションからデプロイまでを簡素化する強固なエコシステムを提供します。
その他のモデルを見る
他の物体検出アーキテクチャの比較に興味がある場合は、以下のリソースを参照してください: