YOLOv7 EfficientDet:リアルタイム物体検出アーキテクチャの徹底比較
物体検出技術の進化は、精度と効率性の絶え間ない綱引きによって特徴づけられてきた。この分野における二大有力候補は YOLOv7、2022年に発表された「You Only Look Once」ファミリーの画期的なモデルと、Google 発表したスケーラブルなアーキテクチャであるEfficientDetである。両モデルともコンピュータビジョン分野に多大な影響を与えているが、物体検出という課題へのアプローチは根本的に異なるアーキテクチャ哲学に基づいている。
このガイドは、開発者、研究者、エンジニアが特定のコンピュータビジョンプロジェクトに適したツールを選択するための包括的な技術比較を提供します。各ツールの独自のアーキテクチャ、ベンチマーク性能指標、トレーニング手法、および理想的な導入シナリオについて検証します。
モデルの概要と起源
指標に深く入り込む前に、これらのモデルの系譜を理解することが不可欠である。
YOLOv7: Bag-of-Freebiesの強力なモデル
2022年7月に発表されたYOLOv7 、リアルタイム検出器の可能性の限界をYOLOv7 。推論コストを増加させることなく学習プロセスを最適化するよう設計されたアーキテクチャの革新を導入し、著者らはこれを「trainable bag-of-freebies」と呼んだ。
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織: 台湾、中央研究院 情報科学研究所
- 日付: 2022-07-06
- リンク:ArXiv論文 | GitHubリポジトリ
EfficientDet: スケーラブルで効率的
Google チームによって開発されたEfficientDetは、スケーリングへの体系的なアプローチに焦点を当てた。これは、革新的な加重双方向特徴ピラミッドネットワーク(BiFPN)と、解像度、深度、幅を均一にスケーリングする複合スケーリング手法を組み合わせたものである。
- 著者: Mingxing Tan、Ruoming Pang、Quoc V. Le
- 組織:Google Research
- 日付: 2019-11-20
- リンク:ArXiv論文 | GitHubリポジトリ
アーキテクチャの違い
これら二つのモデルの中核的な違いは、特徴量集約とモデルスケーリングの処理方法にある。
YOLOv7アーキテクチャ
YOLOv7 拡張効率的層集約ネットワーク(E-ELAN)YOLOv7 。このアーキテクチャは、最短および最長の勾配経路を制御することでモデルがより多様な特徴を学習できるようにし、元の勾配経路を破壊することなくネットワークの学習能力を強化する。
主要なアーキテクチャ機能は以下の通りです。
- モデルスケーリング:EfficientDetの複合スケーリングとは異なり、YOLOv7 連結ベースのモデルにおいてアーキテクチャ属性(深度と幅)を同時にYOLOv7 。
- 補助ヘッドによる粗から細への学習:深層監督を採用し、補助ヘッドが学習用の粗いラベルを生成する一方、主ヘッドが微調整を担当する。
- 再パラメータ化: YOLOv7 、複雑な学習時構造を標準的な畳み込み層に簡素化するRepConv層YOLOv7 、推論速度を向上させている。この手法はリアルタイム推論において極めて重要である。
EfficientDetアーキテクチャ
EfficientDetはEfficientNetのバックボーンを基盤として構築され、BiFPNを導入する。
主要なアーキテクチャ機能は以下の通りです。
- BiFPN:容易かつ高速なマルチスケール特徴融合を可能とする重み付き双方向特徴ピラミッドネットワーク。異なる入力特徴の重要性を学習し、トップダウンおよびボトムアップのマルチスケール特徴融合を反復的に適用する。
- 複合スケーリング:ネットワークの幅、深さ、解像度を同時に拡大する簡潔かつ効果的な係数であり、異なるリソース制約に対応する一連のモデル(D0からD7)を実現する。
パフォーマンス比較
性能を比較する際には、COCO における平均精度(mAP)と推論速度を対比して検討する。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
詳細な分析
- レイテンシ: YOLOv7 GPU 上で著しく高速YOLOv7 。例えば、YOLOv7xはTensorRT 約11.mAP 53.1%mAP を達成する一方、EfficientDet-d7はわずかに高い53.7%mAPを達成するのに約128msを要する。これにより、高精度シナリオにおいてYOLOv7 10倍 YOLOv7 高速となる。
- 効率性:EfficientDet-d0からd2はFLOPsの観点で極めて軽量であり、GPU 利用できない超低消費電力CPUに適している。ただし、D4以上にスケールアップすると、YOLO と比較して効率性の向上が鈍化する。
- 精度:EfficientDet-d7は驚異的な精度を実現する一方、計算コストがリアルタイムアプリケーションには高すぎる。YOLOv7 より優れた「最適解」YOLOv7 、リアルタイム性能を犠牲にすることなく高い精度を維持する。
トレーニングとエコシステム
モデルを取り巻くエコシステムは、開発者にとっての実用性を決定づける。Ultralytics 真価を発揮するのはまさにこの点である。
効率的なエコシステム
TensorFlow 。強力ではありますが、現代的なパイプラインに統合するには複雑な依存関係を処理する必要がある場合が多くあります。
- 複雑性:BiFPNおよびswish活性化関数は、標準的な畳み込みと比較して、特定のエッジアクセラレータ上で最適化が困難な場合がある。
- メンテナンス:多くのリポジトリは、YOLO の迅速なリリースサイクルと比較して、更新頻度が低くなっています。
Ultralyticsエコシステムの利点
YOLOv7 およびそれ以降のバージョン)のようなUltralytics を使用する際の目立った利点の一つは、整備されたエコシステムである。
- 使いやすさ: Ultralytics 統一されたPython Ultralytics 、トレーニング、検証、デプロイを簡素化します。
- トレーニング効率: YOLO 標準的なGPU 効果的に活用し、カスタムデータセットでのトレーニングに伴う時間とコストを削減します。
- メモリ要件:従来の2段階検出器や大型の変圧器ベースモデルと比較して、YOLOv7 CUDA 使用量が少なく、民生用ハードウェア上でより大きなバッチサイズを可能にします。
Ultralyticsによる効率化されたトレーニング
Python を使用すれば、YOLO は簡単です。トレーニングを実行する方法は次の通りです:
from ultralytics import YOLO
# Load a model
model = YOLO("yolov7.pt") # load a pretrained model
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
ユースケースの推奨事項
YOLOv7を選択すべき時
YOLOv7 、レイテンシが重要なリアルタイムアプリケーションにおいて最適な選択肢YOLOv7 。
- 自動運転:歩行者、車両、標識を高フレームレートで検知し、安全な意思決定を保証します。
- ロボティクス: ロボット工学におけるコンピュータビジョンの統合に最適であり、ロボットが動的な環境をナビゲートし、相互作用することを可能にします。
- ビデオ分析:大規模なコンピューティングクラスターを必要とせずに、セキュリティや小売分析のために複数のビデオストリームを同時に処理します。
EfficientDetを選択するタイミング
EfficientDetは、特定の低電力シナリオや、レイテンシよりもモデルサイズ(MB単位)が主な制約となる場面において、依然として有用である。
- モバイルアプリ:D0-D1のような小型バリエーションは、ストレージ容量が厳しく制限されているモバイルデバイスに適しています。
- レガシーシステム: TensorFlow向けに既に高度に最適化された環境では、EfficientDetの方が容易に統合できる可能性があります。
- 学術研究:リアルタイム推論が主目的ではない場合、複合スケーリングや特徴融合技術の効果を研究するのに有用である。
未来:YOLO26へのアップグレード
YOLOv7 優れたツールYOLOv7 、コンピュータビジョン分野は急速に進化しています。最高の性能を求める開発者にとって、2026年1月に発表されたYOLO26モデルが最先端を体現しています。
YOLO26は、エンドツーエンドNMS設計により、従来のYOLOの遺産を継承しています。これにより、非最大抑制(NMS)の後処理が不要となり、デプロイメントパイプラインが簡素化され、推論速度が向上します。
YOLO26がYYOLOv7 v7およびEfficientDetに対して持つ主な利点は以下の通りです:
- MuSGDオプティマイザー: SGD ミューオンのハイブリッド手法。大規模言語モデル(LLM)の訓練技術革新をコンピュータビジョン分野にもたらし、より安定した訓練と高速な収束を実現します。
- エッジ最適化:分布焦点損失(DFL)の削除により、YOLO26はCPU最大43%高速化され、EfficientDetよりもエッジデバイスに適した性能を実現しました。
- 強化された汎用性:検出機能に加え、YOLO26は姿勢推定、インスタンスセグメンテーション、オリエンテッドバウンディングボックス(OBB)において最先端の性能を発揮し、これら全てを単一フレームワーク内で実現します。
- ProgLoss + STAL:改良された損失関数は、IoTや航空画像において重要な小規模物体認識において顕著な改善をもたらす。
結論
YOLOv7 コンピュータビジョン史に確固たる地位を築いた。EfficientDetは洗練されたスケーリング原理を導入し、YOLOv7 リアルタイム速度のための「フリービーの袋」アプローチをYOLOv7 。しかし、パフォーマンスバランス・使いやすさ・汎用性を求める現代の生産パイプラインにおいては、YOLOv7 Ultralytics 明確な優位性を提供する。
トレーニング時のメモリ要件が低く、ONNXなどの形式へのシームレスなエクスポートが可能 ONNX や TensorRTへのシームレスなエクスポートにより、Ultralytics データセットからデプロイメントまでのプロセスを可能な限り円滑にします。
参考資料
- モデル:他のアーキテクチャを探索する YOLOv8、 YOLO11、 RT-DETR。
- プラットフォーム: Ultralytics を使用して、データセットの管理、モデルのトレーニング、そして手間いらずのデプロイを実現します。
- ガイド: ハイパーパラメータ調整について学び、モデルから最大限の性能を引き出しましょう。