YOLOv7 vs. YOLOv9:詳細な技術比較
物体検出のためにYOLOモデルを選択する場合、異なるバージョン間のニュアンスを理解することが重要です。このページでは、台湾のAcademia Sinicaの情報科学研究所の研究者によって開発されたYOLOシリーズの2つの重要なモデルであるYOLOv7とYOLOv9の間の詳細な技術比較を提供します。アーキテクチャの革新、パフォーマンスベンチマーク、およびさまざまなアプリケーションへの適合性を調査して、次のコンピュータビジョンプロジェクトで情報に基づいた意思決定を行うのに役立てます。
YOLOv7:効率的かつ高速なオブジェクト検出
2022年7月にリリースされたYOLOv7は、リアルタイム物体検出の速度と精度の両方を大幅に最適化することを目指した画期的なモデルであり、当時、効率性の新たな基準を打ち立てました。
著者: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
所属: Institute of Information Science, Academia Sinica, Taiwan
日付: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
ドキュメント: https://docs.ultralytics.com/models/yolov7/
アーキテクチャと主な機能
YOLOv7の設計思想は、精度を損なうことなく推論速度を最大化することに重点を置いています。このバランスを実現するために、いくつかの主要なアーキテクチャ要素とトレーニング戦略が導入されました。
- Extended Efficient Layer Aggregation Network (E-ELAN): バックボーンのこのコアコンポーネントは、特徴集約をより効率的に管理することにより、ネットワークの学習能力を強化します。研究論文に詳述されているように、計算コストを大幅に増加させることなく、モデルがより堅牢な特徴を学習できるようにします。
- 複合モデルのスケーリング: YOLOv7は、モデルの深さと幅に対して複合スケーリングメソッドを導入し、さまざまな計算予算に合わせて、さまざまなモデルサイズにわたって効果的な最適化を可能にしました。
- Trainable Bag-of-Freebies: このコンセプトには、高度なデータ拡張やラベル割り当て戦略など、トレーニングプロセス中にさまざまな最適化手法を組み込むことが含まれます。これらの方法は、推論コストにオーバーヘッドを追加することなく、最終的なモデルの精度を向上させます。
長所と短所
長所
- 高速な推論速度: リアルタイムアプリケーションに最適化されており、YOLOv7は特定のハードウェアおよびバッチサイズ構成において、後続の多くのモデルよりも高速な推論を提供することがよくあります。
- 強力なパフォーマンス: 競争力のあるmAPスコアを達成しており、多くの検出タスクにおいて信頼性が高く、強力な選択肢となります。
- 確立されたモデル: ある程度の期間利用可能であるYOLOv7は、幅広い採用、豊富なコミュニティリソース、および多数の実証済みの導入事例から恩恵を受けています。
弱点
- ピーク精度が低い: 新しいYOLOv9と比較して、YOLOv7は、特に多数の小さく重複するオブジェクトがある複雑なシナリオで、最大精度がわずかに低い場合があります。
- Anchor-Based Detection: 事前に定義されたアンカーボックスに依存しているため、異常なまたは非常に多様なアスペクト比を持つオブジェクトを検出する場合、アンカーフリーアプローチよりも柔軟性が低い場合があります。
ユースケース
YOLOv7は、推論速度が最も重要な要素となるアプリケーションに非常に適しています。
- リアルタイムビデオ分析および監視システム。
- Edge AIは、ロボティクスやドローンに見られるような、リソースが限られたデバイスへのデプロイメント。
- 迅速なターンアラウンドが不可欠な物体検出システムの迅速なプロトタイピングと開発。
YOLOv9:精度向上のためのプログラム可能な勾配情報
2024年2月に発表されたYOLOv9は、深層ニューラルネットワークにおける情報損失の問題に直接取り組むことで、アーキテクチャの大きな進化を遂げ、精度の大幅な向上につながっています。
著者: Chien-Yao Wang and Hong-Yuan Mark Liao
所属: Institute of Information Science, Academia Sinica, Taiwan
日付: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
ドキュメント: https://docs.ultralytics.com/models/yolov9/
アーキテクチャと主な機能
YOLOv9は、ネットワークを介した情報の流れを改善するように設計された新しいコンセプトを導入し、より効果的な学習とより高い精度を実現します。
- Programmable Gradient Information (PGI): これはYOLOv9の基礎となるイノベーションです。PGIは、補助的な可逆ブランチを通じて信頼性の高い勾配を生成することにより、深層ネットワークに固有の情報ボトルネックの問題に対処します。これにより、より深い層での更新のために重要な情報が保持され、正確な検出に必要な重要な詳細の損失を防ぎます。
- Generalized Efficient Layer Aggregation Network (GELAN): CSPNet(YOLOv5 で使用)などのアーキテクチャの成功に基づいて、GELAN は新しい高効率ネットワークアーキテクチャです。パラメータ利用率と計算効率を最適化し、YOLOv9 がより少ないリソースでより優れたパフォーマンスを達成できるようにします。
長所と短所
長所
- 精度の向上: PGIとGELANの組み合わせにより、YOLOv7と比較して優れた特徴抽出と大幅に高いmAPスコアが実現され、特に大規模モデルで顕著です。
- 効率の向上: YOLOv9は、以前のモデルよりも少ないパラメータと計算でより良い精度を達成します。特定の精度レベルでは、YOLOv9はYOLOv7よりも効率的なことがよくあります。
- 最先端のイノベーション: これは、オリジナルのYOLO研究の系譜における最新の進歩を代表するものであり、リアルタイム物体検出で可能なことの限界を押し広げています。
弱点
- 計算需要: その精度に対して効率的である一方、高度なアーキテクチャ、特に YOLOv9e のような大規模なバリアントでは、トレーニングとデプロイメントに相当な計算リソースが必要となる場合があります。
- Newer Model: 最新のリリースであるため、コミュニティサポートとサードパーティのデプロイメントチュートリアルは、YOLOv7のような確立されたモデルよりも少ない可能性があります。ただし、Ultralyticsエコシステムへの統合により、合理化されたユーザーエクスペリエンスが提供されることで、これは軽減されます。
ユースケース
YOLOv9は、最高レベルの精度と効率を要求するアプリケーションに最適です。
- 自動運転車および高度な運転支援システムにおける複雑な検出タスク。
- 誤検出と過少検出を最小限に抑える必要のある、高精度のセキュリティシステム。
- モデルサイズと計算コストが重要な制約となるが、高い精度が不可欠なアプリケーション。
性能と効率の直接対決
YOLOv7とYOLOv9を直接比較すると、明確な傾向が見られます。YOLOv9は、精度と計算コストの間で優れたトレードオフを提供します。たとえば、YOLOv9mモデルはYOLOv7lと同じ51.4%のmAPを達成していますが、パラメータ数(20.0M対36.9M)とFLOPsがほぼ半分です。同様に、YOLOv9cはYOLOv7x(53.0%対53.1% mAP)に匹敵するパフォーマンスを提供しながら、YOLOv7xの71.3Mパラメータと比較してわずか25.3Mパラメータを使用するだけで、大幅に効率的です。この効率の向上は、YOLOv9のアーキテクチャの改善、特にPGIとGELANの直接的な結果であり、より効果的な学習を可能にしています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
YOLOv9t | 640 | 38.3 | - | 2.30 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
結論と推奨事項
YOLOv7とYOLOv9はどちらも強力な物体検出モデルですが、わずかに異なる優先順位に対応しています。
-
YOLOv7は、特に生の推論速度が最も重要な関心事であり、確立された広くサポートされているアーキテクチャが好ましいアプリケーションにとって、依然として強力な候補です。多くのリアルタイムシステムにとって実績のある主力製品です。
-
YOLOv9は、明確な後継モデルであり、最先端の精度と効率を必要とする新しいプロジェクトに推奨される選択肢です。その革新的なアーキテクチャは、深層学習における重要な問題を解決し、その結果、前任モデルよりも正確で計算効率の高いモデルとなっています。
どちらのモデルも優れていますが、より統合された汎用性の高いソリューションを求める開発者は、Ultralytics YOLOv8や最新のYOLO11など、Ultralyticsエコシステムのモデルも検討する必要があります。これらのモデルは、合理化されたユーザーエクスペリエンス、広範なドキュメント、および検出を超えた幅広いタスク(インスタンスセグメンテーション、ポーズ推定、分類など)をサポートしており、すべて単一の適切にメンテナンスされたフレームワーク内で実現します。
その他のモデルを見る
さらに比較検討を行い、他の最先端モデルを調べるには、Ultralyticsドキュメントの以下のページをご確認ください。
- YOLOv5: パフォーマンスと普及度のバランスが取れていることで知られています。
- YOLOv8: 複数のビジョンタスクをサポートする、汎用性が高く強力なモデルです。
- YOLOv10: NMSの必要性を排除することで、リアルタイムのエンドツーエンド物体検出に焦点を当てています。
- YOLO11:最高レベルのパフォーマンスと効率を提供する、Ultralyticsの最新の最先端モデル。
- RT-DETR: 異なるアーキテクチャアプローチを提供するTransformerベースの検出器。