モデル比較:YOLOv9とYOLOv8のオブジェクト検出
適切な物体検出モデルの選択は、精度、速度、計算リソースのバランスを取る上で重要な決定です。このページでは、汎用性と使いやすさに優れたモデルであるUltralytics YOLOv8と、斬新なアーキテクチャの進歩で知られるモデルであるYOLOv9との詳細な技術比較を提供します。アーキテクチャ、パフォーマンス指標、理想的なユースケースを分析し、コンピュータビジョンプロジェクトに最適なモデルを判断するためにお役立てください。
YOLOv9:斬新なアーキテクチャによる精度向上
YOLOv9は、オブジェクト検出における重要な進歩として導入され、主に深層ニューラルネットワークにおける情報損失を克服し、精度を向上させることに重点を置いています。
- 著者: Chien-Yao Wang、Hong-Yuan Mark Liao
- 組織: Institute of Information Science, Academia Sinica, Taiwan
- Date: 2024-02-21
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Docs: https://docs.ultralytics.com/models/yolov9/
アーキテクチャと主要なイノベーション
YOLOv9では、Programmable Gradient Information (PGI)とGeneralized Efficient Layer Aggregation Network (GELAN)という2つの主要なイノベーションが導入されています。PGIは、損失関数の計算に完全な入力情報を提供し、情報ボトルネック問題を軽減し、ネットワークの更新のためにより信頼性の高い勾配が生成されるように設計されています。GELANは、パラメータの使用率と計算効率を最適化する、斬新で非常に効率的なネットワークアーキテクチャです。これらの機能により、YOLOv9は高い精度を達成でき、多くの場合、COCOなどのデータセットで最新のベンチマークを確立します。
長所
- 最先端の精度: YOLOv9モデル、特に大型のバリアントは、最高レベルのmAPスコアを達成し、リアルタイム物体検出の精度限界を押し広げます。
- 高い効率性: GELANアーキテクチャにより、YOLOv9は、同様の精度を持つ他のモデルと比較して、より少ないパラメータと計算量(FLOPs)で高い性能を発揮できます。
- 情報保持: PGIは、深層ネットワークにおける情報損失の問題に効果的に対処し、非常に深く正確なモデルをトレーニングするために不可欠です。
弱点
- エコシステムとユーザビリティ: 研究リポジトリのモデルであるYOLOv9は、Ultralyticsが提供する洗練された、すぐに本番環境で使用できるエコシステムを欠いています。トレーニングプロセスがより複雑になる可能性があり、コミュニティサポートとサードパーティの統合は成熟していません。
- タスクの汎用性: 元のYOLOv9の実装は主に物体検出に焦点を当てています。Ultralyticsモデルで標準となっているセグメンテーション、姿勢推定、または分類のような他のビジョンタスクに対する組み込みの統合サポートは提供されていません。
- 学習リソース: YOLOv9の学習は、Ultralytics YOLOv8が提供する合理化されたプロセスと比較して、より多くのリソースを消費し、時間がかかる場合があります。
Ultralytics YOLOv8:多様性と使いやすさ
Ultralytics YOLOv8は、Ultralyticsによって開発された最先端のモデルであり、速度、精度、そして最も重要なこととして、使いやすさと汎用性の卓越したバランスで知られています。幅広いビジョンAIタスクのためのモデルのトレーニング、検証、およびデプロイメントのための完全なフレームワークとして設計されています。
- 著者: Glenn Jocher, Ayush Chaurasia, Jing Qiu
- 組織: Ultralytics
- Date: 2023-01-10
- GitHub: https://github.com/ultralytics/ultralytics
- Docs: https://docs.ultralytics.com/models/yolov8/
アーキテクチャと主な機能
YOLOv8は、新しいアンカーフリーの検出ヘッドや改良されたC2f(2つの畳み込みを持つCSP)バックボーンなど、以前のYOLOバージョンの成功に基づいて構築されています。この設計は、パフォーマンスを向上させるだけでなく、モデルとそのポストプロセッシングのステップを簡素化します。ただし、YOLOv8の真の強みは、その包括的なエコシステムにあります。
長所
- 卓越したパフォーマンスバランス: YOLOv8は、速度と精度の間で素晴らしいトレードオフを提供し、リソースが限られたエッジデバイスから高性能クラウドサーバーまで、幅広い実際のアプリケーションに非常に適しています。
- 比類なき汎用性: YOLOv8は真のマルチタスクフレームワークです。単一の統合フレームワーク内で、物体検出、インスタンスセグメンテーション、画像分類、ポーズ推定、および指向性バウンディングボックス(OBB)をサポートします。この汎用性は、YOLOv9のようなより特化したモデルに対する大きな利点です。
- 使いやすさ: Ultralyticsは、合理化されたユーザーエクスペリエンスを優先しています。シンプルなPython APIとCLI、充実したドキュメント、および豊富なチュートリアルにより、開発者はすぐに始めることができます。
- 充実したエコシステム: YOLOv8は、Ultralyticsによる活発な開発、強力なオープンソースコミュニティ、頻繁なアップデート、およびノーコードトレーニングとMLOpsワークフローのためのUltralytics HUBとのシームレスな統合によって支えられています。
- 学習効率: 学習プロセスは非常に効率的で、すぐに利用できる事前学習済みのウェイトと、他の多くのアーキテクチャ、特にTransformerベースのモデルと比較して、より低いメモリ要件を備えています。
- Deployment Ready: YOLOv8は、ONNX、TensorRT、OpenVINOなどのさまざまな形式の組み込みエクスポートサポートにより、簡単にデプロイできるように設計されており、本番環境への移行を簡素化します。
弱点
- ピーク精度: 非常に正確ですが、最大のYOLOv9モデルは、純粋な物体検出タスクにおいてCOCOベンチマークでわずかに高いmAPを達成する可能性があります。ただし、これは多くの場合、汎用性と使いやすさを犠牲にします。
性能の直接対決:精度と速度
性能を比較する際には、精度(mAP)、推論速度、モデルサイズ(パラメータ数)、計算コスト(FLOPs)など、全体像を見ることが不可欠です。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
表から、YOLOv9-Eが最高のmAPを達成していることがわかります。ただし、YOLOv8モデルは、特にリアルタイムアプリケーションに不可欠なYOLOv8nのような小型バリアントで、優れた推論速度を示しています。YOLOv8は、さまざまなハードウェアでより完全で実用的なパフォーマンスプロファイルを提供し、本番計画に不可欠な十分に文書化された速度ベンチマークを提供します。
結論: どのモデルを選ぶべきか?
YOLOv9とYOLOv8のどちらを選ぶかは、プロジェクトの優先順位に大きく左右されます。
以下の場合、YOLOv9 を選択してください:
- COCOなどのベンチマークで、オブジェクト検出の精度を最大限に高めることが唯一の目標である場合に適しています。
- PGIやGELANのような新しいアーキテクチャの探求が主な目的である研究環境で作業しています。
- より複雑なトレーニングおよびデプロイメントワークフローを管理するための十分な計算リソースと専門知識がある。
以下の場合、Ultralytics YOLOv8 を選択してください:
- 幅広いアプリケーションに対応する、堅牢で信頼性が高く、使いやすいモデルが必要。
- インスタンスセグメンテーション、ポーズ推定、分類など、プロジェクトでオブジェクト検出以上のものを必要とする場合、YOLOv8の多様性は開発時間を大幅に節約します。
- トレーニングからデプロイまで、高速かつ効率的なワークフローを優先する場合、Ultralyticsのエコシステムは、より迅速な製品化を支援するように設計されています。
- エッジとクラウドの両方のデプロイメントに適した、速度と精度の優れたバランスを提供するモデルが必要。
- 強力なコミュニティサポート、継続的なアップデート、包括的なドキュメントを重視する方に最適です。
圧倒的多数の開発者、研究者、および企業にとって、Ultralytics YOLOv8が推奨される選択肢です。強力な性能、信じられないほどの汎用性、およびユーザーフレンドリーで十分にサポートされたエコシステムの組み合わせにより、現実世界のコンピュータビジョンソリューションを構築するための、より実用的で強力なツールとなっています。
他のモデルを検討されている場合は、その安定性と広範な採用で知られるUltralytics YOLOv5、または代替のトランスフォーマーベースのアーキテクチャであるRT-DETRにも興味があるかもしれません。詳細な比較は、モデル比較ページでご覧いただけます。