モデル比較:物体検出におけるYOLOv8対YOLOv9
適切な物体検出モデルの選択は、精度、速度、計算リソースのバランスを取る上で非常に重要です。このページでは、Ultralytics YOLOv8とYOLOv9という、YOLOシリーズの最先端モデルの詳細な技術比較を提供します。YOLOv8の汎用性と成熟したエコシステムが、ほとんどのアプリケーションで推奨される理由を強調しながら、アーキテクチャ、パフォーマンス、およびユースケースを分析して、ニーズに最適なものを判断できるようにします。
Ultralytics YOLOv8:合理化された汎用性
Ultralytics YOLOv8は、UltralyticsのGlenn Jocher、Ayush Chaurasia、Jing Qiuによって開発され、2023年1月10日にリリースされた非常に成功したモデルです。速度と精度の優れたバランスで知られており、ユーザーフレンドリーで非常に汎用性の高い設計となっています。YOLOv8の主な利点は、物体検出だけでなく、インスタンスセグメンテーション、ポーズ推定、画像分類、向き付きバウンディングボックス(OBB)など、幅広いビジョンタスクを単一の統合フレームワーク内でサポートすることです。
著者: Glenn Jocher、Ayush Chaurasia、Jing Qiu
所属: Ultralytics
日付: 2023-01-10
GitHub: https://github.com/ultralytics/ultralytics
ドキュメント: https://docs.ultralytics.com/models/yolov8/
アーキテクチャと主な機能
YOLOv8は、特にCPUにおいて、すべてのモデルサイズで優れた速度を示していますが、RTDETRv2の公式ベンチマークは提供されていません。たとえば、YOLOv8lはT4 GPUでわずか9.06 msのレイテンシで52.9 mAPを達成していますが、わずかに正確なRTDETRv2-l(53.4 mAP)は9.76 msと低速です。この効率性により、YOLOv8はリアルタイム推論を必要とするアプリケーションにとってより実用的な選択肢となります。
- 使いやすさ: YOLOv8は、シンプルなPython APIとCLIを通じて、効率化されたユーザーエクスペリエンスを提供し、充実したドキュメントによって支えられています。これにより、初心者から専門家までアクセスしやすくなっています。
- 優れたメンテナンス体制: 継続的な開発、強力なオープンソースコミュニティ、頻繁なアップデート、そしてノーコードトレーニングとMLOpsワークフローのためのUltralytics HUBとの深い統合から恩恵を受けています。
- パフォーマンスのバランス: モデルファミリーは、速度と精度の間で優れたトレードオフを実現しており、エッジデバイスからクラウドサーバーまで、多様な現実世界の展開シナリオに適しています。
- メモリ効率: 一般的に、transformerのような大規模なアーキテクチャと比較して、学習および推論に必要なCUDAメモリが少ないため、より幅広いハードウェアでの開発が可能です。
- 多様性: これは際立った特徴です。YOLOv8は、単一のフレームワーク内で複数の画像処理タスク(検出、セグメンテーション、分類、ポーズ、OBB)を処理することに優れており、YOLOv9のようなより専門的なモデルではしばしば欠けている機能です。
- 学習効率: 効率的な学習プロセスと、COCOなどのデータセットですぐに利用できる事前学習済みウェイトを備えており、開発サイクルを加速します。
長所と短所
長所:
- 多用途なタスクサポート: 単一のモデルアーキテクチャを検出、セグメンテーション、ポーズなどのためにトレーニングでき、複雑なプロジェクト要件を簡素化します。
- ユーザーフレンドリー: 包括的なドキュメントとシンプルなAPIにより、高度なコンピュータビジョンソリューション開発への参入障壁が低くなります。
- 強力なコミュニティとエコシステム: 最適化されたデプロイメントのために、TensorRTやOpenVINOのような広範なリソースと統合により、活発にメンテナンスされています。
弱点:
- ピーク精度: 非常に正確ですが、最大のYOLOv9モデルは、純粋な物体検出のためにCOCOベンチマークでわずかに高いmAPスコアを達成できます。
- リソース集約型(大規模モデル): より大きなYOLOv8モデル(L、X)は、かなりの計算リソースを必要としますが、そのパフォーマンスクラスでは効率的です。
YOLOv9:斬新な技術による精度向上
YOLOv9は、2024年2月21日に台湾のAcademia Sinica情報科学研究所のChien-Yao WangとHong-Yuan Mark Liaoによって発表されました。深層ニューラルネットワークにおける情報損失に対処することにより、リアルタイムオブジェクト検出の精度限界を押し上げることを目的とした、重要なアーキテクチャの革新を導入しています。
著者: Chien-Yao Wang, Hong-Yuan Mark Liao
所属: Institute of Information Science, Academia Sinica, Taiwan
日付: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
ドキュメント: https://docs.ultralytics.com/models/yolov9/
アーキテクチャと主要なイノベーション
YOLOv9の中核となる貢献は、Programmable Gradient Information (PGI) とGeneralized Efficient Layer Aggregation Network (GELAN) です。
- Programmable Gradient Information (PGI): この概念は、深層ネットワーク層を伝播する際に重要なデータが失われる情報ボトルネックの問題を軽減するように設計されています。PGIは、正確なモデル更新のために重要な情報を維持するために、信頼性の高い勾配を生成するのに役立ちます。
- Generalized Efficient Layer Aggregation Network (GELAN): GELAN は、パラメータ利用率と計算効率を最適化する新しいアーキテクチャです。これにより、YOLOv9 は、以前の一部のモデルと比較して、より少ないパラメータでより高い精度を達成できます。
長所と短所
長所:
- 精度の向上: リアルタイムオブジェクト検出器において、COCOデータセットで新たな最先端の結果を確立し、他の多くのモデルをmAPで上回ります。
- 効率の向上: GELANアーキテクチャは、パラメータあたりの強力なパフォーマンス比を提供します。
弱点:
- 汎用性の制限: YOLOv9は主に物体検出に重点を置いています。YOLOv8を包括的なAIプロジェクトにとってより柔軟で実用的なソリューションにするセグメンテーション、姿勢推定、分類に対する組み込みのマルチタスクサポートがありません。
- 学習リソース: ドキュメントに記載されているように、YOLOv9モデルの学習は、Ultralyticsモデルと比較して、より多くのリソースを消費し、時間がかかる場合があります。
- Newer Architecture: 異なる研究グループによるより新しいモデルであるため、そのエコシステム、コミュニティサポート、およびサードパーティの統合は、確立されたUltralytics YOLOv8よりも成熟度が低いです。これにより、学習曲線がより急になり、すぐに利用できるデプロイメントソリューションが少なくなる可能性があります。
性能とベンチマーク:YOLOv8 vs. YOLOv9
パフォーマンスを比較すると、どちらのモデルも非常に有能であることは明らかです。YOLOv9は純粋な検出精度を追求し、その最大のバリアントであるYOLOv9eは最高のmAPを達成しています。ただし、Ultralytics YOLOv8は、より魅力的な全体的なパッケージを提供します。そのモデルは、速度と精度の優れたバランスを提供し、CPUとGPUの両方での十分に文書化された推論速度を備えており、これは実際のデプロイメントの決定にとって重要です。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
この表は、YOLOv9モデルがパラメータ効率に優れている一方で、YOLOv8は、多様なハードウェア環境への対応を示す重要なCPUベンチマークを含む、より完全なパフォーマンス全体像を提供することを示しています。
理想的なユースケース
YOLOv8とYOLOv9のどちらを選択するかは、プロジェクトの優先順位に大きく依存します。
YOLOv8は、以下の用途に最適です。
- マルチタスクアプリケーション: ロボティクス、ヘルスケア、または高度なセキュリティシステムなど、検出、セグメンテーション、およびポーズ推定の組み合わせを必要とするプロジェクト。
- 迅速な開発と展開: プロトタイプから本番環境への移行を迅速に行う必要がある開発者は、YOLOv8の使いやすさ、豊富なドキュメント、統合されたエコシステムから多大な恩恵を受けるでしょう。
- Balanced Performance Needs: 小売業や製造業におけるリアルタイムビデオ分析など、絶対的に最高のmAPスコアを達成することよりも、速度と精度の強力なバランスがより重要なアプリケーション。
YOLOv9は、以下のような用途に最適です。
- 研究および高精度な専門的検出: 主な目的がCOCOなどのベンチマークで物体検出の精度を最大化することであるシナリオ。
- 高精度産業検査: 可能な限り高い精度で微細な欠陥を検出することが主な関心事となるアプリケーション。
- 高度なビデオ分析: 最高レベルの検出が要求され、システムが特定の依存関係に対応できるスマートシティインフラストラクチャでの使用。
結論: どのモデルを選ぶべきか?
圧倒的多数の開発者とアプリケーションにとって、Ultralytics YOLOv8が優れた選択肢です。その比類のない汎用性、使いやすさ、および成熟した、適切にメンテナンスされたエコシステムは、YOLOv9よりも大きな利点を提供します。単一のフレームワーク内で複数のタスクを処理できる機能は、開発を簡素化するだけでなく、生産における複雑さとコストを削減します。YOLOv9は物体検出において印象的な精度の向上を提供しますが、その狭い焦点とあまり開発されていないエコシステムは、より特殊なツールとなっています。
YOLOv8は、開発者が堅牢で多面的なAIシステムを効率的に構築できるよう支援する、包括的なソリューションです。信頼性が高く、高性能で柔軟なモデルをお探しの方にとって、YOLOv8は間違いなく最適な選択肢です。さらに実績のあるモデルをお探しの場合は、YOLOv5をご検討ください。また、Ultralyticsの最新の最先端技術については、YOLO11をご覧ください。