YOLOv9 vs. YOLOv6-3.0:詳細な技術比較
最適な物体検出モデルの選択は、あらゆるコンピュータビジョンプロジェクトにおいて非常に重要な決定事項であり、パフォーマンス、速度、およびデプロイの実現可能性に直接影響します。このページでは、精度と効率で知られる最先端モデルであるYOLOv9と、高速な産業用アプリケーション向けに設計されたモデルであるYOLOv6-3.0との詳細な技術比較を提供します。お客様のニーズに最適なモデルを選択できるよう、アーキテクチャ、パフォーマンス指標、および理想的なユースケースについて解説します。
YOLOv9:最新鋭の精度と効率
YOLOv9は、2024年2月に発表されたリアルタイム物体検出における大きな飛躍を意味します。深層ニューラルネットワークにおける根本的な情報損失の問題に対処し、印象的な効率を維持しながら、精度において新たな高みに到達しました。
著者: Chien-Yao Wang and Hong-Yuan Mark Liao
所属: Institute of Information Science, Academia Sinica, Taiwan
日付: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
ドキュメント: https://docs.ultralytics.com/models/yolov9/
アーキテクチャと主な機能
YOLOv9では、Programmable Gradient Information (PGI)とGeneralized Efficient Layer Aggregation Network (GELAN)という2つの画期的な概念が導入されています。YOLOv9の論文で詳しく説明されているように、PGIは、データが深いネットワーク層を流れる際に発生する情報の損失に対処するように設計されており、モデルが正確な更新に必要な重要な勾配情報を保持することを保証します。GELANは、パラメータの使用率と計算効率を最適化する新しいネットワークアーキテクチャであり、YOLOv9が重い計算負荷なしに優れたパフォーマンスを発揮できるようにします。
Ultralyticsエコシステムに統合されると、YOLOv9は、合理化されたユーザーエクスペリエンス、包括的なドキュメント、および堅牢なサポートネットワークの恩恵を受けます。これにより、強力であるだけでなく、トレーニングとデプロイが非常に簡単になります。
長所
- 優れた精度: COCOデータセットのような標準ベンチマークで最先端のmAPスコアを達成し、多くの以前のモデルを上回っています。
- 高い効率性: GELANアーキテクチャは、競合他社と比較して、より少ないパラメータとFLOPsで優れたパフォーマンスを保証し、エッジAIデバイスへの実装に適しています。
- 情報保持: PGIは、深層ネットワークに共通する情報のボトルネックの問題を効果的に軽減し、モデルの学習を改善し、より信頼性の高い検出につながります。
- Ultralyticsエコシステム: 活発な開発、シンプルなAPI、事前トレーニング済みの重みを使用した効率的なトレーニングプロセス、およびMLOpsのためのUltralytics HUBとの統合から恩恵を受けます。また、通常、他のアーキテクチャと比較してトレーニング中のメモリ要件が低くなります。
- 多様性: 元の研究では、インスタンスセグメンテーションやパノプティックセグメンテーションのようなマルチタスク機能の可能性が示されており、Ultralyticsモデルの多様な性質と一致しています。
弱点
- 新規性: より新しいモデルであるため、コミュニティが提供するデプロイメント例の量はまだ増加していますが、Ultralyticsフレームワーク内での統合により、広範な採用が加速されます。
ユースケース
YOLOv9は、高い精度が不可欠なアプリケーションに最適です。
- 高度な運転支援システム(ADAS): 車両、歩行者、および障害物の正確なリアルタイム検出に不可欠です。
- 高解像度医用画像: 腫瘍検出のようなタスクにおいて、情報の完全性が重要な詳細な分析に適しています。
- 複雑な産業オートメーション: 小さな欠陥を確実に識別する必要がある製造業における品質管理に最適です。
YOLOv6-3.0:産業用速度のために最適化
YOLOv6-3.0は、中国のテクノロジープラットフォームであるMeituanによって開発されたYOLOv6シリーズのイテレーションです。2023年1月にリリースされ、産業展開における推論速度と効率に重点を置いて設計されました。
著者: Chuyi Li, Lulu Li, Yifei Geng, et al.
所属: Meituan
日付: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
ドキュメント: https://docs.ultralytics.com/models/yolov6/
アーキテクチャと主な機能
YOLOv6-3.0は、ハードウェアを意識したニューラルネットワーク設計を採用し、GPUなどの特定のハードウェアでのより高速な推論のためにアーキテクチャを最適化しています。効率的な再パラメータ化バックボーンと、精度と速度のバランスを取るためにハイブリッドブロックで構築されたネックを備えています。このモデルは、計算効率に重点を置いた従来のConvolutional Neural Network (CNN)として構築されています。
長所
- 高速な推論速度: このアーキテクチャは、高速な物体検出のために大幅に最適化されており、特にGPUハードウェアで効果を発揮します。
- 良好な精度と速度のトレードオフ: 非常に高速な推論時間を維持しながら、競争力のあるmAPスコアを達成し、リアルタイムシステムに適した選択肢となっています。
- 産業用フォーカス: 実際の産業アプリケーションの具体的なニーズを念頭に置いて設計されています。
弱点
- ピーク精度が低い: 高速ですが、特に大規模なモデルバリアントでは、YOLOv9と同じピーク精度レベルに達しません。
- エコシステムの規模: YOLOv6を取り巻くコミュニティとエコシステムは、Ultralyticsのより広く採用されているモデルと比較して小さいため、ドキュメント、チュートリアル、サポートが少なくなる可能性があります。
- 汎用性の制限: 主に物体検出に焦点を当てており、Ultralyticsフレームワークにあるセグメンテーションやポーズ推定のような他のタスクに対する組み込みサポートがありません。
ユースケース
YOLOv6-3.0は、推論速度が最優先事項であるシナリオに最適です。
- リアルタイム監視: セキュリティアラームシステムなど、ビデオストリームの高速分析を必要とするアプリケーション。
- モバイルアプリケーション: 効率的な設計により、リソースが限られたモバイルデバイスへのデプロイの候補となります。
- 高スループットシステム: すべてのオブジェクトを完璧な精度で検出するよりも、速度が重要なパッケージの仕分けなどの環境。
性能分析: YOLOv9 vs. YOLOv6-3.0
YOLOv9とYOLOv6-3.0の性能比較は、精度と効率のトレードオフを明確に示しています。YOLOv9は、そのモデルバリアント全体で一貫して優れた精度を示しています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
表から、いくつかの重要な洞察が得られます。
- ピーク精度: YOLOv9-Eは、驚異的な55.6 mAPを達成し、最高のYOLOv6-3.0モデル(52.8 mAP)を大幅に上回っています。
- 効率性: YOLOv9は優れたパラメータ効率を示しています。例えば、YOLOv9-Cは、YOLOv6-3.0l (52.8) よりも高いmAP (53.0) を、半分以下のパラメータ (25.3M vs. 59.6M) とより少ないFLOPs (102.1B vs. 150.7B) で達成しています。
- 速度: YOLOv6-3.0の小型モデル(YOLOv6-3.0nなど)は非常に高速(1.17msのレイテンシ)であり、速度が最優先事項であり、わずかな精度の低下が許容されるアプリケーションに最適です。ただし、特定のレベルの精度に対して、YOLOv9の方が効率的な場合がよくあります。
学習方法論
どちらのモデルも標準的な深層学習トレーニングプラクティスを使用していますが、ユーザーエクスペリエンスは大きく異なります。Ultralyticsフレームワーク内でのYOLOv9のトレーニングは、非常に簡単です。このエコシステムは、合理化されたトレーニングワークフロー、簡単なハイパーパラメータ調整、効率的なデータローダー、およびTensorBoardやWeights & Biasesなどのロギングツールとのシームレスな統合を提供します。この包括的なサポートシステムは、開発を加速し、実験管理を簡素化します。さらに、Ultralyticsモデルは、トレーニング中の効率的なメモリ使用のために最適化されています。
YOLOv6-3.0 のトレーニングには、公式のGitHub リポジトリに概説されている手順に従う必要があり、これはプラグアンドプレイソリューションを求める開発者にとってはアクセスしにくい場合があります。
結論: YOLOv9が推奨される理由
YOLOv6-3.0 は高速の産業シナリオで優れた性能を発揮する有能なモデルですが、YOLOv9 は最新のコンピュータビジョンアプリケーションの大部分にとって優れた選択肢として登場しました。
YOLOv9は、より魅力的なパッケージを提供し、驚くべき計算効率で最先端の精度を実現します。その革新的なアーキテクチャは、深層学習における主要な課題を効果的に解決し、より堅牢で信頼性の高いモデルをもたらします。ただし、主な利点は、Ultralyticsエコシステム内での統合にあります。これにより、開発者と研究者は、比類のない使いやすさ、広範なドキュメント、活発なコミュニティサポート、および単純なオブジェクト検出を超えた複数のタスクをサポートする汎用性の高いプラットフォームを利用できます。
最高の精度、より高い効率、およびスムーズな開発ワークフローを必要とするプロジェクトにとって、YOLOv9が明確な勝者です。
他の高度なモデルをご検討中の方には、Ultralyticsは、汎用性の高いUltralytics YOLOv8、業界標準のUltralytics YOLOv5、最先端のUltralytics YOLO11など、さまざまな高性能な代替モデルを提供しています。RT-DETRなどのモデルとの比較は、モデル比較ハブでご覧いただけます。