DAMO-YOLOとYOLOv9:技術比較
適切な物体検出モデルの選択は、精度、速度、計算効率の必要性のバランスを取る重要な決定です。このページでは、Alibaba GroupのDAMO-YOLOとYOLOv9という2つの強力なモデルの詳細な技術的比較を提供します。アーキテクチャの革新、パフォーマンス指標、理想的なユースケースを検証し、お客様のコンピュータビジョンプロジェクトに最適なモデルを選択できるよう支援します。どちらのモデルも大きな進歩をもたらしていますが、YOLOv9は、特にUltralyticsエコシステム内では、最先端のパフォーマンスと開発者にとって使いやすい機能の魅力的な組み合わせを提供します。
DAMO-YOLO:Alibabaによる高速かつ高精度な手法
著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
組織: Alibaba Group
日付: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO
DAMO-YOLOは、Alibabaが開発した物体検出モデルであり、速度と精度の優れたバランスを実現することに重点を置いています。エッジデバイスからクラウドGPUまで、幅広いハードウェアで性能を向上させるために、いくつかの新しい技術を導入しています。このアーキテクチャは、「一度学習すれば、すべてに対応できる」という手法の結果であり、スーパーネットをトレーニングし、ニューラルアーキテクチャ探索(NAS)を使用して、さまざまな計算制約に適合するように特化したサブネットワークを派生させます。
アーキテクチャと主な機能
DAMO-YOLOのアーキテクチャには、いくつかの重要なイノベーションが組み込まれています。
- NAS生成バックボーン: DAMO-YOLOは、手動で設計されたバックボーンの代わりに、NASを通じて発見されたバックボーンを使用します。これらは、特徴抽出の効率のために最適化されています。
- Efficient RepGFPN Neck: 新しい特徴ピラミッドネットワークネックであるRepGFPNを採用しています。これは、効率的な特徴融合のために設計されており、推論中の速度を向上させるための再パラメータ化技術と互換性があります。
- ZeroHead: 高いパフォーマンスを維持しながら、計算オーバーヘッドを削減する、簡素化された軽量の検出ヘッド。
- AlignedOTA ラベル割り当て: 分類タスクと回帰タスク間のずれの問題に対処する、改善されたラベル割り当て戦略であり、より正確な予測につながります。
- Distillation Enhancement: 知識蒸留を用いて、より大きな教師モデルからより小さな生徒モデルへ知識を伝達し、コンパクトなモデルの精度をさらに向上させます。
長所
- 高速なGPU速度: DAMO-YOLOはGPU上での高速推論に最適化されており、リアルタイムビデオ処理やその他の遅延に敏感なアプリケーションに適しています。
- スケーラブルなモデル: 速度と精度の明確なトレードオフを提供するモデルファミリー(Tiny、Small、Medium、Large)を提供し、開発者はハードウェアに最適なものを選択できます。
- 革新的な技術: NAS、効率的なネック、および高度なラベルアサイナーの使用は、検出器の設計に対する最新のアプローチを示しています。
弱点
- タスクの特異性: DAMO-YOLOは主に物体検出用に設計されており、Ultralyticsのような包括的なフレームワークに見られるインスタンスセグメンテーションや姿勢推定のような他のタスクに対する組み込みの汎用性がありません。
- エコシステムとユーザビリティ: 強力ですが、そのエコシステムはUltralyticsほど成熟していません。トレーニング、デプロイメント、および本番パイプラインへの統合により多くの労力がかかる場合があります。
- コミュニティサポート: コミュニティと利用可能なリソースは、YOLOシリーズのような、より広く採用されているモデルと比較して小さい可能性があります。
YOLOv9:精度と効率の向上
著者: Chien-Yao Wang, Hong-Yuan Mark Liao
所属: Institute of Information Science, Academia Sinica, Taiwan
日付: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
ドキュメント: https://docs.ultralytics.com/models/yolov9/
YOLOv9は、リアルタイムオブジェクト検出における大きな飛躍を意味し、深層ニューラルネットワークにおける情報損失に対処するための画期的な概念を導入します。その核となるイノベーションであるProgrammable Gradient Information (PGI)とGeneralized Efficient Layer Aggregation Network (GELAN)により、優れた精度とパラメータ効率を実現できます。Ultralyticsフレームワークに統合されたYOLOv9は、この最先端のパフォーマンスと比類のないユーザーエクスペリエンスを兼ね備えています。
アーキテクチャと主な機能
YOLOv9の強みは、その斬新なアーキテクチャコンポーネントにあります。
- Programmable Gradient Information (PGI): このメカニズムは、補助的な可逆ブランチを通じて信頼性の高い勾配を生成することにより、情報ボトルネックの問題を軽減するのに役立ち、より深い層が正確な更新のために完全な入力情報を受け取ることを保証します。
- Generalized Efficient Layer Aggregation Network (GELAN): CSPNet と ELAN の原則に基づいて構築された高度なネットワークアーキテクチャです。GELAN は、最適なパラメータ利用率と計算効率のために設計されており、強力かつ高速です。
長所
- 最先端の精度: YOLOv9はCOCOデータセットにおいて新たな精度基準を確立し、類似またはより低い計算コストで多くの以前のモデルを上回ります。
- 優れた効率性: パフォーマンスの表に示すように、YOLOv9モデルは、競合製品と比較して、より少ないパラメータとFLOPでより高い精度を達成することが多く、エッジデバイスから強力なサーバーまで、さまざまなハードウェアへの展開に最適です。
- 優れた維持管理体制のエコシステム: Ultralyticsエコシステムに統合されたYOLOv9は、合理化されたPython APIとCLIによる使いやすさ、広範なドキュメント、活発なコミュニティサポートの恩恵を受けています。
- 学習効率: Ultralyticsの実装により、すぐに利用できる事前学習済みのウェイト、より低いメモリ要件、およびノーコードトレーニングとMLOpsのためのUltralytics HUBのようなツールとのシームレスな統合により、効率的な学習プロセスが保証されます。
- 多様性: 元の論文は検出に焦点を当てていますが、GELANアーキテクチャは非常に適応性があります。Ultralyticsのエコシステムは、その機能を他のビジョンタスクに拡張し、YOLOv8のようなモデルに見られるマルチタスクサポートと一致しています。
弱点
- Newer Model: より新しいアーキテクチャであるため、コミュニティが提供するチュートリアルやサードパーティの統合の数はまだ増えていますが、Ultralyticsライブラリへの組み込みにより、その採用が大幅に加速されています。
- リソース要件: 最大規模のYOLOv9バリアント(YOLOv9-Eなど)は、学習にかなりの計算リソースを必要としますが、そのサイズに対して最高レベルの精度を提供します。
パフォーマンス分析:精度と速度
DAMO-YOLOとYOLOv9を比較すると、どちらのモデルファミリーもリアルタイム物体検出の限界を押し広げていることは明らかです。ただし、指標を詳しく見ると、YOLOv9の優れた効率が明らかになります。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
表から、いくつかの結論を導き出すことができます。
- 精度: YOLOv9モデルは、一貫してより高いmAPスコアを達成しています。たとえば、YOLOv9mはDAMO-YOLOlを51.4 mAP対50.8 mAPで上回っています。最大のモデルであるYOLOv9-Eは、55.6 mAPという目覚ましい数値を達成し、新たなベンチマークを確立しています。
- 効率性: YOLOv9は、優れたパラメータ効率と計算効率を示しています。YOLOv9mは、DAMO-YOLOlよりも優れた精度を、半分以下のパラメータ (20.0M vs. 42.1M) とより少ないFLOPs (76.3B vs. 97.3B) で実現しています。これにより、YOLOv9は高いパフォーマンスを達成するためのより効率的な選択肢となります。
- 推論速度: T4 GPUでは、推論速度は競争力があります。たとえば、DAMO-YOLOs(3.45ミリ秒)とYOLOv9s(3.54ミリ秒)は速度が非常に近いですが、YOLOv9sの方が高いmAP(46.8対46.0)を達成しています。
結論: どのモデルを選ぶべきか?
DAMO-YOLOとYOLOv9はどちらも優れた物体検出器であり、それぞれ独自の強みを持っています。DAMO-YOLOは、NASや効率的なRepGFPNネックなどの革新的な技術を備えた高速でスケーラブルなソリューションを提供し、高速GPU推論を必要とするアプリケーションに適した選択肢となっています。
しかし、ほとんどの開発者や研究者にとって、YOLOv9は、特にUltralyticsエコシステム内で使用する場合に推奨される選択肢です。最先端の精度と優れた効率を提供するだけでなく、使いやすさとサポートにおいても大きな利点を提供します。Ultralyticsフレームワークは複雑さを抽象化し、トレーニングから展開までの合理化されたワークフローを提供します。YOLOv9のPGIとGELANの組み合わせは、より高度で効率的なアーキテクチャを提供し、堅牢なUltralyticsエコシステムは、成功するために必要なツール、ドキュメント、およびコミュニティサポートを保証します。
その他のモデルを見る
DAMO-YOLOとYOLOv9が他の主要モデルとどのように比較されるかに関心がある場合は、Ultralyticsドキュメントにあるこれらの他の比較を必ずご確認ください。
- YOLOv8 vs. DAMO-YOLO
- YOLOv10 vs. DAMO-YOLO
- Ultralytics YOLO11 vs. DAMO-YOLO
- RT-DETR vs. DAMO-YOLO
- YOLOv9 vs. YOLOv8
- YOLOv9 vs. EfficientDet