YOLOv9 vs. DAMO-YOLO:技術比較
適切な物体検出モデルの選択は、精度、推論速度、計算効率の必要性のバランスを取る重要な決定です。このページでは、アーキテクチャの革新で知られるYOLOv9と、その速度で認められているDAMO-YOLOという、2つの強力なモデルの詳細な技術的比較を提供します。アーキテクチャ、パフォーマンス指標、理想的なユースケースを検証し、コンピュータビジョンプロジェクトに最適なモデルを選択できるよう支援します。
YOLOv9:プログラム可能な勾配情報による高度な学習
YOLOv9は、深層ニューラルネットワークにおける情報損失という根本的な課題に対処し、物体検出において大きな飛躍を遂げました。Ultralyticsのエコシステムに統合されたことで、強力であるだけでなく、非常にアクセスしやすくなっています。
著者: Chien-Yao Wang and Hong-Yuan Mark Liao
所属: Institute of Information Science, Academia Sinica, Taiwan
日付: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
ドキュメント: https://docs.ultralytics.com/models/yolov9/
アーキテクチャと主な機能
YOLOv9では、Programmable Gradient Information (PGI)とGeneralized Efficient Layer Aggregation Network (GELAN)という2つの画期的な概念が導入されています。PGIは、損失関数に対する完全な入力情報を保持するように設計されており、深いネットワークの性能を低下させることの多い情報ボトルネック問題を軽減します。GELANは、パラメータの使用率と計算コストを最適化する、斬新で非常に効率的なネットワークアーキテクチャです。
Ultralyticsフレームワーク内で実装すると、YOLOv9の高度なアーキテクチャは、開発者向けに設計された一連の機能と組み合わされます。
- 使いやすさ: シンプルなPython APIとCLIによる合理化されたユーザーエクスペリエンスは、充実したドキュメントによって支えられています。
- 適切に管理されたエコシステム: アクティブな開発、強力なコミュニティサポート、頻繁なアップデート、およびノーコードトレーニングとデプロイメントのためのUltralytics HUBのようなツールとの統合から恩恵を受けられます。
- 学習効率: 事前学習済みのウェイトがすぐに利用できる効率的な学習プロセスを提供し、通常、競合する多くのモデルよりも少ないメモリしか必要としません。
- 多様性: 元の論文は物体検出に焦点を当てていますが、このリポジトリはインスタンスセグメンテーションとパノプティックセグメンテーションの機能を示唆しており、Ultralyticsモデルのマルチタスクの性質と一致しています。
長所
- 最先端の精度: 主要なmAPスコアをCOCOデータセットで達成し、多くの場合、類似のスケールを持つ他のモデルを上回ります。
- 優れたパラメータ効率: GELANアーキテクチャにより、YOLOv9は多くの競合製品と比較して、パラメータとFLOPsが大幅に少なく、高い精度を実現できます。
- 情報保持: PGIは、情報損失の問題に効果的に取り組み、より深く、より複雑なモデルのより正確なトレーニングを可能にします。
- 堅牢かつサポート: Ultralyticsエコシステムへの統合により、信頼性、継続的な改善、および豊富なリソースへのアクセスが保証されます。
弱点
- 新しいモデル: 最近のリリースであるため、コミュニティが提供するデプロイメントの事例数はまだ増加している可能性がありますが、Ultralyticsフレームワークによってその採用が急速に加速されています。
- 大規模モデルのリソースニーズ: 最大のバリアントであるYOLOv9-Eは、非常に高精度ですが、学習にはかなりの計算リソースが必要です。
DAMO-YOLO:ニューラルアーキテクチャ探索によるスピードと精度
DAMO-YOLOは、Alibaba Groupによって開発された高速かつ高精度な物体検出モデルです。特にGPUハードウェア上で、速度とパフォーマンスの優れたバランスを実現するために、いくつかの最新技術を活用しています。
著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
組織: Alibaba Group
日付: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO
アーキテクチャと主な機能
DAMO-YOLOのアーキテクチャは、高度な技術の組み合わせの結果として生まれました。
- Neural Architecture Search (NAS): NASを採用して、効率的なバックボーンネットワーク(TinyNAS)を生成します。
- 効率的なネック設計: 特徴融合に効率的なRepGFPN(Generalized Feature Pyramid Network)を使用します。
- ZeroHead: 簡素化された、計算負荷の軽い検出ヘッド。
- AlignedOTA: より効果的なトレーニングのための、改善されたラベル割り当て戦略。
- Distillation: 知識蒸留を使用して、より小さなモデルの性能を向上させます。
長所
- 高速な推論速度: DAMO-YOLOはGPU上での高速推論に最適化されており、リアルタイム推論シナリオの有力な候補となります。
- 強力なパフォーマンス: 特に小型バリアントにおいて、競争力のある速度と精度のトレードオフを実現します。
- 革新的な技術: NASや高度なラベル割り当てのような最新の手法を取り入れ、パフォーマンスの限界を押し広げています。
- Anchor-Free: anchor-free detectorとして、アンカーボックスを調整する必要性を排除することで、検出パイプラインを簡素化します。
弱点
- タスクの特異性: 主に物体検出用に設計されており、Ultralyticsモデルに見られるセグメンテーション、姿勢推定、分類のような他のタスクに対する組み込みの汎用性がありません。
- エコシステムとサポート: 研究主導型のプロジェクトであるため、Ultralyticsモデルを特徴付ける包括的なエコシステム、広範なドキュメント、および活発なコミュニティサポートがありません。これにより、統合とトラブルシューティングがより困難になる可能性があります。
- より高いパラメータ数: YOLOv9と比較して、DAMO-YOLOモデルは、同等またはそれ以下の精度レベルを達成するために、より多くのパラメータとFLOPを持っていることがよくあります。
性能分析:YOLOv9 vs. DAMO-YOLO
性能を比較すると、YOLOv9は精度とパラメータ効率の両方において明らかな優位性を示しています。最大のモデルであるYOLOv9-Eは、COCOで55.6%のmAPという新たな最先端のベンチマークを打ち立てました。すべてのモデルサイズにおいて、YOLOv9は一貫してより少ないパラメータを使用し、多くの場合、DAMO-YOLOの対応モデルよりも少ないFLOPsで、より高い精度を達成しています。
DAMO-YOLOモデルはNVIDIA T4 GPU上で非常に高速な推論速度を示しますが、YOLOv9は、特にその優れた精度と効率を考慮すると、依然として非常に競争力があります。たとえば、YOLOv9-CはDAMO-YOLO-Lよりもわずかに高速でありながら、大幅に正確(53.0対50.8 mAP)であり、使用するパラメータもはるかに少なくなっています(25.3M対42.1M)。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
理想的なユースケース
YOLOv9
YOLOv9は、精度と効率が最も重要なアプリケーションに最適です。より少ないパラメータで最先端の結果を提供できるため、以下に最適です。
- 高精度システム: 自動運転、医療画像解析、産業品質管理などのアプリケーション。
- リソース制約のあるデプロイメント: より小型のYOLOv9バリアントは、計算リソースが限られているものの、高いパフォーマンスが依然として必要なエッジAIデバイスに最適です。
- マルチタスクソリューション: セグメンテーションやその他のビジョンタスクを含むように拡張する可能性のあるプロジェクトは、Ultralytics エコシステムによって提供される汎用性の高い基盤からメリットを得られます。
- 研究開発: その革新的なアーキテクチャは、深層学習における新たなフロンティアを研究する研究者にとって、強力なベースラインとなります。
DAMO-YOLO
DAMO-YOLOは、GPUスループットの最大化が主な目標であり、アプリケーションが物体検出に厳密に焦点を当てているシナリオで優れています。
- 高スループットビデオ分析: 大量のビデオストリームを同時に処理するクラウドベースのサービス。
- リアルタイムGPUアプリケーション: GPUでの生の推論速度が最も重要な指標であり、わずかな精度のトレードオフが許容されるシステム。
結論: YOLOv9が推奨される理由
DAMO-YOLOは印象的なGPU速度を備えた強力な物体検出器ですが、Ultralytics YOLOv9は、大多数の開発者および研究者にとって、より優れており、より実用的な選択肢として登場しました。
YOLOv9は、より高い精度を達成するだけでなく、より優れたパラメータ効率でそれを実現します。これは、より小さく、計算コストが安く、展開が容易なモデルに変換されます。ただし、真の差別化要因は、Ultralyticsエコシステムです。YOLOv9を選択することで、データアノテーションとトレーニングから展開と監視まで、MLOpsライフサイクルのすべてのステップを簡素化する、十分にメンテナンスされた完全に統合されたプラットフォームにアクセスできます。トップレベルのパフォーマンス、使いやすさ、マルチタスクの汎用性、および堅牢なサポートの組み合わせにより、YOLOv9は、高度なコンピュータビジョンアプリケーションを構築するための最も効果的で信頼性の高いソリューションになります。
その他のモデルを見る
DAMO-YOLOと他の最先端モデルとの比較にご興味があれば、ドキュメントにある以下の比較をご覧ください。
- YOLOv8 vs. DAMO-YOLO
- YOLO11 vs. DAMO-YOLO
- RT-DETR vs. DAMO-YOLO
- YOLOX 対 DAMO-YOLO
- YOLOv10 vs. DAMO-YOLO