YOLOv9 vs DAMO-YOLO:包括的な技術比較
急速に進化するコンピュータビジョンにおいて、最適な物体検出アーキテクチャを選択することは、プロジェクトの成功にとって極めて重要である。この分析では、2つの強力なモデルの詳細な技術比較を行います: YOLOv9と、高速推論用に設計されたアリババ・グループのモデルであるYOLO-YOLOである。開発者や研究者が十分な情報を得た上で決断できるよう、両者独自のアーキテクチャ、性能指標、理想的な展開シナリオを検証する。
YOLOv9:プログラム可能な勾配情報による優れた精度
YOLOv9 、ディープ・ニューラル・ネットワーク特有の情報ボトルネック問題の解決に焦点を当て、You Only Look OnceYOLO)シリーズを大きく進化させました。重要な入力データをネットワーク層全体で確実に保持することで、YOLOv9 最先端の精度を達成している。
著者Chien-Yao Wang and Hong-Yuan Mark Liao
Organization:Institute of Information Science, Academia Sinica, Taiwan
Date:2024-02-21
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9
Docs:Ultralytics YOLOv9 Documentation
アーキテクチャーとコア・イノベーション
YOLOv9 アーキテクチャは、ディープラーニングの効率を最適化するために設計された2つの画期的なコンセプトに基づいて構築されている:
- プログラム可能な勾配情報(PGI):PGIは補助的な監督フレームワークであり、データが深い層を伝播する際の情報損失の問題に対処する。損失関数が信頼できる勾配を受け取ることを保証し、推論コストを追加することなく、モデルがより効果的な特徴を学習することを可能にする。
- Generalized Efficient Layer Aggregation Network(GELAN):CSPNetとELANの長所を組み合わせた新しいアーキテクチャ。GELANは、パラメータ利用率と計算効率を最大化するように設計されており、さまざまな計算ブロックをサポートする軽量かつ強力なバックボーンを提供します。
強みとエコシステム
- トップクラスの精度: YOLOv9 卓越した精度を達成 mAPスコアを達成し、リアルタイム物体検出のベンチマークとなりました。
- パラメータ効率:GELANのおかげで、このモデルは多くの先行モデルと比較して少ないパラメータで高い性能を発揮する。
- Ultralytics 統合: Ultralytics エコシステムの一部であることは、YOLOv9 統一されたPython API、シームレスなモデルエクスポートオプションONNX、TensorRT、CoreML)、そして堅牢なドキュメントを利用できることを意味します。
- トレーニングの安定性:PGIフレームワークは、モデル学習時の収束速度と安定性を大幅に改善します。
弱点
- リソース強度:その精度クラスでは効率的ですが、(YOLOv9ような)最大のバリエーションは、かなりのGPUを必要とします。 GPUメモリを必要とします。
- タスクフォーカス:中核となる研究は、主に物体検出を対象としています。 YOLO11のような他のUltralyticsモデルは、ポーズ推定やOBBなど、より幅広いタスクをネイティブにサポートしています。
DAMO-YOLO:スピードを追求するニューラル・アーキテクチャー
DAMO-YOLO 、自動化されたアーキテクチャ設計のパワーを証明するものである。アリババが開発したDAMO-YOLOは、ニューラル・アーキテクチャ・サーチ(NAS)を活用し、特に産業用アプリケーションをターゲットに、推論レイテンシーと検出性能の最適なバランスを見つける。
著者Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organization:Alibaba Group
Date:2022-11-23
Arxiv:2211.15444
GitHub:YOLO
アーキテクチャと主な機能
DAMO-YOLO 、スループットを最大化することを目的としたいくつかの技術的進歩によって差別化を図っている:
- MAE-NASバックボーン:MAE-NASは、Method-Aware Efficient Neural Architecture Searchから派生したバックボーン構造を利用し、特定のハードウェア制約に対してネットワーク・トポロジーを最適化する。
- 効率的なRepGFPN:このモデルは、再パラメータ化された一般化特徴ピラミッドネットワークをネックに採用し、低遅延を維持しながら特徴融合を強化している。
- ZeroHead:一般的に最終予測層に関連する計算オーバーヘッドを削減する軽量な検出ヘッド設計。
- AlignedOTA:学習中の分類タスクと回帰タスクの間のずれを解決する改良されたラベル割り当て戦略。
長所
- 低レイテンシー:DAMO-YOLO スピードに特化して設計されているため、エッジデバイスやGPUでのリアルタイム推論に非常に効果的です。
- 自動設計:NASを使用することで、手作業によるヒューリスティックだけに頼るのではなく、効率性を追求した数学的なチューニングがアーキテクチャに施される。
- アンカー・フリー: アンカー・フリーのアプローチを採用し、アンカー・ボックスに関連するハイパーパラメータのチューニング・プロセスを簡素化。
弱点
- 限られたエコシステム: YOLO -YOLOは、Ultralytics モデルで利用可能な広範なツールに比べ、コミュニティが小さく、MLOps用の既製の統合ツールも少ない。
- 汎用性:主に検出に特化しており、より包括的なフレームワークに見られるネイティブのマルチタスク機能(セグメンテーション、分類)がない。
性能分析:速度 vs. 精度
性能指標を比較すると、2つのアーキテクチャのトレードオフが明らかになる。YOLOv9 、優れた精度を達成するために情報の保存を優先し、同様のモデルサイズにおいて、mAP スコアでDAMO-YOLO 上回ることが多い。逆に、YOLO -YOLOは生のスループットを重視している。
しかし、YOLOv9GELANアーキテクチャの効率性により、より優れた検出品質を提供しながら、高い速度競争力を維持することができる。例えば、YOLOv9、DAMO-YOLO-L(50.8%)と比較して、より少ないパラメータ(25.3M対42.1M)を使用しながら、著しく高いmAP (53.0%)を達成しています。これは、YOLOv9モデルの複雑さにおいて、「より少ないコストでより多くのもの」を提供できることを強調している。
パフォーマンス解釈
モデルを評価する際には、パラメータ数と並んでFLOPs(浮動小数点演算)を考慮する。一般的にFLOPs数が少ないほど、計算が軽く、モバイルやエッジAIハードウェア上で高速に動作する可能性のあるモデルであることを示します。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
理想的なユースケース
このアーキテクチャーの違いによって、各モデルの理想的な展開シナリオが決まる。
YOLOv9 アプリケーション
YOLOv9 、精度が譲れない用途に最適です。
- 医療画像 医療画像解析における微妙な異常の検出。
- 自律航法: 物体検出の高い信頼性を必要とする自動運転車のための高度な知覚システム。
- 詳細な監視小さな物体を識別する必要があるセキュリティシステムや、散乱物の多い複雑な環境で動作するセキュリティシステム。
DAMO-YOLO アプリケーション
YOLO -YOLOは、厳しいレイテンシ・バジェットに制約された環境で優れている。
- 高速製造: コンピュータビジョンシステムが高速ベルトコンベヤーに追従しなければならない産業ライン。
- ビデオ分析:スループット・コストが最大の関心事である大量のビデオ・ストリームの処理。
Ultralytics 優位性
どちらのモデルも技術的には素晴らしいものだが、Ultralytics エコシステムの中にあるモデル、例えば YOLOv9 最先端の YOLO11-のようなUltralyticsエコシステム内のモデルを選択することは、開発者や企業にとって明確な利点があります。
シームレスなワークフローとユーザビリティ
Ultralytics 使いやすさを優先しています。モデルは、複雑な定型コードを抽象化した統一インターフェースからアクセスできます。カスタムデータでトレーニングする場合でも、推論を実行する場合でも、プロセスは一貫しており、直感的です。
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
整備されたエコシステム
Ultralytics モデルは、活発なコミュニティと頻繁なアップデートによってサポートされています。以下のような機能があります。 Ultralytics HUBのような機能は、ウェブベースのデータセット管理とトレーニングを可能にし、TensorBoardや MLflowのようなツールとの広範な統合はMLOpsライフサイクルを合理化する。対照的に、YOLO -YOLOのような研究モデルでは、このような継続的なサポートとツールの統合が欠けていることが多い。
多用途性と効率性
Ultralytics モデルは汎用性があるように設計されている。DAMO-YOLO 検出に特化しているのに対し、YOLO11 ようなUltralytics モデルは、インスタンスのセグメンテーション、ポーズ推定、オリエンテッドバウンディングボックス(OBB)検出にまで機能を拡張している。さらに、メモリ効率に最適化されているため、他のアーキテクチャと比較して、トレーニング時に必要なCUDA メモリが少なく、ハードウェアコストを節約できます。
結論
YOLOv9 DAMO-YOLO比較では、両モデルともAIの急速な進歩を示している。YOLO -YOLOは、純粋なスピード最適化のための魅力的なアーキテクチャを提供している。しかし YOLOv9は、ほとんどの実用的な用途において、よりロバストなソリューションとして際立っている。YOLOv9は、パラメータごとに優れた精度を提供し、情報の損失を防ぐために高度なアーキテクチャを利用し、活発なUltralytics エコシステム内に存在します。パフォーマンス、使いやすさ、長期的なサポートのベストバランスを求める開発者にとって、Ultralytics モデルは引き続きお勧めの選択肢です。
その他のモデルを見る
他の最先端モデルとの比較はドキュメントをご覧ください: