DAMO-YOLO 対YOLOv9:技術的な比較
急速に進歩するコンピュータビジョンの世界では、最適な物体検出モデルを選択することは、システムの待ち時間から検出精度まで、すべてに影響を与える極めて重要な決定事項です。この包括的なガイドでは、アリババ・グループの高速検出器YOLO-YOLOとYOLOv9との技術比較を行います。開発者や研究者が十分な情報に基づいた選択を行えるよう、両社のアーキテクチャの革新性、性能指標、理想的な使用事例を分析します。
両モデルとも前モデルより大幅に改良されている、 YOLOv9は、特にUltralytics エコシステム内で活用された場合、最先端の精度、開発者に優しいツール、多様な展開オプションの魅力的な融合を提供します。
DAMO-YOLO:ニューラル・アーキテクチャ検索によるスピード指向設計
DAMO-YOLO 、アリババが開発したオブジェクト検出フレームワークで、「一回ですべてを検出する」手法で設計されている。低レイテンシーと高スループットを優先しているため、特定のハードウェアで厳密に定義された速度制約を必要とする産業用アプリケーションの強力な候補となる。
著者Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organization:Alibaba Group
Date:2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444
GitHubYOLO
建築イノベーション
DAMOYOLO YOLOは、自動化された設計工程と効率的なコンポーネントによって差別化を図っている:
- ニューラル・アーキテクチャ・サーチ(NAS):DAMO-YOLO 、手作業でバックボーンを設計するのではなく、ニューラル・アーキテクチャ・サーチ(NAS)を利用して、さまざまな計算予算に合わせた効率的な構造(TinyNAS)を発見する。
- RepGFPNネック一般化特徴ピラミッドネットワーク(Generalized Feature Pyramid Network: GFPN)の効率的なバリエーション(RepGFPN)を紹介する。このコンポーネントは特徴融合を最適化し、再パラメータ化をサポートすることで、より高速な推論を可能にします。
- ZeroHead:このモデルは軽量な「ZeroHead」検出ヘッドを採用しており、複雑な検出ヘッドにありがちな計算オーバーヘッドを削減している。
- AlignedOTA:学習の安定性と精度を向上させるために、分類タスクと回帰タスクの間のずれを解決するラベル割り当て戦略であるAlignedOTAを使用する。
強みと限界
DAMO-YOLO 最大の強みは、その推論速度にある。このアーキテクチャは高いGPU スループットのために大幅に最適化されており、処理量が重要なビデオ解析パイプラインに適している。さらに、蒸留を使用することで、より小さなモデルの性能を高めている。
しかし、YOLO -YOLOはエコシステムの成熟度に関する課題に直面している。Ultralytics モデルで利用可能な堅牢なツールに比べ、ユーザーは、デプロイ、フォーマット変換、コミュニティサポートのためのリソースが少ないと感じるかもしれない。DAMO-YOLOのタスクの汎用性もまた、一般的にオブジェクト検出に限定されているのに対し、最新のフレームワークはセグメンテーションとポーズ推定をネイティブにサポートしていることが多い。
YOLOv9:プログラム可能なグラデーションで効率を最大化
YOLOv9 、ディープニューラルネットワークにおける情報損失という根本的な問題に取り組むことで、リアルタイムの物体検出におけるパラダイムシフトを象徴しています。YOLOv9 、ネットワークの深さ全体を通して重要なデータを確実に保持することで、優れた精度と顕著なパラメータ効率を実現しています。
著者Chien-Yao Wang, Hong-Yuan Mark Liao
Organization:Institute of Information Science, Academia Sinica, Taiwan
Date:2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Documentationultralytics
コアアーキテクチャPGIとGELAN
YOLOv9 、他とは一線を画す2つの画期的なテクノロジーを導入している:
- プログラム可能な勾配情報(PGI):ディープネットワークは、入力データが層を通過する際に失われる情報ボトルネックに悩まされることが多い。PGIは、信頼性の高い勾配を生成する補助的な監視ブランチを提供し、深層が正確な重みの更新のための完全な情報を受け取ることを保証します。
- Generalized Efficient Layer Aggregation Network(GELAN):CSPNetとELANの長所を組み合わせた斬新なアーキテクチャ。GELANはパラメータ利用率を最大化するように設計されており、軽量かつ非常に強力なモデルを提供します。
PGIが重要な理由
従来の深層学習モデルでは、出力層の損失関数は、浅い層の更新を効果的に導くのに十分な情報がないことが多い。PGIはブリッジの役割を果たし、入力情報を保持し、ネットワーク全体がロバストな特徴を学習することを保証し、より良い収束とより高い精度につながる。
Ultralytics 優位性
Ultralytics エコシステム内でYOLOv9 使用する場合、開発者はスタンドアロン実装よりも大きな利点を得ることができます:
- 使いやすさ: Ultralytics Python APIとCLI 、複雑なトレーニングパイプラインをシンプルなコマンドに抽象化します。
- トレーニングの効率: Ultralytics 手法は、最適なリソース使用を保証します。YOLOv9 通常、トランスフォーマーベースのディテクターと比較して、トレーニング中に必要なCUDA メモリが少ないため、より幅広いハードウェアで利用することができます。
- 汎用性:中核となるYOLOv9 論文は検出に焦点を当てていますが、Ultralytics フレームワークは、これらのアーキテクチャを他のタスクに拡張することを容易にし、次のようなフォーマットへのシームレスなエクスポートを保証します。 ONNX, TensorRTや OpenVINO.
パフォーマンス分析:精度と効率の比較
以下の比較は、YOLO -YOLOとYOLOv9トレードオフを強調しています。DAMOYOLO YOLOが特定のハードウェア上で競争力のある速度を提供するのに対し、YOLOv9 少ないパラメータで一貫して高い平均精度(mAP)を実現し、優れたアーキテクチャ効率を示しています。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
重要なポイント
- パラメータ効率:YOLOv9sは、DAMO-YOLOs(46.0)よりも高いmAP (46.8)を達成しながら、パラメータの使用量は半分以下(7.1M対16.3M)。これにより、YOLOv9 、エッジAIデバイスにとって、よりストレージに優しく、無線での更新が容易になります。
- トップエンドの精度:最大のYOLOv9 バリエーション(cとe)は、YOLO-YOLOの限界をはるかに超え、55.6mAP達する。
- スピード: YOLO -YOLOは、ミディアムモデルの生のTensorRT レイテンシで若干の優位性を示しているが、YOLOv9tは非常に高速(2.3ミリ秒)であり、リアルタイムのモバイルアプリケーションに最適である。
トレーニング方法論とユーザビリティ
トレーニングの経験は2つのモデルで大きく異なる。DAMO-YOLONASに依存していることは、アーキテクチャを導き出すための複雑な探索段階、あるいは事前に探索されたバックボーンの使用を意味する。バックボーン構造のカスタマイズが必要な場合、"once-for-all "アプローチは計算コストが高くなる可能性がある。
対照的に、UltralyticsサポートするYOLOv9、合理化されたトレーニングモードを提供する。ユーザーは、Open Images V7のようなカスタムデータセットや特殊なコレクションで、最小限の設定でモデルを微調整することができます。Ultralytics HUBとの統合により、クラウドベースのトレーニング、視覚化、ワンクリックでのデプロイが可能になり、NASやハイパーパラメータのチューニングに関する深い専門知識を必要とすることなく、高度なAIへのアクセスを民主化することができます。
コード例トレーニングYOLOv9
YOLOv9 実装は、Ultralytics Python パッケージを使えば簡単だ。
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
理想的なユースケース
DAMO-YOLO選ぶとき
- 大規模ビデオ処理:特定のサーバーGPUで何千ものビデオストリームを処理し、1ミリ秒のレイテンシーがインフラの大幅なコスト削減につながる場合、DAMO-YOLO高スループットへの最適化は有益かもしれない。
- 固定されたハードウェア制約:ハードウェアが既知で固定されているシナリオでは、NAS由来のアーキテクチャを選択することで、利用可能な計算バジェットを完全に満たすことができます。
YOLOv9選ぶとき
- 汎用コンピュータビジョン: YOLOv9 、ロボット工学、セキュリティ、リテール分析に携わる開発者の大半にとって、精度と使いやすさのバランスが最も優れています。
- エッジ展開:優れたパラメータ効率(例えばYOLOv9s)により、Raspberry PiやNVIDIA Jetsonのような制約のあるデバイスによりフィットし、他のアプリケーションにより多くのスペースを残すことができる。
- 研究開発: PGIアーキテクチャは、ディープラーニングの効率化に関するさらなる研究のための魅力的な基盤を提供する。
- 成熟したエコシステムが必要信頼性の高いトラッキング、CoreML TFLite簡単なエクスポート、活発なコミュニティサポートが必要なプロジェクトであれば、YOLOv9 取り巻くUltralytics エコシステムは比類のないものです。
結論
DAMO-YOLO YOLOv9 ともに、物体検出の分野における急速な技術革新を示している。DAMO-YOLO 、最大限の速度性能を引き出すためのニューラル・アーキテクチャ・サーチの価値を証明している。しかし YOLOv9は、ほとんどのユーザーにとって、より汎用的で強力なソリューションとして際立っている。
PGIによる深層監督情報のボトルネックの解決とGELANによるレイヤーの最適化により、YOLOv9 最先端の精度と卓越した効率を提供します。Ultralytics エコシステムと組み合わせることで、堅牢でメンテナンスが行き届き、ユーザーフレンドリーなプラットフォームを提供し、コンセプトから展開までの道のりを加速します。最先端のビジョンアプリケーションを自信を持って構築しようとする開発者にとって、Ultralytics YOLO モデルは優れた選択肢であり続けています。
その他のモデルを見る
Ultralytics ファミリーの他の最先端オプションの調査や、さらなる比較にご興味がある場合は、以下のリソースをご検討ください:
- Ultralytics YOLO11- 多彩なビジョンタスクに対応するSOTA最新モデル。
- YOLOv8 vs. DAMO-YOLO
- RT-DETR vs. DAMO-YOLO
- YOLOv10 vsYOLO
- YOLOX 対 DAMO-YOLO