DAMO-YOLO 対 YOLOv9: 最新の物体検出アーキテクチャに関する包括的な技術比較
リアルタイム物体検出の分野は、非常に速いペースで進化し続けています。エンジニアリングチームや研究者が精度、推論速度、計算効率の完璧なバランスを追求する中で、研究コミュニティから DAMO-YOLO と YOLOv9 という2つの注目すべきアーキテクチャが登場しました。どちらのモデルも、コンピュータビジョンで可能なことの限界を押し広げることを目的とした重要なアーキテクチャの革新を導入しています。
この詳細な技術ガイドでは、これら2つのモデルを掘り下げて分析し、それぞれのユニークなアーキテクチャアプローチ、トレーニング方法論、および実運用環境へのデプロイ能力を比較します。また、現代のAI開発において広範なソフトウェアエコシステムがどのように重要な役割を果たすかを探り、Ultralytics Platform のような統合プラットフォームや、YOLO26 のような新世代モデルの利点を強調します。
エグゼクティブサマリー: 適切なアーキテクチャの選択
どちらのモデルも深層学習研究における重要なマイルストーンですが、それぞれ若干異なるデプロイ哲学に対応しています。
DAMO-YOLO は、Neural Architecture Search (NAS) を活用して特定のパフォーマンスプロファイルを最大限に引き出す環境で優れており、カスタマイズされたエッジデプロイメントの興味深い研究対象となっています。対照的に、YOLOv9 は深層学習における情報ボトルネックの解決に注力しており、非常に高いパラメータ効率を実現しています。
しかし、実運用環境へのデプロイにおいて、エンジニアリングチームは一貫して統合された Ultralytics エコシステム の活用を推奨しています。新しいプロジェクトでは、最新の YOLO26 モデルが、最先端の精度と、複雑な後処理を不要にするネイティブなエンドツーエンド設計という両方の利点を提供します。
DAMO-YOLO と YOLOv9 は強力な学術モデルですが、それらを実運用環境にデプロイするには多くの場合、大幅なカスタムエンジニアリングが必要です。Ultralytics YOLO26 を使用すれば、効率的で保守性の高い API を通じて最先端のパフォーマンスを利用できます。
技術仕様と作成者
これらのモデルの起源と開発の焦点について理解することは、それぞれの強みを把握する上で不可欠な文脈となります。
DAMO-YOLO
Alibaba Group の研究者によって開発された DAMO-YOLO は、自動化されたアーキテクチャ生成と効率的な特徴融合に重点を置いています。
- 著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- 組織: Alibaba Group
- リリース日: 2022年11月23日
- Arxiv 論文: DAMO-YOLO 研究論文
- 公式 GitHub: tinyvision/DAMO-YOLO リポジトリ
- ドキュメント: DAMO-YOLO README
YOLOv9
ディープ畳み込みネットワークにおける情報損失の解決策として導入された YOLOv9 は、トレーニング中の勾配保持における理論的限界を押し広げます。
- 著者: Chien-Yao Wang および Hong-Yuan Mark Liao
- 組織: 台湾 中央研究院 資訊科學研究所
- リリース日: 2024年2月21日
- Arxiv 論文: YOLOv9 研究論文
- 公式 GitHub: WongKinYiu/yolov9 リポジトリ
- ドキュメント: YOLOv9 Ultralytics ドキュメント
アーキテクチャの革新
DAMO-YOLO: Neural Architecture Search (NAS) による駆動
DAMO-YOLO は、高度にカスタマイズされた機械生成コンポーネントによって差別化されています。そのバックボーンは Neural Architecture Search (NAS) を使用して生成されており、多様なハードウェア上での低レイテンシな推論を具体的にターゲットとしています。
このアーキテクチャは、特徴融合のための効率的な RepGFPN (Reparameterized Generalized Feature Pyramid Network) を特徴としており、計算オーバーヘッドを過度に増加させることなくマルチスケール物体検出を強化します。さらに、ZeroHead 設計を採用して検出ヘッドを簡素化し、AlignedOTA を使用してラベル割り当てを行い、トレーニング中に洗練された蒸留強化プロセスを組み合わせています。これらの手法は高速な推論をもたらしますが、多段階の蒸留プロセスには多くの場合、大量の VRAM と長いトレーニング時間が必要です。
YOLOv9:情報ボトルネックの解決
YOLOv9 は、深層ネットワークにおける根本的な問題、すなわち連続する層を通過する際の入力データ情報の段階的な損失に取り組んでいます。
これに対抗するため、著者らは Programmable Gradient Information (PGI) を導入しました。これは、深層層にとって重要な詳細情報を保持し、重み更新のために信頼性の高い勾配を生成するように設計された補助的な教師あり学習フレームワークです。PGI に付随するのが GELAN (Generalized Efficient Layer Aggregation Network) アーキテクチャです。GELAN は CSPNet と ELAN の強みを組み合わせることでパラメータ効率を最適化し、情報フローを最大化しながら FLOPs を厳密に最小化します。
パフォーマンス分析と指標
パフォーマンスを評価すると、両モデルとも COCO のような標準的なベンチマークで強力な mAP を示しています。YOLOv9 は PGI アーキテクチャを活用して困難なデータセットでも高い精度を維持し、同等のモデルサイズ全体でより高い絶対的な精度を達成しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
上記のように、YOLOv9-E は最高の精度を達成し、より小さな DAMO-YOLO および YOLOv9 のバリエーションは TensorRT 最適化 を通じて非常に競争力のある推論速度を維持しています。
学習手法とエコシステム
生のアーキテクチャも重要ですが、モデルのエコシステムによって決定されるユーザビリティとトレーニング効率は、実世界でのアプリケーションにおいて最も重要です。
DAMO-YOLO が知識蒸留に依存しているため、多くの場合、ターゲットとなる「学生」モデルに知識を転送する前に、扱いにくい「教師」モデルをトレーニングする必要があります。この従来の研究アプローチは、メモリ要件とトレーニングサイクル時間を大幅に増加させます。同様に、オリジナルの YOLOv9 リポジトリでは、アジャイルな開発を遅らせる可能性のある複雑な設定ファイルを操作する必要があります。
対照的に、Ultralytics Platform にモデルを統合することで、開発者体験は完全に一変します。Ultralytics Python パッケージは定型コードを抽象化するため、チームはデータ拡張、ハイパーパラメータの調整、モデルのエクスポートを容易に行うことができます。
実際のアプリケーションとユースケース
異なるアーキテクチャは、リソース要件と精度プロファイルに基づいて、特定の業界で自然に優れた性能を発揮します。
- エッジ AI における DAMO-YOLO: NAS で最適化されたバックボーンにより、DAMO-YOLO は、製造品質管理 におけるカスタム ASIC デプロイメントのように、ハードウェア固有の再パラメータ化が厳密に不可欠な組み込みシステムで頻繁に検討されます。
- 精密分析における YOLOv9: 高いパラメータ効率と PGI による勾配保持機能を備えた YOLOv9 は、航空画像の分析 や、混雑した小売環境での微小な物体の追跡など、高密度な物体検出シナリオに最適です。
ユースケースと推奨事項
DAMO-YOLO と YOLOv9 のどちらを選択するかは、プロジェクト固有の要件、デプロイの制約、およびエコシステムの好みによって異なります。
DAMO-YOLOを選択すべきとき
DAMO-YOLOは以下のような場合に強力な選択肢となります。
- 高スループットビデオ分析: バッチ1のスループットが主要な指標となる、固定されたNVIDIA GPUインフラストラクチャ上で高FPSビデオストリームを処理する場合。
- 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェア上で厳しいGPUレイテンシ制約があるシナリオ。
- ニューラルアーキテクチャ探索の研究: 検出性能に対する自動アーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化バックボーンの影響を研究する場合。
YOLOv9を選択すべき場合
YOLOv9は以下の場合に推奨されます:
- 情報のボトルネック研究: プログラマブル勾配情報 (PGI) および Generalized Efficient Layer Aggregation Network (GELAN) アーキテクチャを研究する学術プロジェクト。
- 勾配フロー最適化の研究: 学習中の深層ネットワーク層における情報の損失を理解し、軽減することに焦点を当てた研究。
- 高精度検出のベンチマーク: アーキテクチャ比較の基準点として、YOLOv9の強力なCOCOベンチマークパフォーマンスが必要なシナリオ。
Ultralytics (YOLO26) を選択すべき場合
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:
- NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
- 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。
Ultralytics の利点: YOLO26 への進化
レガシーなアーキテクチャを比較しているユーザーにとって、現代の Ultralytics エコシステム、特に 最新の YOLO26 モデル への移行は、他に類を見ない利点を提供します。
YOLO26 は、その End-to-End NMS-Free 設計 を通じてデプロイメントの状況を根本的に変えます。Non-Maximum Suppression (NMS) の後処理を完全になくすことで、より高速で劇的に単純なデプロイメントアーキテクチャを実現します。さらに Distribution Focal Loss (DFL) を削除したことで、YOLO26 はエッジデバイスや低消費電力デバイスとの優れた互換性を提供します。
さらに、YOLO26 は、LLM トレーニングの革新から着想を得た Stochastic Gradient Descent と Muon 最適化のハイブリッドである、革新的な MuSGD Optimizer を組み込んでいます。これにより、トランスフォーマーベースの代替手法と比較してメモリ使用量を著しく低く抑えながら、非常に安定したトレーニングの収束が得られます。
直感的な Ultralytics API のおかげで、わずか数行の Python コードで、組み込みの実験追跡機能を備えた最先端の YOLO26 モデルをトレーニングできます。
from ultralytics import YOLO
# Load the latest NMS-free YOLO26 model
model = YOLO("yolo26n.pt")
# Train on your custom dataset efficiently
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to ONNX format
model.export(format="onnx")高度な インスタンスセグメンテーション、高精度な 姿勢推定、あるいは標準的なバウンディングボックス検出のいずれが必要であっても、Ultralytics フレームワークの汎用性により、チームは深層学習環境の設定に費やす時間を減らし、堅牢な AI ソリューションのデプロイにより多くの時間を割くことができます。ProgLoss + STAL のような小物体認識を強化する専門的なタスク改善により、YOLO26 は次世代のビジョンアプリケーションにおける最高の選択肢として位置付けられます。