DAMO-YOLO 対 YOLOv9: 最新の物体検出アーキテクチャの包括的な技術比較
リアルタイム物体検出の技術は驚異的なスピードで進化を続けている。エンジニアリングチームと研究者が精度・推論速度・計算効率の完璧なバランスを追求する中、研究コミュニティから二つの注目すべきアーキテクチャが誕生した:YOLOと YOLOv9です。両モデルとも、コンピュータビジョンにおける可能性の限界を押し広げることを目的とした、重要なアーキテクチャ上の革新を導入しています。
この詳細な技術ガイドでは、これら2つのモデルについて、独自のアーキテクチャアプローチ、トレーニング手法、実環境での展開能力を比較しながら、詳細な分析を行います。さらに、広範なソフトウェアエコシステムが現代のAI開発において重要な役割を果たす仕組みを探り、Ultralytics のような統合プラットフォームやYOLO26のような新世代モデルの利点を明らかにします。
エグゼクティブサマリー: 適切なアーキテクチャの選択
両モデルとも深層学習研究における重要なマイルストーンではあるが、それぞれが採用する展開哲学はわずかに異なる。
DAMO-YOLOは、大規模なニューラルアーキテクチャ探索 (NAS) を活用して特定のパフォーマンスプロファイルを最大限に引き出すことができる環境で優れた性能を発揮し、カスタマイズされたエッジデプロイメントにとって興味深い研究対象となっています。対照的に、YOLOv9は深層学習の情報ボトルネックの解決に重点を置き、非常に高いパラメータ効率を実現しています。
ただし、本番環境向けのデプロイメントにおいては、エンジニアリングチームは一貫して統合されたUltralytics 活用を推奨しています。新規プロジェクトでは、最新の YOLO26 モデルは両方の長所を兼ね備えています:最先端の精度と、複雑な後処理を不要にするネイティブなエンドツーエンド設計を組み合わせたものです。
コンピュータビジョンパイプラインの将来を見据えた設計
YOLO YOLOv9 強力な学術モデルYOLOv9 、本番環境での導入には大幅なカスタマイズが必要となることが多々あります。Ultralytics を利用すれば、効率的で保守性の高いAPIを通じて最先端の性能にアクセスできます。
技術仕様と著作権
これらのモデルの起源と開発の焦点を理解することは、それぞれの強みを理解する上で不可欠な文脈を提供する。
DAMO-YOLO
Alibaba Groupの研究者によって開発されたDAMO-YOLOは、自動アーキテクチャ生成と効率的な特徴融合に重点を置いています。
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織:Alibaba Group
- リリース日: 2022年11月23日
- Arxiv論文:DAMO-YOLO研究論文
- 公式GitHub:tinyvision/DAMO-YOLOリポジトリ
- ドキュメンテーション:DAMO-YOLO README
YOLOv9
深層畳み込みネットワークにおける情報損失の解決策として導入されたYOLOv9 、学習中の勾配保存の理論的限界をYOLOv9 。
- 著者: Chien-Yao Wang and Hong-Yuan Mark Liao
- 組織:台湾中央研究院情報科学研究所
- 発売日:2024年2月21日
- Arxiv論文:YOLOv9研究論文
- 公式GitHub:WongKinYiu/YOLOv9リポジトリ
- ドキュメンテーション:YOLOv9 Ultralytics ドキュメント
アーキテクチャの革新
DAMO-YOLO: ニューラルアーキテクチャ探索による推進
DAMO-YOLOは、高度にカスタマイズされた機械生成コンポーネントによって差別化されています。そのバックボーンは、様々なハードウェアでの低レイテンシ推論を特にターゲットとしたニューラルアーキテクチャ探索 (NAS) を使用して生成されます。
本アーキテクチャは、特徴融合のための効率的なRepGFPN(再パラメータ化汎用特徴ピラミッドネットワーク)を採用し、計算オーバーヘッドを過度に増加させることなくマルチスケール物体検出を強化する。さらに、検出ヘッドを簡素化するZeroHead設計を採用し、ラベル割り当てにはAlignedOTAを利用するとともに、学習中に洗練された蒸留強化プロセスを組み合わせる。これらの技術は高速推論を実現するが、多段階蒸留プロセスは多くの場合、大量のVRAMと長時間の学習を必要とする。
YOLOv9: 情報のボトルネックを解決する
YOLOv9 深層ネットワークにおける根本的な問題、すなわち入力データの情報が層を重ねるごとに徐々に失われていく現象YOLOv9 。
この問題に対処するため、著者らはプログラマブル勾配情報(PGI)を導入した。これは深層における重要な詳細情報を保持し、重み更新のための高信頼性勾配を生成する補助的教師付き学習フレームワークである。PGIと併せて提案されるのがGELAN(汎用効率的層集約ネットワーク)アーキテクチャである。GELANはCSPNetとELANの強みを組み合わせることでパラメータ効率を最適化し、情報フローを最大化しつつ浮動小数点演算(FLOPs)を厳密に最小化する。
パフォーマンス分析と指標
性能評価において、両モデルともCOCOなどの標準ベンチマークで高い平均精度(mAP)を示す。YOLOv9 同等のモデルサイズにおいて絶対的な精度YOLOv9 、PGIアーキテクチャを活用することで困難なデータセットにおいても高い忠実度を維持している。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
上記の通り、YOLOv9-Eは最高の精度を達成しており、より小型のDAMO-YOLOおよびYOLOv9バリアントは、TensorRT最適化により非常に競争力のある推論速度を維持しています。
トレーニング方法論とエコシステム
生のアークテクチャは重要ではあるが、モデルエコシステムによって規定される実用性とトレーニング効率こそが、実世界での応用において最も重要である。
DAMO-YOLOが知識蒸留に依存しているため、多くの場合、対象となる「学生」モデルに知識を転送する前に、扱いにくい「教師」モデルをトレーニングする必要があります。この従来の研究アプローチは、メモリ要件とトレーニングサイクル時間を大幅に増加させます。同様に、オリジナルのYOLOv9リポジトリでは、アジャイル開発を遅らせる可能性のある複雑な設定ファイルを操作する必要があります。
対照的に、モデルをUltralytics Platformに統合すると、開発者エクスペリエンスが完全に変わります。Ultralyticsのpythonパッケージは、ボイラープレートコードを抽象化し、チームがデータ拡張、ハイパーパラメータチューニング、モデルのエクスポートを容易に処理できるようにします。
実世界でのアプリケーションとユースケース
異なるアーキテクチャは、そのリソース要件と精度プロファイルに基づいて、特定の業界で自然に優れた性能を発揮します。
- エッジAIにおけるDAMO-YOLO: NAS最適化されたバックボーンにより、DAMO-YOLOは、基本的な製造品質管理におけるカスタムASIC展開のように、ハードウェア固有の再パラメータ化が厳密に必要とされる組み込みシステムで頻繁に研究されています。
- YOLOv9の精度分析における活用: 高いパラメータ効率とPGI駆動の勾配保持により、YOLOv9は、航空画像の分析や混雑した小売環境での微小な物体の追跡など、密な物体検出シナリオに優れています。
ユースケースと推奨事項
DAMO-YOLOとYOLOv9のどちらを選択するかは、特定のプロジェクト要件、デプロイ制約、およびエコシステムの好みに依存します。
DAMO-YOLOを選択するタイミング
DAMO-YOLOは以下のような場合に強力な選択肢となります。
- 高スループットビデオ分析: バッチ1スループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
- 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェアにおける厳格なGPUレイテンシー制約があるシナリオです。
- ニューラルアーキテクチャ探索研究: 自動化されたアーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化されたバックボーンがdetect性能に与える影響を研究しています。
YOLOv9を選択すべき時
YOLOv9 以下に推奨YOLOv9 :
- 情報ボトルネック研究: プログラマブル勾配情報(PGI)および汎用効率的層集約ネットワーク(GELAN)アーキテクチャを研究する学術プロジェクトです。
- 勾配フロー最適化研究: トレーニング中の深層ネットワーク層における情報損失の理解と軽減に焦点を当てた研究。
- 高精度detectベンチマーク: YOLOv9の強力なCOCOベンチマーク性能が、アーキテクチャ比較の参照点として必要とされるシナリオ。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。
- NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
- 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。
Ultralytics :YOLO26への進化
レガシーアーキテクチャを比較しているユーザーにとって、最新のUltralyticsエコシステム、特に最新のYOLO26モデルへの移行は、比類のない利点をもたらします。
YOLO26は NMSにより、デプロイメント環境を根本的に変革します。非最大抑制(NMS)の後処理を完全に排除することで、より高速かつ劇的に簡素化されたデプロイメントアーキテクチャを実現します。さらに分布焦点損失(DFL)の除去と相まって、YOLO26はエッジデバイスや低消費電力デバイスに対する優れた互換性を提供します。
さらに、YOLO26は革新的なMuSGDオプティマイザーを組み込んでいます。これはLLMトレーニングの革新に着想を得た、確率的勾配降下法とミューオン最適化のハイブリッド手法です。これにより、トランスフォーマーを多用する代替手法と比較して、非常に低いメモリ使用量を維持しながら、極めて安定したトレーニング収束が実現されます。
YOLO26による効率的なトレーニング
Ultralytics 、わずか数行Pythonで、実験追跡機能を内蔵した最先端のYOLO26モデルをトレーニングできます。
from ultralytics import YOLO
# Load the latest NMS-free YOLO26 model
model = YOLO("yolo26n.pt")
# Train on your custom dataset efficiently
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to ONNX format
model.export(format="onnx")
高度なインスタンスセグメンテーション、高精度な姿勢推定、標準的なバウンディングボックス検出のいずれを必要とする場合でも、Ultralytics の汎用性により、チームはディープラーニング環境の設定に費やす時間を削減し、堅牢なAIソリューションの展開により多くの時間を割くことが可能になります。小型物体認識を強化するProgLoss + STALなどの専用タスク改善を備えたYOLO26は、次世代ビジョンアプリケーションにおける最良の選択肢として位置づけられています。