YOLOv9 vs. DAMO-YOLO: 物体検出モデルの技術比較

コンピュータビジョンの急速な進化により、さまざまなデプロイメントの制約や精度の要件に合わせて調整された、強力なアーキテクチャが数多く生み出されました。この分野における2つの注目すべきモデルが、情報のボトルネックを堅牢に処理することで称賛されるYOLOv9と、Neural Architecture Search (NAS) および効率的な特徴ピラミッドに大きく焦点を当てたDAMO-YOLOです。

本ガイドでは、YOLOv9とDAMO-YOLOの詳細な技術比較を行い、そのアーキテクチャの違い、トレーニング手法、理想的なデプロイメントシナリオについて解説します。また、Ultralytics ecosystemがどのように開発から本番環境までシームレスな道筋を提供するか、そしてなぜYOLO26のようなモダンなモデルが新しいプロジェクトで推奨される標準となったのかを探ります。

アーキテクチャの徹底解説

各モデルを支える中心的なメカニズムを理解することで、なぜそれらがさまざまな指標において異なるパフォーマンスを示すのかが明らかになります。

YOLOv9: プログラマブル勾配情報

YOLOv9は、深層ニューラルネットワークをデータが流れる際に発生する情報の損失に直接対処するために設計されました。

著者: Chien-Yao Wang, Hong-Yuan Mark Liao
所属: 台湾 中央研究院 情報科学研究所
日付: 2024年2月21日
リンク: Arxiv, GitHub, Docs

YOLOv9の詳細はこちら

YOLOv9は、Programmable Gradient Information (PGI)Generalized Efficient Layer Aggregation Network (GELAN) を導入しています。PGIは、フィードフォワードのプロセスにおいて不可欠な空間的および意味的な情報が保持されることを保証し、重みの更新に使用される勾配の劣化を防ぎます。GELANはこれを補完し、パラメータ効率を最大化することで、多くの従来のCNNよりも少ないFLOPsで最先端のmean Average Precision (mAP)を達成しています。

DAMO-YOLO: NAS主導の効率性

Alibaba Groupによって開発されたDAMO-YOLOは、自動化されたアーキテクチャ探索を活用して速度と精度の最適なバランスを見つけ出すという、異なるアプローチをとっています。

著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
所属: Alibaba Group
日付: 2022年11月23日
リンク: Arxiv, GitHub

DAMO-YOLOの詳細はこちら

DAMO-YOLOは、MAE-NAS (Masked Autoencoders for Neural Architecture Search) バックボーンに依存し、効率的なネットワーク構造を自動的に生成します。堅牢な特徴融合のためにRepGFPN (Reparameterized Generalized Feature Pyramid Network) を利用し、検出ヘッドの計算負荷を最小限に抑える「ZeroHead」設計を採用しています。さらに、ラベル割り当てのためにAlignedOTAを組み込み、知識蒸留を用いて小型バリアントのパフォーマンスを向上させています。

コンピュータビジョンにおけるNASの役割

Neural Architecture Search (NAS) は、人工ニューラルネットワークの設計を自動化します。DAMO-YOLOのように非常に効率的なモデルを生み出すことは可能ですが、アーキテクチャ空間を探索するために膨大な計算リソースを必要とすることが多く、YOLOv9のようなモデルのより決定論的な設計思想とは対照的です。

パフォーマンスとメトリクスの比較

物体検出モデルを選択する際には、精度、速度、計算フットプリントのバランスをとることが不可欠です。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

分析

  • 精度とパラメータ: YOLOv9は、一般的に優れたパラメータ対精度の比率を示します。例えば、YOLOv9cは25.3Mのパラメータで53.0% mAPを達成するのに対し、DAMO-YOLOlは50.8% mAPを達成しますが、より多くのパラメータ (42.1M) を必要とします。
  • 推論速度: DAMO-YOLOのアーキテクチャは、T4 GPU上で競争力のあるTensorRT推論速度を提供し、ミドルティアではYOLOv9をわずかに上回ります。しかし、FLOPsとパラメータ数におけるYOLOv9の効率性は、優れたGPUメモリ効率につながります。
  • メモリ要件: YOLOv9を含むUltralytics YOLOモデルは、NASで生成された複雑なモデルや重いTransformerアーキテクチャと比較して、トレーニングおよび推論中のメモリ使用量が一般的に低く、制約のあるエッジハードウェアへのデプロイメントに適しています。

Ultralyticsエコシステムの利点

理論的な指標も重要ですが、実際の実装がプロジェクトの成功を大きく左右します。ここでUltralytics Platformとその包括的なソフトウェアエコシステムが、DAMO-YOLOのようなスタンドアロンのリポジトリを凌駕します。

使いやすさとトレーニング効率

カスタムYOLOv9モデルのトレーニングに必要なボイラープレートは最小限です。Ultralytics Python APIは、データ拡張、分散トレーニング、ハードウェア最適化といった複雑なプロセスを抽象化します。

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

対照的に、DAMO-YOLOを利用するには、その独自のトレーニングパイプラインに固有の厳格な構成ファイルや複雑な依存関係チェーンを扱う必要があり、学習曲線が急峻になります。

タスクの汎用性

Ultralyticsモデルの特徴は、その本質的な汎用性です。標準的なバウンディングボックス検出を超えて、Ultralyticsフレームワークはインスタンスセグメンテーション姿勢推定画像分類指向性バウンディングボックス (OBB)検出といったタスクをシームレスにサポートします。DAMO-YOLOは2D物体検出に厳密に最適化されており、他の視覚パラダイムに適応させるには大幅な再エンジニアリングが必要です。

エッジデバイスへのエクスポート

Ultralytics simplifies the deployment pipeline by offering one-click model export to formats like TensorRT, OpenVINO, and CoreML, ensuring maximum performance regardless of your target hardware.

ユースケースと推奨事項

YOLOv9とDAMO-YOLOのどちらを選択するかは、特定のプロジェクト要件、デプロイメントの制約、およびエコシステムの好みに依存します。

YOLOv9を選択すべき場合

YOLOv9は次のような場合に適した選択肢です:

  • 情報のボトルネック研究: プログラマブル勾配情報 (PGI) および Generalized Efficient Layer Aggregation Network (GELAN) アーキテクチャを研究する学術プロジェクト。
  • 勾配フロー最適化の研究: 学習中の深層ネットワーク層における情報の損失を理解し、軽減することに焦点を当てた研究。
  • 高精度検出のベンチマーク: アーキテクチャ比較の基準点として、YOLOv9の強力なCOCOベンチマークパフォーマンスが必要なシナリオ。

DAMO-YOLOを選択すべきとき

DAMO-YOLOは以下の場合に推奨されます。

  • 高スループットビデオ分析: バッチ1のスループットが主要な指標となる、固定されたNVIDIA GPUインフラストラクチャ上で高FPSビデオストリームを処理する場合。
  • 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェア上で厳しいGPUレイテンシ制約があるシナリオ。
  • ニューラルアーキテクチャ探索の研究: 検出性能に対する自動アーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化バックボーンの影響を研究する場合。

Ultralytics (YOLO26) を選択すべき場合

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:

  • NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
  • 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。

未来: YOLO26への移行

YOLOv9とDAMO-YOLOは強力な歴史的マイルストーンを表していますが、現代のコンピュータビジョンはネイティブなエンドツーエンドのアーキテクチャへと移行しています。新しい開発には、**YOLO26**が推奨される標準です。

2026年にリリースされたYOLO26は、前モデルの成功を基盤としており、精度とデプロイメントの簡素化の両面で飛躍的な進歩を遂げています。

YOLO26の主なイノベーション

  • エンドツーエンドのNMSフリー設計: YOLO26は、Non-Maximum Suppression (NMS) の後処理を完全に排除しています。これにより、YOLOv10で初めて開拓された画期的な、ネイティブでエンドツーエンドな合理化されたデプロイメントパイプラインが実現しました。
  • DFLの削除: Distribution Focal Lossを削除し、エクスポートの簡素化とエッジ/低電力デバイスとの互換性を向上させました。
  • 最大43%高速なCPU推論: 複雑な後処理を削除し、コアとなる畳み込み演算を最適化することで、YOLO26は専用GPUを持たないエッジコンピューティングシナリオに独自に適しています。
  • MuSGDオプティマイザ: LLMトレーニングの革新から着想を得たYOLO26は、SGDとMuonのハイブリッド (MuSGD) を活用して、より安定したトレーニングの実行と著しく高速な収束時間を保証します。
  • ProgLoss + STAL: これらの高度な損失関数は、小さな物体の認識において驚くべき強化を提供し、YOLO26を高高度の空中撮影画像やIoTデバイスにとって理想的なものにしています。

現在次のプロジェクトに向けてYOLO11YOLOv8を調査している場合、YOLO26にアップグレードすることで、現在利用可能な最も最適化された最先端のビジョンAIフレームワークを使用できるようになります。

まとめ

適切なモデルの選択は、特定の運用上の制約によって決まります。

  • DAMO-YOLOは、NAS主導の最適化の魅力的な展望を提供し、そのRepGFPNアーキテクチャが輝く非常に特定のハードウェアプロファイルに対して競争力のある速度を提供します。
  • YOLOv9は、PGIアーキテクチャを活用して深層ネットワークにおける情報損失を防ぐため、きめ細かい視覚的詳細の保持に焦点を当てている研究者に最適な選択肢です。
  • Ultralytics YOLO26は、現代のエンタープライズおよび研究アプリケーションのための決定的な選択肢として際立っています。その比類のない使いやすさ、NMSフリーのアーキテクチャ、そして最先端のMuSGDトレーニングの最適化により、コンピュータビジョンの分野において最も信頼性が高く、正確で、デプロイが容易なモデルとなっています。

コメント