Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLOとYOLOv9の比較#

リアルタイム物体検出の分野は、目まぐるしい速さで進化し続けています。エンジニアチームや研究者が精度、推論速度、計算効率の完璧なバランスを追い求める中で、研究コミュニティから「DAMO-YOLO」と「YOLOv9」という2つの注目すべきアーキテクチャが登場しました。どちらのモデルも、コンピュータビジョンの可能性を広げることを目的とした重要なアーキテクチャの革新をもたらしています。

本詳細技術ガイドでは、これら2つのモデルについて、それぞれの独自のアーキテクチャアプローチ、トレーニング方法論、および実環境への展開能力を比較しながら深く分析します。また、現代のAI開発において広範なソフトウェアエコシステムがどのように重要な役割を果たすかを探り、Ultralytics Platformや次世代モデルであるYOLO26のような統合プラットフォームの利点についても触れます。

Link to this sectionエグゼクティブサマリー:適切なアーキテクチャの選択#

どちらのモデルもディープラーニング研究における重要なマイルストーンですが、展開に関する考え方は少し異なります。

DAMO-YOLOは、Neural Architecture Search (NAS) を活用して特定のパフォーマンスプロファイルを最大限に引き出せる環境で真価を発揮するため、カスタマイズされたエッジ展開の研究対象として興味深い存在です。対照的に、YOLOv9はディープラーニングにおける情報のボトルネックを解消することに重点を置いており、非常に高いパラメータ効率を実現しています。

しかし、本番環境への展開において、エンジニアチームは一貫して統合されたUltralyticsエコシステムの活用を推奨しています。新規プロジェクトでは、最新の**YOLO26**モデルが、最先端の精度と複雑なポストプロセスを不要にするネイティブなエンドツーエンド設計の両方を兼ね備えた最適な選択肢となります。

コンピュータビジョンパイプラインの将来性を確保する

DAMO-YOLOとYOLOv9は強力な学術モデルですが、本番環境への展開には多くの場合、高度なカスタムエンジニアリングが必要です。Ultralytics YOLO26を使用することで、効率的で保守性の高いAPIを通じ、最先端のパフォーマンスにアクセスできます。

Link to this section技術仕様と著作権情報#

これらのモデルの起源と開発の焦点を理解することは、それぞれの強みを把握する上で不可欠な背景となります。

Link to this sectionDAMO-YOLO#

Alibaba Groupの研究者によって開発されたDAMO-YOLOは、自動アーキテクチャ生成と効率的な特徴融合に重点を置いています。

DAMO-YOLOの詳細はこちら

Link to this sectionYOLOv9#

深層畳み込みネットワークにおける情報損失の解決策として導入されたYOLOv9は、トレーニング中の勾配保持という理論的な限界を押し広げました。

YOLOv9の詳細はこちら

Link to this sectionアーキテクチャの革新#

Link to this sectionDAMO-YOLO:Neural Architecture Searchによる駆動#

DAMO-YOLOは、高度にカスタマイズされた機械生成コンポーネントによって差別化されています。そのバックボーンはNeural Architecture Search (NAS) を使用して生成されており、特にさまざまなハードウェア上での低遅延推論をターゲットにしています。

このアーキテクチャは、特徴融合のために効率的なRepGFPN (Reparameterized Generalized Feature Pyramid Network) を採用しており、計算オーバーヘッドを過度に増加させることなくマルチスケール物体検出を強化します。さらに、検出ヘッドを簡素化するZeroHead設計や、ラベル割り当てのためのAlignedOTAを採用し、トレーニング中には洗練された蒸留強化プロセスを組み合わせています。これらの手法は高速な推論を実現しますが、多段階の蒸留プロセスには多くの場合、大量のVRAMと長いトレーニング時間が必要となります。

Link to this sectionYOLOv9: 情報ボトルネックの解決#

YOLOv9は、深層ネットワークにおける根本的な課題、つまり連続するレイヤーを通過する際の入力データ情報の段階的な消失に取り組んでいます。

これに対処するため、著者は「Programmable Gradient Information (PGI)」を導入しました。これは、深い層のために重要な詳細を保持し、重み更新のための極めて信頼性の高い勾配を生成するように設計された補助監督フレームワークです。PGIに加えて、**GELAN (Generalized Efficient Layer Aggregation Network)**アーキテクチャが採用されています。GELANはCSPNetとELANの強みを組み合わせることでパラメータ効率を最適化し、情報フローを最大化しながら浮動小数点演算 (FLOPs) を最小限に抑えています。

Link to this sectionパフォーマンス分析と指標#

パフォーマンスを評価する際、どちらのモデルもCOCOのような標準ベンチマークで高いmean Average Precision (mAP) を示します。YOLOv9は、PGIアーキテクチャを活用して困難なデータセットでも高い忠実度を維持することで、同等のモデルサイズ全体でより高い絶対精度を達成しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

上記のように、YOLOv9-Eが最高の精度を達成する一方で、より小型のDAMO-YOLOおよびYOLOv9のバリアントは、TensorRT最適化を通じて非常に競争力のある推論速度を維持しています。

Link to this sectionトレーニング方法論とエコシステム#

生の手のアーキテクチャも重要ですが、モデルのエコシステムによって決定されるユーザビリティとトレーニング効率は、実環境での適用において極めて重要です。

DAMO-YOLOの知識蒸留への依存は、多くの場合、ターゲットの「生徒」モデルに知識を転送する前に、複雑な「教師」モデルをトレーニングする必要があります。この従来の研究アプローチは、メモリ要件とトレーニングサイクルを大幅に増加させます。同様に、元のYOLOv9リポジトリでは、アジャイルな開発を遅らせる可能性のある複雑な構成ファイルを扱う必要があります。

対照的に、Ultralytics Platformにモデルを統合することで、開発体験は完全に一変します。UltralyticsのPythonパッケージはボイラープレートコードを抽象化し、チームがデータ拡張、ハイパーパラメータチューニング、モデルエクスポートを簡単に扱えるようにします。

Link to this section実世界のアプリケーションとユースケース#

異なるアーキテクチャは、リソース要件と精度プロファイルに基づいて、自然と特定の産業で優れた成果を発揮します。

  • エッジAIにおけるDAMO-YOLO: NASで最適化されたバックボーンにより、DAMO-YOLOは、製造品質管理におけるカスタムASIC展開など、ハードウェア固有の再パラメータ化が厳格に求められる組み込みシステムで頻繁に調査されています。
  • 精密分析におけるYOLOv9: 高いパラメータ効率とPGIによる勾配保持機能を備えたYOLOv9は、航空写真の分析や混雑した小売環境での微小な物体の追跡など、高密度な物体検出シナリオにおいて優れています。

Link to this sectionユースケースと推奨事項#

DAMO-YOLOとYOLOv9のどちらを選択するかは、プロジェクトの具体的な要件、展開の制約、およびエコシステムの好みに依存します。

Link to this sectionDAMO-YOLOを選択すべきケース#

DAMO-YOLOは以下のような場合に強力な選択肢となります。

  • 高スループットビデオ解析: バッチサイズ1でのスループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
  • 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェア上での厳格なGPUレイテンシ制約があるシナリオ。
  • Neural Architecture Searchの研究: 自動化されたアーキテクチャ探索 (MAE-NAS) や効率的な再パラメータ化バックボーンが検出パフォーマンスに与える影響の研究。

Link to this sectionYOLOv9を選択すべき場合#

YOLOv9は以下の場合に推奨されます:

  • 情報ボトルネック研究: Programmable Gradient Information (PGI)およびGeneralized Efficient Layer Aggregation Network (GELAN)アーキテクチャを研究する学術プロジェクト。
  • 勾配フロー最適化の研究: トレーニング中の深層ネットワーク層における情報損失の理解と軽減に重点を置いた研究。
  • 高精度検出ベンチマーク: アーキテクチャ比較の基準点として、YOLOv9の強力なCOCOベンチマークパフォーマンスが必要とされるシナリオ。

Link to this sectionUltralytics (YOLO26) を選択すべき時#

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。

  • NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
  • 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。

Link to this sectionUltralyticsの利点:YOLO26への進化#

レガシーアーキテクチャを比較しているユーザーにとって、最新のUltralyticsエコシステム、特に最新のYOLO26モデルへの移行は、比類のない利点をもたらします。

YOLO26は、End-to-End NMS-Free Designを通じて展開の状況を根本的に変えます。Non-Maximum Suppression (NMS) のポストプロセスを完全に排除することで、より高速で劇的にシンプルな展開アーキテクチャを実現します。Distribution Focal Loss (DFL) の削除と相まって、YOLO26はエッジデバイスや低電力デバイスとの優れた互換性を提供します。

さらに、YOLO26には、LLMトレーニングの革新から着想を得たStochastic Gradient DescentとMuon最適化のハイブリッドである革新的なMuSGD Optimizerが組み込まれています。これにより、トランスフォーマーを多用する代替手法と比較して、非常に低いメモリ使用量を維持しながら、非常に安定したトレーニング収束を実現します。

YOLO26による効率的なトレーニング

直感的なUltralytics APIのおかげで、Pythonの数行のコードで、組み込みの実験トラッキングを備えた最先端のYOLO26モデルをトレーニングできます。

from ultralytics import YOLO

# Load the latest NMS-free YOLO26 model
model = YOLO("yolo26n.pt")

# Train on your custom dataset efficiently
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to ONNX format
model.export(format="onnx")

高度なインスタンスセグメンテーション、高精度の姿勢推定、または標準的なバウンディングボックス検出のいずれが必要であっても、Ultralyticsフレームワークの汎用性により、チームはディープラーニング環境の構成に費やす時間を短縮し、堅牢なAIソリューションの展開により多くの時間を割くことができます。小物体認識を強化するためのProgLoss + STALのような専門的なタスク改善により、YOLO26は次世代のビジョンアプリケーションにおける最高の選択肢として位置付けられています。

コメント