YOLOX対DAMO-YOLO:アンカーフリー型とNAS駆動型オブジェクト検出器の比較

リアルタイムオブジェクト検出の進化により、アンカーベースからアンカーフリーのアーキテクチャへ、また手動設計のバックボーンから自動ニューラルアーキテクチャ探索(NAS)へと、数多くのパラダイムシフトが起こりました。本稿では、この過程における重要なマイルストーンであるYOLOXDAMO-YOLOという2つのモデルについて、包括的な技術比較を行います。そのアーキテクチャの革新性、学習手法、パフォーマンスのトレードオフを探るとともに、現代のUltralytics YOLO26がいかに現代の開発者にとって比類のない代替手段を提供しているかについても解説します。

YOLOX: アンカーフリー・パラダイムの先駆け

2021年7月18日にMegviiのZheng Ge、Songtao Liu、Feng Wang、Zeming Li、およびJian SunによってリリースされたYOLOXは、YOLOファミリーにアンカーフリー設計を統合することに成功し、重要な転換点となりました。彼らの詳細なArXiv技術レポートで説明されている通り、YOLOXは学術研究と産業展開の間のギャップを埋めることを目的としていました。

主要なアーキテクチャの革新

YOLOXは、従来のモデルから大幅な改善をもたらすいくつかの主要な構造的変化を導入しました。

  • アンカーフリーメカニズム: オブジェクトの中心とバウンディングボックスのサイズを直接予測することで、YOLOXは設計上のヒューリスティックの数を減らし、複雑なアンカークラスタリングプロセスを簡素化しました。これにより、様々なコンピュータビジョンシナリオへの高い適応性を実現しています。
  • デカップルドヘッド(Decoupled Head): 従来のYOLOモデルでは、分類と回帰の両方に単一のカップルドヘッドを使用していました。YOLOXでは、分類とローカライゼーションを個別に処理するデカップルドヘッドを実装したことで、収束が大幅に速まり、精度が向上しました。
  • SimOTAラベル割り当て: 最適輸送割り当て(OTA)の簡略版を使用して、ポジティブサンプルを動的に割り当てることで、学習時間を短縮し、中心点割り当てにおける曖昧さを解消しました。
YOLOXのレガシー

YOLOXのデカップルドヘッド設計は、その後の世代のオブジェクト検出器に多大な影響を与え、多くの現代モデルの標準的な機能となりました。

YOLOXについて詳しく学ぶ

DAMO-YOLO:大規模な自動アーキテクチャ探索

Alibaba GroupのXianzhe Xuと研究チームによって開発されたDAMO-YOLOは、2022年11月23日に発表されました。彼らのArXiv論文に詳述されている通り、このモデルはニューラルアーキテクチャ探索(NAS)を多用して、速度と精度のパレートフロンティアを押し広げました。

主要なアーキテクチャの革新

DAMO-YOLOの戦略は、効率的な構造の設計を自動化することに基づいています。

  • MAE-NASバックボーン: 多目的進化アルゴリズムを活用することで、DAMO-YOLOは特にTensorRTなどのフレームワークにエクスポートする際に、特定のレイテンシバジェットに合わせてカスタマイズされた非常に効率的なバックボーンを発見しました。
  • 効率的なRepGFPN: 異なる空間解像度にわたる特徴融合を大幅に強化するヘビーネック設計であり、空撮画像解析や、様々なスケールのオブジェクト検出において非常に有効です。
  • ZeroHead: モデル全体の平均精度(mAP)を犠牲にすることなく、計算の冗長性を削減する簡略化された予測ヘッドです。
  • AlignedOTAと蒸留: 高度なラベル割り当てと教師・生徒モデルによる知識蒸留を組み込み、小さな生徒モデルから最大限のパフォーマンスを引き出します。

DAMO-YOLOの詳細はこちら

パフォーマンスとメトリクスの比較

これら2つのモデルを比較する際は、パラメータ数、必要なFLOPs、レイテンシプロファイルを確認する必要があります。以下は、複数のスケールにおけるYOLOXとDAMO-YOLOを比較したベンチマークデータです。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

両モデルとも素晴らしい結果を達成していますが、注意点もあります。YOLOXはデカップルドヘッドの慎重な調整が必要であり、DAMO-YOLOは蒸留への依存度が高いため、カスタムデータセットでの再学習には膨大なGPUメモリを消費し、リソース集約的です。

ユースケースと推奨事項

YOLOXとDAMO-YOLOのどちらを選択するかは、特定のプロジェクト要件、デプロイの制約、およびエコシステムの好みに依存します。

YOLOXを選択すべき場合

YOLOXは以下の場合に強力な選択肢となります:

  • アンカーフリー検出の研究: YOLOXのクリーンでアンカーフリーなアーキテクチャを、新しい検出ヘッドや損失関数の実験のためのベースラインとして使用する学術研究。
  • 超軽量エッジデバイス: マイクロコントローラーやレガシーなモバイルハードウェアへのデプロイ。YOLOX-Nanoバリアントの極めて小さなフットプリント(0.91Mパラメータ)が不可欠な場合。
  • SimOTAラベル割り当ての研究: 最適輸送ベースのラベル割り当て戦略と、それが学習の収束に与える影響を調査する研究プロジェクト。

DAMO-YOLOを選択すべきとき

DAMO-YOLOは以下の場合に推奨されます。

  • 高スループットビデオ分析: バッチ1のスループットが主要な指標となる、固定されたNVIDIA GPUインフラストラクチャ上で高FPSビデオストリームを処理する場合。
  • 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェア上で厳しいGPUレイテンシ制約があるシナリオ。
  • ニューラルアーキテクチャ探索の研究: 検出性能に対する自動アーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化バックボーンの影響を研究する場合。

Ultralytics (YOLO26) を選択すべき場合

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:

  • NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
  • 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。

Ultralyticsの利点:YOLO26の紹介

YOLOXとDAMO-YOLOは重要な歴史的マイルストーンですが、現代の開発者は最先端の精度と比類のない使いやすさを両立させるソリューションを求めています。ここでUltralytics YOLO26が状況を一変させます。2026年1月にリリースされたYOLO26は、NMSフリーモデルのレガシーに基づき、速度、精度、そして開発者体験の究極のバランスを実現しています。

なぜ YOLO26 を選ぶのか?

統合されたUltralyticsエコシステムは、以下の機能を提供することで、断片化された学術リポジトリを凌駕します。

  • エンドツーエンドのNMSフリー設計: YOLO26は、推論中にノンマキシマムサプレッション(NMS)をネイティブに排除します。これにより、エッジデプロイメントや自動運転車に不可欠な、非常に高速で予測可能なレイテンシを実現します。
  • DFLの削除: ディストリビューションフォーカルロス(Distribution Focal Loss)を削除することで、YOLO26はエッジデバイスへのエクスポートプロセスを簡素化し、軽量アプリケーションのメモリ要件を劇的に削減します。
  • MuSGDオプティマイザ: YOLO26は、ハイブリッドSGDとMuonオプティマイザを備えたLLM学習の革新技術を取り入れており、強固な学習安定性と超高速な収束を確実にします。
  • 最大43%高速なCPU推論: 深い構造最適化のおかげで、高価なGPUハードウェアを必要とせずに、YOLO26はCPU上で非常に高速に動作します。
  • 高度な損失関数: ProgLoss + STALの統合により、小さなオブジェクトの認識が大幅に向上し、ドローン点検やIoT監視などのタスクに最適です。
  • 多用途性: 単なる検出器であるDAMO-YOLOとは異なり、YOLO26はインスタンスセグメンテーションポーズ推定画像分類、および指向性バウンディングボックス(OBB)タスクを単一の統合フレームワーク内でネイティブにサポートします。
すぐに構築を開始

Ultralytics Python APIを使用すれば、複雑な蒸留パイプラインを手動で設定したり、モデルをデプロイするために数百行ものC++コードを書いたりする必要はありません。

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")

YOLO26の詳細はこちら

検討すべきその他のモデル

コンピュータビジョンのエコシステムは広大です。特定の制約に応じて、Ultralyticsエコシステムで完全にサポートされている他のアーキテクチャを探求することもできます。

  • YOLO11 YOLO26の非常に強力な前身であり、小売分析製造品質管理における堅牢性で知られています。
  • YOLOv8 広くエッジデプロイを普及させた、伝説的で非常に安定したアンカーフリーモデルです。
  • RT-DETR Baiduによって開発されたリアルタイムDEtection TRansformerであり、より高い学習メモリ要件を伴うものの、グローバルアテンションメカニズムから大きな恩恵を受けるタスクにとって優れた代替手段を提供します。

結論

YOLOXとDAMO-YOLOは両方とも、ディープラーニングの進歩に重要な概念を提供しました。YOLOXはデカップルドかつアンカーフリーのアプローチを実証し、DAMO-YOLOは自動アーキテクチャ探索の威力を示しました。しかし、実際の運用環境においては、オリジナルの研究コードベースの複雑さがアジャイルチームのスピードを落とす可能性があります。

包括的なUltralytics Platformを活用することで、開発者はこれらの障害を回避できます。YOLO26のエンドツーエンドの設計、優れたCPU速度、充実したドキュメントにより、最先端のビジョンAIを実現することがこれまで以上に容易になっています。スマートシティインフラ、医療診断、高度なロボティクスのいずれを構築している場合でも、Ultralyticsは生のデータから堅牢な実社会へのデプロイメントに至るまで、最も効率的な道筋を提供します。

コメント