コンテンツにスキップ

DAMO-YOLO 対 YOLO26: 次世代リアルタイム物体検出アーキテクチャの分析

コンピュータビジョンの分野は、高精度と低遅延推論を両立させるアーキテクチャの必要性により、絶えず進化を続けている。本比較では、Ultralytics YOLO26の技術的複雑性に深く迫り、両者のアーキテクチャ革新、トレーニング手法、および理想的なユースケースを探求する。

エッジデバイスへのビジョンモデル展開であれ、高スループットなクラウドパイプライン構築であれ、これらのモデル間の微妙な差異を理解することは、現代のAI開発において情報に基づいたアーキテクチャ決定を行う上で極めて重要です。

YOLO: 大規模ニューラルアーキテクチャ探索

DAMO-YOLOは、Alibaba Groupによって開発され、2022年11月23日にリリースされました。Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sunによって設計されたこのモデルは、ニューラルアーキテクチャ探索(NAS)を用いた効率的なアーキテクチャの自動発見に重点を置いています。

彼らのArXiv論文でオリジナル研究を確認するか、YOLO リポジトリでソースコードを閲覧できます。

主要なアーキテクチャ機能

DAMO-YOLOは、リアルタイム物体detectの限界を押し広げるために設計されたいくつかの技術革新を導入しています。

  • MAE-NASバックボーン: DAMO-YOLOは、最適なバックボーンを見つけるために多目的進化的探索を利用しています。このNASアプローチは、特定のハードウェア上でのdetect精度と推論速度を厳密にバランスさせるアーキテクチャを発見します。
  • 効率的なRepGFPN: 特徴融合を大幅に改善するヘビーネック設計は、航空画像に見られるような複雑なシーンを分析する際に非常に有益です。
  • ZeroHead設計: 最終予測層の計算複雑度を最小限に抑える、大幅に簡素化された検出ヘッド。
  • AlignedOTAと蒸留: DAMO-YOLOは、ラベル割り当ての曖昧さを解決するためにAligned Optimal Transport Assignment (AlignedOTA) を採用し、より大きな教師ネットワークを使用して小さな生徒モデルの精度を向上させる堅牢な知識蒸留強化戦略と組み合わせています。

DAMO-YOLOの詳細

Ultralytics のUltralytics :YOLO26

2026年1月14日、Glenn JocherとJing Qiuにより公開 UltralyticsによってリリースされたYOLO26は、アクセスしやすく高性能なビジョンAIの頂点を体現しています。 YOLO11YOLOv10の遺産を継承し、エッジファースト展開、マルチモーダル対応、比類なき使いやすさを追求して一から設計されています。

YOLO26 イノベーション

Ultralytics 、現代のコンピュータビジョンアプリケーションにおける決定的な選択肢となる画期的な機能を複数導入しています:

  • エンドツーエンドのNMSフリー設計: YOLO26は、Non-Maximum Suppression (NMS) の後処理をネイティブに排除します。YOLOv10で最初に開拓されたこのエンドツーエンドのアプローチは、デプロイメントパイプラインを劇的に簡素化し、決定論的で低レイテンシの推論を保証します。
  • 最大43%高速なCPU推論: エッジコンピューティング向けにアーキテクチャが最適化されており、YOLO26 はエッジデバイスおよび標準 CPU で卓越した速度を実現し、バッテリー駆動のIoTデバイスに最適です。
  • MuSGD オプティマイザ: LLMトレーニング (Moonshot AIのKimi K2など) から着想を得て、YOLO26はSGDとMuonのハイブリッドを組み込んでいます。これにより、大規模言語モデルのトレーニング安定性がコンピュータビジョンにもたらされ、より高速で信頼性の高い収束が実現します。
  • DFLの削除: Distribution Focal Lossを削除することで、モデルグラフが簡素化され、ONNXTensorRTのような形式へのスムーズなエクスポートが可能になります。
  • ProgLoss + STAL: これらの高度な損失関数は、小オブジェクト認識において顕著な改善をもたらし、ドローン運用および農業にとって重要な機能です。

タスク特化型強化

YOLO26は複数のモダリティにわたる特化的な改良を含みます:インスタンスセグメンテーションのためのマルチスケールプロトタイプ、姿勢推定のための残差対数尤度推定(RLE)、および方向付き境界ボックス(OBB)検出における境界問題を緩和するための高度な角度損失です。

YOLO26についてさらに詳しく

パフォーマンス比較

これらのモデルを評価する際には、精度(mAP)と計算効率(処理速度/FLOPs)のバランスが最も重要である。下表は、業界標準COCO を用いたこれらのモデルの比較結果を示している。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

上記の通り、YOLO26は一貫して高い精度を実現し、パラメータとFLOPsを大幅に削減することで、学習と推論の両方においてより効率的なアーキテクチャとなっています。

トレーニングの効率性と使いやすさ

YOLOの複雑性

YOLO 競争力のある精度YOLO 一方で、そのトレーニング手法は非常に複雑である。ニューラルアーキテクチャ探索(NAS)への依存と高度な知識蒸留を必要とするため、カスタムモデルのトレーニングには多くの場合、GPU 専門知識が求められる。巨大な教師モデルをトレーニングし、それをより小さな生徒モデルに蒸留するというこの多段階プロセスは、カスタムデータセットで迅速な反復を試みるアジャイルエンジニアリングチームのボトルネックとなり得る。

合理化されたUltralytics

対照的に、Ultralytics YOLO26は、「ゼロからヒーロー」の使いやすさを目指して設計されています。トレーニング、検証、デプロイのライフサイクル全体が、クリーンで統一されたPython APIとCLIの背後に抽象化されています。さらに、YOLO26はRT-DETRのようなTransformerベースのモデルと比較して、トレーニング中に大幅に少ないCUDAメモリしか必要としないため、研究者は民生用ハードウェアで最先端のモデルをトレーニングできます。

Ultralytics SDKを使用してYOLO26モデルのトレーニング、評価、エクスポートを簡単に行う方法の例を以下に示します:

from ultralytics import YOLO

# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Evaluate the model's performance on the validation set
metrics = model.val()

# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

# Export the model to ONNX format for deployment
model.export(format="onnx")

ノーコード環境を好むチーム向けに、Ultralytics Platformは、データセットアノテーション、クラウドトレーニング、およびシームレスなデプロイメントのための直感的なインターフェースを提供します。

現実世界のアプリケーション

適切なアーキテクチャの選択は、ターゲットとなるデプロイメント環境とハードウェアの制約に大きく依存します。

工業品質管理

高速な製造自動化において、DAMO-YOLOは専用GPUハードウェアで優れた性能を発揮します。しかし、現代の組立ラインではYOLO26が推奨される選択肢です。そのエンドツーエンドNMSフリー設計は、決定論的でジッターのないレイテンシを保証し、これはリアルタイムで視覚データをロボットアクチュエータと同期させる際に不可欠です。

エッジAIとモバイルデバイス

バッテリー駆動デバイスにコンピュータビジョンをデプロイするには、極めて高い効率が求められます。DAMO-YOLOが特定のRepGFPNネックに依存する一方、YOLO26n (Nano)はエッジコンピューティング向けに特化して最適化されています。DFLの削除と43%高速なCPU推論により、スマートカメラ、モバイルアプリケーション、およびセキュリティアラームシステムにとって究極のソリューションとなります。

マルチモーダルプロジェクト要件

プロジェクトが単なる物体検出以上の機能を必要とする場合(例:姿勢推定を用いたスポーツ選手の動作解析、インスタンスセグメンテーションによる正確なピクセル境界の抽出など)、YOLO26は単一の統合コードベース内でこれら全てのタスクをネイティブにサポートします。YOLO バウンディングボックス検出に厳密にYOLO

ユースケースと推奨事項

DAMO-YOLOとYOLO26のどちらを選択するかは、特定のプロジェクト要件、デプロイ制約、およびエコシステムの好みに依存します。

DAMO-YOLOを選択するタイミング

DAMO-YOLOは以下のような場合に強力な選択肢となります。

  • 高スループットビデオ分析: バッチ1スループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
  • 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェアにおける厳格なGPUレイテンシー制約があるシナリオです。
  • ニューラルアーキテクチャ探索研究: 自動化されたアーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化されたバックボーンがdetect性能に与える影響を研究しています。

YOLO26を選択すべき時

YOLO26は以下に推奨されます:

  • NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
  • CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
  • 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

結論

両方のアーキテクチャは、深層学習の分野における重要な成果を表しています。DAMO-YOLOは、特定のハードウェアベンチマークに合わせたニューラルアーキテクチャ探索と蒸留技術の力を垣間見せてくれます。

しかし、開発者、研究者、そして実運用可能なソリューションを求める企業にとって、Ultralytics 卓越した選択肢として際立っています。エンドツーエンドNMS設計、CPU 性能向上、マルチモーダル対応の汎用性、そしてUltralytics への統合を兼ね備えることで、今日の現実世界のコンピュータビジョン課題を解決する上で最も堅牢かつ実用的なツールとなっています。

Ultralyticsエコシステム内の他のモデルを検討しているユーザー向けに、YOLO11YOLOv8、およびトランスフォーマーベースのRT-DETRに関する包括的なドキュメントが利用可能です。


コメント