DAMO-YOLO vs. YOLO26: リアルタイム物体detect器の技術比較
リアルタイム物体detectの進化は、速度、精度、デプロイ効率のバランスが取れたモデルの必要性によって、急速な進歩を遂げてきました。本記事では、Alibaba Groupが開発したDAMO-YOLOと、Ultralyticsの最新イテレーションであるYOLO26について、包括的な技術比較を行います。開発者や研究者がコンピュータービジョンプロジェクトに適したツールを選択できるよう、両者のアーキテクチャ、性能指標、理想的なユースケースを分析します。
DAMO-YOLO の概要
DAMO-YOLOは、Alibaba Groupの研究者によって2022年後半に発表された、高速かつ高精度な物体detect手法です。YOLOフレームワークにいくつかの最先端技術を統合することで、性能の限界を押し上げるように設計されました。DAMO-YOLOの核となる哲学は、ニューラルアーキテクチャ探索(NAS)を用いて効率的なバックボーンを自動的に発見し、それに重い再パラメータ化ネックを組み合わせることにあります。
主要なアーキテクチャ機能は以下の通りです。
- MAE-NASバックボーン: 異なるレイテンシ制約の下で最適なバックボーン構造を探索するために、マスク付きオートエンコーダー(MAE)アプローチを利用しています。
- 効率的なRepGFPN: 推論時の速度を犠牲にすることなく特徴融合効率を向上させるため、再パラメータ化によって高度に最適化された汎用特徴ピラミッドネットワーク(GFPN)。
- ZeroHead: 計算オーバーヘッドを削減する軽量なヘッド設計。
- AlignedOTA: 分類タスクと回帰タスク間のミスマッチ問題を解決する改善されたラベル割り当て戦略。
- 蒸留による強化: より大きな教師モデルを使用して、より小さなモデルの精度を向上させるための堅牢な蒸留パイプラインが使用されます。
著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
組織:Alibaba Group
日付: 2022年11月23日
リンク:Arxiv, GitHub
YOLO26の概要
Ultralyticsによって2026年1月にリリースされたYOLO26は、エッジ最適化されたコンピュータビジョンにおける大きな飛躍を意味します。エッジデバイスや低電力デバイス向けに特別に設計されており、デプロイパイプラインの合理化に焦点を当てつつ、小さな物体検出のような困難なタスクでの精度を向上させています。
YOLO26は、いくつかの主要な革新によって際立っています。
- エンドツーエンドのNMSフリー設計: 非最大抑制(NMS)の後処理の必要性を排除することで、YOLO26はデプロイロジックを簡素化し、レイテンシの変動を低減します。これはYOLOv10で初めて開拓された概念です。
- DFLの削除: Distribution Focal Loss (DFL) の削除により、モデルの出力構造が簡素化され、ONNXやTensorRTなどの形式へのエクスポートがより簡単になり、幅広いハードウェアとの互換性が向上します。
- MuSGDオプティマイザ: Moonshot AIのKimi K2におけるLLMトレーニング技術に触発された、SGDとMuonを組み合わせた新しいハイブリッドオプティマイザです。これにより、より安定したトレーニングダイナミクスと高速な収束が実現します。
- ProgLoss + STAL: プログレッシブ損失バランスと小ターゲット認識ラベル割り当て(STAL)の組み合わせにより、小物体に対する性能が大幅に向上し、リアルタイムdetectorにおける一般的な弱点が克服されます。
著者: Glenn Jocher, Jing Qiu
組織:Ultralytics
日付: 2026年1月14日
リンク:Ultralytics Docs, GitHub
比較分析
アーキテクチャと設計思想
最も顕著な違いは、推論パイプラインにあります。DAMO-YOLOは、重複するバウンディングボックスをフィルタリングするためにNMSを必要とする、従来のdetectorワークフローに従います。NMSは効果的であるものの、高スループットアプリケーションではボトルネックとなり、特定のアクセラレータへのデプロイを複雑にする可能性があります。
対照的に、YOLO26はネイティブにエンドツーエンドです。モデルは最終的なバウンディングボックスのセットを直接予測します。このNMSフリー設計は、特にNMSが高コストであるCPUバウンドのエッジデバイスにおいて、推論レイテンシを削減するだけでなく、本番環境でモデルを実行するために必要な統合コードも簡素化します。
デプロイメントの簡素化
YOLO26のNMSフリーアーキテクチャは、エッジデバイスにデプロイする際にC++やCUDAで複雑な後処理ロジックを実装する必要がないことを意味します。モデルの出力が最終的な検出結果となります。
学習方法論
DAMO-YOLOは、特にその小型バリアントにおいて、高い性能を達成するために知識蒸留に大きく依存しています。これは、強力な教師モデルを最初に訓練する必要があるため、トレーニングパイプラインに複雑さを加えます。
YOLO26はMuSGDオプティマイザを導入し、大規模言語モデル(LLM)の最適化とコンピュータビジョンの間のギャップを埋めます。これにより、Ultralyticsのトレーニングモードが様々な高度な設定をサポートしているものの、YOLO26は複雑な蒸留設定に必ずしも依存することなく、最先端の収束を達成できます。さらに、YOLO26のProgLossは、学習プロセスを安定させるためにトレーニング中に損失重みを動的に調整します。
パフォーマンス指標
COCOデータセットでの性能を比較すると、両モデルは目覚ましい結果を示しますが、速度と効率に関して明確なトレードオフが現れます。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
分析:
- パラメータ効率: YOLO26は、はるかに優れたパラメータ効率を示します。例えば、
YOLO26sは 48.6 mAP わずか 950万パラメータに対し、DAMO-YOLOs1630万パラメータで46.0 mAPを達成します。これにより、YOLO26モデルは保存がより軽量になり、読み込みが高速化されます。 - 推論速度: YOLO26nは非常に高速で、T4 GPUとTensorRTを使用した場合、Tiny DAMOバリアントの約2.32 msと比較して、1.7 msを記録します。YOLO26のCPU速度も主要な特徴であり、GPUが利用できないRaspberry Piや携帯電話などのデバイス向けに特別に最適化されています。
- 精度: 同様のスケール(例: Medium/Large)において、YOLO26はDAMO-YOLOをmAPで一貫して上回ります。これは、高度なSTAL割り当て戦略と洗練されたアーキテクチャによるものと考えられます。
汎用性とタスクサポート
DAMO-YOLOが主に物体detectに焦点を当てているのに対し、Ultralyticsエコシステムは、YOLO26が多機能な強力なツールであることを保証します。
- DAMO-YOLO: 物体detectに特化。
- YOLO26: 物体detect、インスタンスsegment、画像分類、姿勢推定、およびOriented Bounding Box (obb) detectをすぐに利用できます。
この汎用性により、開発者は単一の統合APIで多様なコンピュータビジョン問題に対応でき、学習曲線と技術的負債を削減します。
使いやすさとエコシステム
YOLO26の最も強力な利点の1つは、周囲のUltralyticsエコシステムです。
DAMO-YOLOは、研究者が結果を再現するために使用できるコードベースを提供しますが、より製品に焦点を当てたライブラリに見られるような、広範なドキュメント、メンテナンス、コミュニティサポートが不足している可能性があります。
YOLO26は以下の恩恵を受けます:
- シンプルなAPI: 一貫したpythonと CLIインターフェース (
yolo predict ...)により、初心者から専門家までトレーニングとデプロイメントが容易になります。 - ドキュメント: カスタムデータセットでのトレーニングからiOSおよびAndroid向けのモデルのエクスポートまで、あらゆることに関する広範なガイド。
- 統合: MLOps向けにComet、Weights & Biases、Roboflowなどのツールとのシームレスな接続。
- メンテナンス: バグ修正や新機能導入のための頻繁な更新により、モデルの関連性を維持します。
コード例: YOLO26の実行
from ultralytics import YOLO
# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
ユースケース
DAMO-YOLOを選択すべき時
- 研究用途: もしあなたの研究がニューラルアーキテクチャ探索(NAS)の調査や新しい再パラメータ化技術の探求を含む場合、DAMO-YOLOは学術研究のための豊かな基盤を提供します。
- 特定のレガシー制約: 既存のパイプラインがDAMO-YOLOの特定の出力形式やアンカー割り当て戦略に厳密に基づいて構築されており、リファクタリングが実行不可能な場合。
YOLO26を選択する場合
- エッジデプロイメント: Raspberry Pi、モバイルデバイス、または組み込みシステム上のアプリケーションにおいて、CPU推論速度と低メモリフットプリントが重要となる場合。
- リアルタイムシステム: NMSフリーの特性により、YOLO26はロボット工学や自動運転における超低遅延要件に理想的です。
- マルチタスクプロジェクト: プロジェクトがオブジェクトのdetect、マスクのsegment、ポーズの推定を同時に必要とする場合、YOLO26は1つのフレームワークでこれらすべてをカバーします。
- 商用開発: 安定性、サポート、およびCoreMLやOpenVINOのような形式へのエクスポートの容易さにより、本番環境のソフトウェアにとって優れた選択肢となります。
結論
両モデルはコンピュータビジョンにおける重要な成果を表しています。DAMO-YOLOはNASと効率的な特徴融合において印象的なコンセプトを導入しました。しかし、YOLO26はデプロイメントの実用性、トレーニングの安定性、計算効率に焦点を当てることで、最先端技術をさらに洗練させています。エンドツーエンドのNMSフリー設計、優れたパラメータ効率、そして堅牢なUltralyticsエコシステムの支援により、YOLO26は現代のリアルタイムコンピュータビジョンアプリケーションに推奨される選択肢として際立っています。
Ultralyticsファミリー内の他のオプションを検討している方にとって、YOLO11やYOLOv8のようなモデルは、汎用的なdetectタスクにおいて強力な代替手段であり続けています。