DAMO-YOLO vs. YOLO26: 次世代リアルタイム物体検出アーキテクチャの分析
コンピュータビジョンの領域は絶えず進化しており、高い精度と低遅延な推論を両立するアーキテクチャへのニーズが高まっています。本比較記事では、DAMO-YOLOとUltralytics YOLO26の技術的な詳細を掘り下げ、そのアーキテクチャの革新性、学習手法、そして理想的なユースケースを探ります。
エッジデバイスへのビジョンモデルのデプロイであれ、高スループットなクラウドパイプラインの構築であれ、現代のAI開発においてこれらのモデルの微妙な違いを理解することは、情報に基づいたアーキテクチャの意思決定を行う上で不可欠です。
DAMO-YOLO:大規模なニューラルアーキテクチャ探索
Alibaba Groupによって開発されたDAMO-YOLOは、2022年11月23日にリリースされました。Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sunによって設計されたこのモデルは、Neural Architecture Search (NAS) を使用した効率的なアーキテクチャの自動発見に大きく焦点を当てています。
オリジナルの研究内容についてはArXiv論文を確認するか、DAMO-YOLO GitHubリポジトリでソースコードを確認してください。
主要なアーキテクチャの特長
DAMO-YOLOは、リアルタイム物体検出の限界を押し広げるために設計されたいくつかの技術革新を導入しています。
- MAE-NAS Backbones: DAMO-YOLOは、最適なバックボーンを見つけるために多目的進化的探索を利用しています。このNASアプローチは、特定のハードウェアにおける推論速度と検出精度のバランスを厳密に保つアーキテクチャを発見します。
- Efficient RepGFPN: 特徴融合を大幅に改善するヘビーネック設計であり、航空画像のような複雑なシーンを解析する際に非常に有効です。
- ZeroHead Design: 最終的な予測レイヤーの計算複雑性を最小限に抑える、大幅に簡略化された検出ヘッドです。
- AlignedOTA and Distillation: DAMO-YOLOは、ラベル割り当ての曖昧さを解消するためにAligned Optimal Transport Assignment (AlignedOTA) を採用し、より大きな教師ネットワークを使用してより小さな学生モデルの精度を高めるための強力な知識蒸留戦略と組み合わせています。
Ultralyticsの利点: YOLO26
UltralyticsのGlenn JocherとJing Qiuによって2026年1月14日にリリースされたYOLO26は、利用しやすく高性能なビジョンAIの頂点です。YOLO11とYOLOv10のレガシーの上に構築されたYOLO26は、エッジ優先のデプロイメント、マルチモーダルな汎用性、そして比類のない使いやすさを目指してゼロから設計されました。
YOLO26の革新性
Ultralytics YOLO26は、現代のコンピュータビジョンアプリケーションにおける決定的な選択肢となるいくつかの画期的な機能を導入しています。
- End-to-End NMS-Free Design: YOLO26は、Non-Maximum Suppression (NMS) の後処理をネイティブで排除します。YOLOv10で最初に開拓されたこのエンドツーエンドのアプローチは、デプロイメントパイプラインを劇的に簡素化し、決定論的で低遅延な推論を保証します。
- 最大43%高速なCPU推論: エッジコンピューティング向けにアーキテクチャが最適化されており、エッジデバイスや標準的なCPU上で卓越した速度を実現するため、バッテリー駆動のIoTデバイスに最適です。
- MuSGD Optimizer: LLMトレーニング(Moonshot AIのKimi K2など)に触発されたYOLO26は、SGDとMuonのハイブリッドを組み込んでいます。これにより、大規模言語モデルの学習安定性がコンピュータビジョンにもたらされ、より高速で信頼性の高い収束が可能になります。
- DFL Removal: Distribution Focal Lossを削除することでモデルグラフが簡素化され、ONNXやTensorRTなどのフォーマットへの摩擦のないエクスポートが可能になります。
- ProgLoss + STAL: これらの高度な損失関数は、ドローン運用や農業において重要な機能である、小さな物体の認識精度を顕著に向上させます。
YOLO26には、複数のモダリティにわたる専門的な改善が含まれています。例えば、インスタンスセグメンテーションのためのマルチスケールproto、姿勢推定のためのResidual Log-Likelihood Estimation (RLE)、そして回転枠物体検出 (OBB)における境界の問題を軽減するための高度な角度損失などです。
パフォーマンスの比較
これらのモデルを評価する際、精度 (mAP) と計算効率 (速度/FLOPs) のバランスが最も重要です。以下の表は、業界標準のCOCOデータセットを使用してこれらのモデルがどのように比較されるかを示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
上記のように、YOLO26は一貫して、より少ないパラメータとFLOPsでより高い精度を提供し、学習と推論の両方においてより効率的なアーキテクチャとなっています。
学習効率とユーザビリティ
DAMO-YOLOの複雑さ
DAMO-YOLOは競争力のある精度を達成していますが、その学習手法は非常に複雑です。Neural Architecture Search (NAS) と大規模な知識蒸留への依存は、カスタムモデルの学習には多大なGPUリソースと専門的な知識が必要であることを意味します。巨大な教師モデルを学習させて小さな学生モデルに蒸留するというこの多段階のプロセスは、カスタムデータセットで迅速に反復しようとするアジャイルなエンジニアリングチームにとってボトルネックになる可能性があります。
合理化されたUltralyticsのエクスペリエンス
Conversely, Ultralytics YOLO26 is designed for "zero-to-hero" usability. The entire training, validation, and deployment lifecycle is abstracted behind a clean, unified Python API and CLI. Furthermore, YOLO26 requires significantly less CUDA memory during training compared to transformer-based models like RT-DETR, allowing researchers to train state-of-the-art models on consumer-grade hardware.
Ultralytics SDKを使用してYOLO26モデルを学習、評価、エクスポートすることがいかに簡単かを示す例を以下に示します。
from ultralytics import YOLO
# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Evaluate the model's performance on the validation set
metrics = model.val()
# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
# Export the model to ONNX format for deployment
model.export(format="onnx")ノーコード環境を好むチーム向けに、Ultralytics Platformはデータセットのアノテーション、クラウドトレーニング、シームレスなデプロイメントのための直感的なインターフェースを提供しています。
実世界の応用例
適切なアーキテクチャの選択は、対象となるデプロイメント環境とハードウェアの制約に大きく依存します。
産業品質管理
高速な製造自動化において、DAMO-YOLOは専用のGPUハードウェア上で十分に機能します。しかし、現代の組み立てラインではYOLO26が推奨される選択肢です。そのEnd-to-End NMS-Free設計は、視覚データとロボットアクチュエータをリアルタイムで同期させる際に不可欠な、決定的でジッターのない遅延を保証します。
エッジAIとモバイルデバイス
バッテリー駆動デバイスでのコンピュータビジョンのデプロイには、極端な効率が求められます。DAMO-YOLOは特定のRepGFPNネックに依存していますが、YOLO26n (Nano) はエッジコンピューティング向けに特に最適化されています。そのDFL削除と43%高速なCPU推論は、スマートカメラ、モバイルアプリケーション、およびセキュリティアラームシステムにとって究極のソリューションとなります。
マルチモーダルプロジェクトの要件
プロジェクトが物体検出以上のことを要求する場合(姿勢推定を使用したスポーツの選手メカニクスの解析、あるいはインスタンスセグメンテーションを使用した正確なピクセル境界の抽出など)、YOLO26はこれらすべてのタスクに対して単一の統合コードベース内でネイティブサポートを提供します。DAMO-YOLOはバウンディングボックス検出に厳密に限定されています。
ユースケースと推奨事項
DAMO-YOLOとYOLO26のどちらを選ぶかは、特定のプロジェクト要件、デプロイメントの制約、およびエコシステムの好みに依存します。
DAMO-YOLOを選択すべきとき
DAMO-YOLOが推奨されるケースは以下の通りです:
- 高スループットビデオ分析: バッチ1のスループットが主要な指標となる、固定されたNVIDIA GPUインフラストラクチャ上で高FPSビデオストリームを処理する場合。
- 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェア上で厳しいGPUレイテンシ制約があるシナリオ。
- ニューラルアーキテクチャ探索の研究: 検出性能に対する自動アーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化バックボーンの影響を研究する場合。
YOLO26を選ぶべき場合
YOLO26は以下の場合に推奨されます:
- NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
- 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。
結論
両アーキテクチャは、ディープラーニング分野における重要な成果を代表しています。DAMO-YOLOは、特定のハードウェアベンチマークに合わせて調整されたNeural Architecture Searchと蒸留技術の強力な可能性を垣間見せてくれます。
しかし、本番環境に対応したソリューションを求める開発者、研究者、および企業にとって、Ultralytics YOLO26はより優れた選択肢として際立っています。エンドツーエンドのNMSフリー設計、大幅なCPU推論の向上、マルチモーダルな汎用性、そして十分に管理されたUltralyticsエコシステムへの統合により、現代の現実世界のコンピュータビジョンの課題を解決するための最も堅牢で実用的なツールとなっています。
Ultralyticsエコシステム内の他のモデルの探索に関心のあるユーザーのために、YOLO11、YOLOv8、およびTransformerベースのRT-DETRに関する包括的なドキュメントが利用可能です。