コンテンツにスキップ

YOLO26 vs. DAMO-YOLO: リアルタイムオブジェクト検出の進化

急速に進化するコンピュータビジョンの分野において、精度、速度、デプロイの実現可能性のバランスを取るためには、適切な物体検出モデルの選択が不可欠です。この比較では、Ultralyticsが提供する最新のエッジ最適化モデルであるYOLO26と、Alibaba Groupが開発した高性能検出器であるDAMO-YOLOを検証します。両モデルは重要なアーキテクチャ革新を導入していますが、デプロイパイプラインにおける優先順位はわずかに異なります。

モデル概要

Ultralytics YOLO26

YOLO26は、シンプルさとエッジ効率へのパラダイムシフトを象徴しています。2026年1月にリリースされたこのモデルは、従来のポストプロセッシングの複雑さを排除しつつ、CPU制約のあるデバイスで最先端のパフォーマンスを発揮するように設計されています。ネイティブで物体検出インスタンスセグメンテーション姿勢推定分類oriented bounding box (obb)検出を含む幅広いタスクをサポートしています。

YOLO26についてさらに詳しく

DAMO-YOLO

DAMO-YOLOは、高度なニューラルアーキテクチャ探索(NAS)と大規模な再パラメータ化を通じて、速度と精度のトレードオフの最適化に焦点を当てています。AlibabaのTinyVisionチームによって開発され、RepGFPNやZeroHeadといった斬新なコンポーネントを導入し、主に汎用GPUシナリオをターゲットに特徴抽出効率を最大化します。

技術アーキテクチャの比較

エンドツーエンド vs. 従来のNMS

最も重要な運用上の違いは、予測がどのように最終決定されるかにあります。

YOLO26は、ネイティブなエンドツーエンドのNMSフリー設計を採用しています。ネットワークから直接最終予測を生成することで、Non-Maximum Suppression (NMS)の必要性を排除します。この後処理の削除により、レイテンシの変動が低減され、デプロイメントパイプラインが簡素化されます。特に、NMS操作がボトルネックとなる可能性のあるRaspberry Piやモバイルデバイスなどのエッジハードウェアで有効です。このアプローチはYOLOv10で先駆的に導入され、ここで改良されました。

DAMO-YOLOは、重複するボックスをフィルタリングするためにNMSを必要とする、より伝統的な密な予測ヘッド(ZeroHead)に依存しています。これは効果的ですが、推論中に検出されたオブジェクトの数に比例して増加する計算ステップを追加するため、混雑したシーンでレイテンシのジッターを引き起こす可能性があります。

トレーニングの革新: MuSGD vs. NAS

YOLO26は、SGDMuonのハイブリッドであるMuSGD Optimizerを導入しています。Moonshot AIのKimi K2のようなLLMトレーニングのブレークスルーに触発されたこのオプティマイザは、より安定したトレーニングダイナミクスとより速い収束を提供し、ユーザーがより少ないエポックで最適なパフォーマンスに到達できるようにします。

DAMO-YOLOは、MAE-NAS手法を介したニューラルアーキテクチャ探索(NAS)を活用し、効率的なバックボーン構造を自動的に発見します。また、複数のスケールで特徴を融合する大規模な再パラメータ化ネックであるEfficient RepGFPNも採用しています。これらは強力ですが、これらのNAS由来のアーキテクチャは、Ultralyticsモデルの手動で作成された合理化されたブロックと比較して、変更やファインチューニングが直感的でない場合があります。

損失関数

YOLO26は、Distribution Focal Loss (DFL) を削除することで、CoreMLTensorRTなどのフォーマットへのエクスポート性を合理化します。代わりに、ProgLossSmall-Target-Aware Label Assignment (STAL)を使用しており、これらは小さなオブジェクトに対するパフォーマンスを大幅に向上させます。これは、航空画像医療分析などの分野で一般的な課題です。

DAMO-YOLOは、分類タスクと回帰タスク間の不整合を解決するラベル割り当て戦略であるAlignedOTAを利用しています。これは、トレーニング中に高品質のアンカーが最も関連性の高いグラウンドトゥルースに割り当てられることを保証することに焦点を当てています。

YOLO26におけるエッジ最適化

DFLとNMSを削除することで、YOLO26は以前の世代と比較して最大43%高速なCPU推論を実現します。これにより、GPUリソースが利用できない「エッジAI」アプリケーション、例えばデバイス上のスマートパーキング管理などに特に適しています。

パフォーマンス指標

以下の表はパフォーマンスの違いを示しています。YOLO26は、特にパラメータ数とFLOPsにおいて優れた効率性を示し、競争力のある、または優れた精度を維持しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

主なポイント

  1. 効率性: YOLO26n (Nano) は、DAMO-YOLOtと比較してパラメータが約3.5倍小さく、FLOPsが3.3倍低く、同等の精度を達成しています。この計算負荷の大幅な削減により、YOLO26はモバイルおよびIoTデプロイメントに大幅に適しています。
  2. 精度スケーリング: モデルがスケールアップするにつれて、YOLO26mはDAMO-YOLOmを約4.0 mAP上回り、より少ないパラメータ(20.4M対28.2M)を使用しています。
  3. 速度: YOLO26は、すべてのスケールでT4 GPUにおいて一貫して高速な推論時間を提供し、ビデオ分析のような高スループットアプリケーションにとって不可欠です。

ユーザビリティとエコシステム

シンプルさとドキュメント

の特徴の1つは Ultralytics モデルは使いやすさです。YOLO26は ultralytics pythonパッケージに統合されており、ユーザーは数行のコードでモデルをトレーニング、検証、デプロイできます。

from ultralytics import YOLO

# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100)

対照的に、DAMO-YOLOは研究志向のリポジトリです。トレーニングと推論のためのスクリプトは提供していますが、Ultralyticsエコシステムが提供する統合されたAPI、広範なガイド、および幅広いOSサポート(Windows、Linux、macOS)が不足しています。

デプロイとエクスポート

YOLO26は、ONNXOpenVINO、CoreML、TFLiteを含む10以上のフォーマットへのワンクリックエクスポートをサポートしています。この柔軟性は、研究から生産に移行するエンジニアにとって不可欠です。DFLのような複雑なモジュールの削除により、これらのエクスポートは堅牢であり、より広範なハードウェアアクセラレータと互換性があることが保証されます。

DAMO-YOLOは、エクスポート中に慎重に処理する必要がある特定のリパラメータ化ステップに依存しています。トレーニングモードからデプロイメントモードに正しく「切り替え」られない場合、モデルのパフォーマンスが低下したり、実行に失敗したりする可能性があり、ユーザーにとって複雑さが増します。

実際のユースケース

YOLO26の理想的なシナリオ

  • エッジデバイスとIoT: 最小限のメモリフットプリント(2.4Mパラメータから)により、YOLO26は電力とRAMが制限されるセキュリティカメラドローンに最適です。
  • リアルタイムスポーツ分析: NMSフリー設計により一貫したレイテンシが保証され、これはスポーツアプリケーションにおける高速移動オブジェクトのtrackに不可欠です。
  • マルチタスクシステム: YOLO26はsegmentation、pose、およびobbをネイティブにサポートしているため、向きと把持点を必要とするロボットマニピュレーションのような複雑なパイプラインにとって最適な選択肢です。

DAMO-YOLOの理想的なシナリオ

  • 学術研究: NASと高度な蒸留技術の利用により、アーキテクチャ探索手法を研究する研究者にとって有力な候補となります。
  • ハイエンドGPUサーバー: ハードウェアの制約が存在せず、特定のベンチマークでわずかな精度も重要となるシナリオでは、DAMO-YOLOの重いバックボーンを効果的に活用できます。

結論

DAMO-YOLOが2022年にアーキテクチャ探索と再パラメータ化において印象的な概念を導入した一方で、YOLO26は2026年における最先端技術を代表します。エンドツーエンドのシンプルさに焦点を当て、NMSやDFLのようなボトルネックを排除し、パラメータ数を大幅に削減することで、YOLO26は現代のAI開発者にとって、より実用的で高速かつユーザーフレンドリーなソリューションを提供します。

今日、堅牢なコンピュータビジョンソリューションの導入を検討しているユーザーにとって、Ultralytics Platformとのシームレスな統合と、圧倒的なワットあたりの性能効率により、YOLO26は明確な推奨モデルとなります。

参考資料

他のアーキテクチャアプローチに興味がある方は、ドキュメントで以下の関連モデルをご覧ください。

  • YOLO11 - 多様性と精度における前世代の標準。
  • RT-DETR - NMSフリー推論も提供する、Transformerベースのリアルタイムdetect器。
  • YOLOv10 - YOLO26で採用されているエンドツーエンドのNMSフリー学習アプローチの先駆者。

コメント