Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLOとYOLO26の比較#

コンピュータビジョンの領域は常に進化しており、高精度と低遅延の推論を両立するアーキテクチャの需要が高まっています。本比較では、DAMO-YOLOUltralytics YOLO26の技術的な詳細を掘り下げ、そのアーキテクチャの革新性、トレーニング手法、および最適なユースケースを探ります。

ビジョンモデルをエッジデバイスにデプロイする場合でも、高スループットのクラウドパイプラインを構築する場合でも、これらのモデル間の微妙な違いを理解することは、最新のAI開発において情報に基づいたアーキテクチャの決定を行うために不可欠です。

Alibaba Groupによって開発されたDAMO-YOLOは、2022年11月23日にリリースされました。Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sunらによって設計されたこのモデルは、Neural Architecture Search (NAS) を使用した効率的なアーキテクチャの自動発見に重点を置いています。

オリジナルの研究についてはArXiv論文を確認するか、DAMO-YOLO GitHubリポジトリでソースコードを探索することができます。

Link to this section主要なアーキテクチャの特徴#

DAMO-YOLOは、リアルタイム物体検出の限界を押し広げるために設計されたいくつかの技術革新を導入しています:

  • MAE-NAS Backbones: DAMO-YOLOは、マルチオブジェクティブ進化的探索を利用して最適なバックボーンを見つけます。このNASアプローチは、特定のハードウェアにおける推論速度と検出精度を厳密にバランスさせるアーキテクチャを発見します。
  • Efficient RepGFPN: 航空写真のように複雑なシーンを解析する際に非常に有益な、特徴融合を大幅に改善するヘビーネック設計です。
  • ZeroHead Design: 最終的な予測レイヤーの計算複雑性を最小限に抑える、大幅に簡素化された検出ヘッドです。
  • AlignedOTA and Distillation: DAMO-YOLOは、ラベル割り当ての曖昧さを解消するためにAligned Optimal Transport Assignment (AlignedOTA) を採用しており、さらに、より大きな教師ネットワークを使用して小さな学生モデルの精度を高める強力な知識蒸留強化戦略と組み合わせています。

DAMO-YOLOの詳細はこちら

Link to this sectionUltralyticsの利点:YOLO26#

2026年1月14日にUltralyticsのGlenn JocherとJing QiuによってリリースされたYOLO26は、アクセシブルで高性能なビジョンAIの頂点を表しています。YOLO11YOLOv10のレガシーを基盤とするYOLO26は、エッジファーストのデプロイメント、マルチモーダルの汎用性、そして比類のない使いやすさを目指してゼロから設計されています。

Link to this sectionYOLO26の革新#

Ultralytics YOLO26は、現代のコンピュータビジョンアプリケーションにとって決定的な選択肢となるいくつかの画期的な機能を導入しています:

  • End-to-End NMS-Free Design: YOLO26は、Non-Maximum Suppression (NMS) の後処理をネイティブで排除します。YOLOv10で最初に開拓されたこのエンドツーエンドのアプローチは、デプロイメントパイプラインを劇的に簡素化し、決定的で低遅延な推論を保証します。
  • 最大43%高速なCPU推論: エッジコンピューティング用にアーキテクチャが最適化されたYOLO26は、エッジデバイスや標準的なCPUで卓越した速度を実現し、バッテリー駆動のIoTデバイスに最適です。
  • MuSGD Optimizer: LLMトレーニング(Moonshot AIのKimi K2など)に触発されたYOLO26は、SGDとMuonのハイブリッドを組み込んでいます。これにより、大規模言語モデルのトレーニングの安定性がコンピュータビジョンにもたらされ、より迅速で信頼性の高い収束が実現します。
  • DFL Removal: Distribution Focal Lossを削除することで、モデルグラフが簡素化され、ONNXTensorRTなどのフォーマットへのスムーズなエクスポートが可能になります。
  • ProgLoss + STAL: これらの高度な損失関数は、ドローン運用農業において重要な機能である、小物体認識において顕著な改善を提供します。
タスク固有の拡張機能

YOLO26には、複数のモダリティにわたる専門的な改善が含まれています。それは、インスタンスセグメンテーション用のマルチスケールproto、姿勢推定用のResidual Log-Likelihood Estimation (RLE)、そして回転バウンディングボックス (OBB)検出における境界問題を軽減するための高度な角度損失です。

YOLO26の詳細はこちら

Link to this sectionパフォーマンスの比較#

これらのモデルを評価する際、精度 (mAP) と計算効率 (速度/FLOPs) のバランスが最も重要です。以下の表は、業界標準のCOCOデータセットを使用してこれらのモデルがどのように比較されるかを示しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

上記のように、YOLO26は一貫して少ないパラメータ数とFLOPsでより高い精度を提供し、トレーニングと推論の両方において、はるかに効率的なアーキテクチャを実現しています。

Link to this sectionトレーニングの効率とユーザビリティ#

Link to this sectionDAMO-YOLOの複雑さ#

DAMO-YOLOは競争力のある精度を達成していますが、そのトレーニング手法は非常に複雑です。Neural Architecture Search (NAS) への依存と、重い知識蒸留のプロセスは、カスタムモデルをトレーニングするために多大なGPUリソースと専門的な知識が必要であることを意味します。巨大な教師モデルをトレーニングして小さな学生モデルに蒸留するというこの多段階のプロセスは、カスタムデータセットで迅速に反復しようとするアジャイルなエンジニアリングチームにとってボトルネックになる可能性があります。

Link to this section合理化されたUltralyticsのエクスペリエンス#

Conversely, Ultralytics YOLO26 is designed for "zero-to-hero" usability. The entire training, validation, and deployment lifecycle is abstracted behind a clean, unified Python API and CLI. Furthermore, YOLO26 requires significantly less CUDA memory during training compared to transformer-based models like RT-DETR, allowing researchers to train state-of-the-art models on consumer-grade hardware.

以下は、Ultralytics SDKを使用してYOLO26モデルをトレーニング、評価、エクスポートすることがいかに簡単かを示す例です:

from ultralytics import YOLO

# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Evaluate the model's performance on the validation set
metrics = model.val()

# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

# Export the model to ONNX format for deployment
model.export(format="onnx")

ノーコード環境を好むチーム向けに、Ultralytics Platformは、データセットのアノテーション、クラウドトレーニング、シームレスなデプロイメントのための直感的なインターフェースを提供します。

Link to this section実際のアプリケーション#

適切なアーキテクチャを選択するかどうかは、ターゲットのデプロイメント環境とハードウェアの制約に大きく依存します。

Link to this section産業品質管理#

高速な製造自動化において、DAMO-YOLOは専用のGPUハードウェア上で十分に機能します。しかし、最新の組立ラインにはYOLO26が推奨される選択肢です。そのエンドツーエンドのNMSフリー設計は、視覚データとロボットアクチュエータをリアルタイムで同期させる際に不可欠な、決定的でジッターのない遅延を保証します。

Link to this sectionエッジAIおよびモバイルデバイス#

バッテリー駆動のデバイスでコンピュータビジョンをデプロイするには、極めて高い効率が求められます。DAMO-YOLOは特定のRepGFPNネックに依存していますが、YOLO26n (Nano) はエッジコンピューティング向けに特別に最適化されています。そのDFL削除と43%高速なCPU推論は、スマートカメラ、モバイルアプリケーション、およびセキュリティ警報システムにとって究極のソリューションとなります。

Link to this sectionマルチモーダルプロジェクトの要件#

姿勢推定を使用したスポーツにおけるプレイヤーのメカニクスの分析や、インスタンスセグメンテーションを使用した正確なピクセル境界の抽出など、物体検出以上のことがプロジェクトに求められる場合、YOLO26は単一の統一されたコードベース内でこれらすべてのタスクに対してネイティブサポートを提供します。DAMO-YOLOはバウンディングボックス検出のみに厳密に制限されています。

Link to this sectionユースケースと推奨事項#

DAMO-YOLOとYOLO26のどちらを選択するかは、特定のプロジェクト要件、デプロイメントの制約、およびエコシステムの好みに依存します。

Link to this sectionDAMO-YOLOを選択すべきケース#

DAMO-YOLOは以下のような場合に強力な選択肢となります。

  • 高スループットビデオ解析: バッチサイズ1でのスループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
  • 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェア上での厳格なGPUレイテンシ制約があるシナリオ。
  • Neural Architecture Searchの研究: 自動化されたアーキテクチャ探索 (MAE-NAS) や効率的な再パラメータ化バックボーンが検出パフォーマンスに与える影響の研究。

Link to this sectionYOLO26を選ぶべき時#

YOLO26は以下のような場合に推奨されます。

  • NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
  • 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。

Link to this section結論#

両方のアーキテクチャは、ディープラーニングの分野における重要な成果を表しています。DAMO-YOLOは、特定のハードウェアベンチマークに合わせて調整されたNeural Architecture Searchと蒸留技術の力について、魅力的な洞察を提供します。

しかし、本番環境に対応したソリューションを求める開発者、研究者、および企業にとって、Ultralytics YOLO26は優れた選択肢として際立っています。エンドツーエンドのNMSフリー設計、大幅なCPU推論の向上、マルチモーダルの汎用性、そして十分にメンテナンスされたUltralyticsエコシステムへの統合の組み合わせにより、現実世界のコンピュータビジョンの課題を解決するための最も堅牢で実用的なツールとなっています。

Ultralyticsエコシステム内の他のモデルを探索することに関心があるユーザー向けに、YOLO11YOLOv8、およびTransformerベースのRT-DETRに関する包括的なドキュメントが利用可能です。

コメント