Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLOとYOLOv8の比較#

リアルタイムコンピュータビジョンの領域は、研究者やエンジニアが速度と精度の限界を押し広げるにつれて常に変化しています。この旅路における2つの重要なマイルストーンが DAMO-YOLOUltralytics YOLOv8 です。どちらのモデルも、レイテンシと平均精度(mAP)のトレードオフを最適化することを目指していますが、物体検出の課題解決に対しては、アーキテクチャおよび設計思想の面で根本的に異なるアプローチをとっています。

この包括的な技術解説では、次なる人工知能プロジェクトに適したツールを選択できるよう、両者の基盤となるアーキテクチャ、学習手法、そして実運用について比較を行います。

Link to this sectionモデルの系譜と仕様#

これらのディープラーニングモデルの起源を理解することは、その設計目標と展開エコシステムに関する貴重なコンテキストを提供します。

Link to this sectionDAMO-YOLOの詳細#

著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
組織: Alibaba Group
日付: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: tinyvision/DAMO-YOLO

DAMO-YOLOの詳細はこちら

Link to this sectionUltralytics YOLOv8の詳細#

著者: Glenn Jocher, Ayush Chaurasia, Jing Qiu
組織: Ultralytics
日付: 2023-01-10
GitHub: ultralytics/ultralytics
ドキュメント: YOLOv8 Documentation

YOLOv8の詳細はこちら

Link to this sectionアーキテクチャの革新#

両アーキテクチャの性能特性は、それぞれのユニークな構造的決定に由来しています。

Link to this sectionDAMO-YOLO: アーキテクチャ探索による駆動#

DAMO-YOLOは、ニューラルアーキテクチャ探索(NAS)を多用して最適なネットワーク構造を自動的に発見します。低レイテンシで高性能なバックボーンを探索するMAE-NASと呼ばれるコンセプトを導入しています。さらに、効率的なRepGFPN(Reparameterized Generalized Feature Pyramid Network)を利用して、異なる空間スケール間での特徴融合を強化しています。

学習を改善するために、AlibabaチームはZeroHead設計とAlignedOTAラベル割り当てを組み込みました。さらに、複雑な知識蒸留プロセスを多用しており、重い教師モデルが軽量な生徒モデルをガイドすることで、学術ベンチマークにおいてより高い精度指標を引き出しています。

Link to this sectionYOLOv8: 合理的で汎用性の高い設計#

UltralyticsはYOLOv8において、より開発者ファーストなアプローチを採用しました。YOLOv5のアンカーベース設計からアンカーフリーアーキテクチャへと移行し、バウンディングボックスの予測数を大幅に削減して推論を高速化しました。C2f(Cross-Stage Partial Bottleneck with 2 convolutions)モジュールの導入により、計算オーバーヘッドを過剰に追加することなく、勾配フローと特徴表現が向上しました。

バウンディングボックスのみを対象とするモデルとは異なり、YOLOv8は最初からマルチモーダルを前提に設計されています。統合されたPyTorchコードベースは、インスタンスセグメンテーション、姿勢推定、画像分類をネイティブにサポートしており、エンジニアがバラバラなリポジトリを継ぎ合わせる必要はありません。

効率的な学習

Ultralyticsのモデルは、Transformerベースの重いアーキテクチャと比較して学習時のメモリ消費が本質的に少なく、標準的なコンシューマー向けGPUで最先端の結果を得ることが可能です。

Link to this sectionパフォーマンスの比較#

生のメトリクスを比較する場合、理論的な能力がどのようにハードウェア性能に変換されるかを分析することが不可欠です。以下の表は、モデルサイズ全体におけるトレードオフを示しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

DAMO-YOLOは蒸留技術のおかげで優れたパラメータ対精度比を示しますが、YOLOv8はより広範なモデルサイズ(NanoからExtra-largeまで)を提供します。YOLOv8 Nanoモデルはエッジ最適化の傑作であり、少ないリソースを消費しつつ、非常に実用的な精度を実現します。

Link to this sectionエコシステムと開発者体験#

学術論文と本番環境用システムの真の差異は、エコシステムにあります。

DAMO-YOLOは広範な知識蒸留パイプラインに依存しているため、カスタム学習が煩雑になる可能性があります。教師モデルの生成、知識の転送、NASベースのバックボーンの調整には高いCUDAメモリと高度な構成が必要であり、アジャイルなエンジニアリングチームの進行を妨げることがあります。

対照的に、Ultralyticsのエコシステムは使いやすさを重視しています。Ultralytics Platformを通じて、開発者はシンプルなAPI、包括的なドキュメント、堅牢な実験トラッキング統合を利用できます。統一されたPythonフレームワークにより、複雑なパイプラインの構築が極めて容易になります。

from ultralytics import YOLO

# Load a pretrained YOLOv8 nano model
model = YOLO("yolov8n.pt")

# Train the model on a custom dataset with built-in augmentations
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

この効率的なワークフローは、OpenVINOTensorRTへのシームレスなエクスポートと組み合わさることで、ローカルでのプロトタイピングからクラウドやエッジへの展開まで、摩擦のないパスを保証します。

Link to this section実環境での応用と理想的なユースケース#

これらのアーキテクチャの選択は、多くの場合、環境の運用制約に帰着します。

Link to this sectionDAMO-YOLOの適性#

DAMO-YOLOは、ニューラルアーキテクチャ探索を研究する学術環境や、複雑な再パラメータ化戦略の再現を試みる研究者にとって優れた選択肢です。また、チームが多段階の学習を処理するための計算リソースを持っている場合、製造ラインでの高速な欠陥検出といった、高度に制御された産業用アプリケーションでも優れた能力を発揮します。

Link to this sectionなぜUltralyticsが本番環境でリードしているのか#

大多数の商用プロジェクトにおいて、Ultralyticsモデルはパフォーマンスの優れたバランスを提供します。

  • スマートリテール: YOLOv8のマルチタスク機能を活用し、在庫管理のためのバウンディングボックス検出と、顧客行動分析のための姿勢推定の両方を処理します。
  • 農業: インスタンスセグメンテーションを採用し、トラクターのリアルタイム映像から植物の正確な境界や雑草を検出します。
  • 航空画像: 回転バウンディングボックス(OBB)を活用して、ドローンや衛星から回転した車両や船舶を正確に追跡します。
その他の注目すべきモデル

より広い視野で探求する場合、アンカーフリー検出にさらなる進歩をもたらしたYOLOv10YOLO11の比較にも興味を持たれるかもしれません。

Link to this section将来への備え: YOLO26の登場#

YOLOv8は基礎モデルとして残っていますが、分野は進化し続けています。すべての新規開発において、YOLO26 が推奨される標準となります。2026年1月にリリースされた本モデルは、Ultralyticsラインナップにおける記念碑的な飛躍を意味します。

YOLO26は、ネイティブな エンドツーエンドのNMSフリー設計 を開拓し、従来のNon-Maximum Suppressionのボトルネックを完全に排除しました。この構造的ブレークスルーにより、CPU推論が最大43%高速化し、エッジコンピューティングやIoTハードウェアにとって絶対的なパワーハウスとなっています。

さらに、YOLO26は、大規模言語モデル(LLM)の学習手法から着想を得たハイブリッドな MuSGD Optimizer を導入しており、より速い収束と非常に安定した学習ループを保証します。新しいProgLoss + STALアルゴリズムと組み合わせることで、YOLO26は小物体認識において劇的な改善を示し、展開を高速にするだけでなく、妥協のない精度を維持します。

YOLO26の詳細はこちら

コントリビューター

コメント