Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOX対DAMO-YOLO#

リアルタイム物体検出の進化は、アンカーベースからアンカーフリーアーキテクチャへ、そして手動設計のバックボーンから自動化されたニューラルアーキテクチャ探索(NAS)へと、数多くのパラダイムシフトを経験してきました。本技術比較では、この過程における重要な2つのマイルストーンであるYOLOXDAMO-YOLOを分析します。両モデルのアーキテクチャ上の革新、トレーニング手法、パフォーマンスのトレードオフを検討するとともに、現代のUltralytics YOLO26が現代のデベロッパーにどのような比類なき代替手段を提供しているかについても紹介します。

Link to this sectionYOLOX:アンカーフリーパラダイムの先駆者#

2021年7月18日にMegviiのZheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sunによって発表されたYOLOXは、アンカーフリー設計をYOLOファミリーに統合することに成功し、重要な転換点となりました。詳細なArXiv技術レポートで説明されているように、YOLOXは学術研究と産業展開の間のギャップを埋めることを目指しました。

Link to this section主要なアーキテクチャの革新#

YOLOXは、先行モデルから劇的に進化したいくつかの核となる構造的転換を導入しました:

  • アンカーフリーメカニズム: 物体の中心とバウンディングボックスの寸法を直接予測することで、YOLOXは設計上のヒューリスティックの数を減らし、複雑なアンカークラスタリングプロセスを簡素化しました。これにより、様々なコンピュータビジョンシナリオへの高い適応性を実現しています。
  • デカップリングヘッド: 従来のYOLOモデルは、分類と回帰の両方に単一の結合ヘッドを使用していました。YOLOXは分類とローカリゼーションを個別に処理するデカップリングヘッドを実装し、これにより収束が大幅に高速化され、精度が向上しました。
  • SimOTAラベル割り当て: 最適輸送割り当て(OTA)の簡略化バージョンを使用してポジティブサンプルを動的に割り当て、トレーニング時間を短縮し、中心点割り当ての曖昧さを克服しました。
YOLOXのレガシー

YOLOXのデカップリングヘッド設計は後続の世代の物体検出器に多大な影響を与え、多くの現代モデルの標準機能となりました。

YOLOX について詳しく学ぶ

Link to this sectionDAMO-YOLO:大規模な自動アーキテクチャ探索#

Alibaba GroupのXianzhe Xuと研究チームによって開発され、2022年11月23日に導入されたDAMO-YOLOは、ArXivの論文で詳述されている通り、ニューラルアーキテクチャ探索(NAS)を駆使して速度と精度のパレートフロンティアを押し広げました。

Link to this section主要なアーキテクチャの革新#

DAMO-YOLOの戦略は、効率的な構造の設計を自動化することに基づいています:

  • MAE-NASバックボーン: 多目的進化アルゴリズムを活用することで、DAMO-YOLOは特定のレイテンシ予算に合わせてカスタマイズされた高効率なバックボーンを発見しました。これは特にTensorRTのようなフレームワークにエクスポートする際に有効です。
  • 効率的なRepGFPN: さまざまな空間解像度間で特徴融合を大幅に強化するヘビーネック設計であり、航空画像解析や様々なスケールの物体検出に非常に効果的です。
  • ZeroHead: モデル全体の平均精度(mAP)を犠牲にすることなく、計算の冗長性を削ぎ落とした簡略化された予測ヘッド。
  • AlignedOTAと蒸留: 高度なラベル割り当てと教師・生徒モデルの知識蒸留を取り入れ、より小さな生徒モデルから最大限のパフォーマンスを引き出します。

DAMO-YOLOの詳細はこちら

Link to this sectionパフォーマンスと指標の比較#

これら2つのモデルを比較する際は、パラメータ数、必要なFLOPs、レイテンシプロファイルを考慮する必要があります。以下は、複数のスケールにおけるYOLOXとDAMO-YOLOを比較したベンチマークデータです。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

両モデルとも素晴らしい結果を達成していますが、注意点もあります。YOLOXはデカップリングヘッドの慎重な調整が必要であり、一方DAMO-YOLOは蒸留に大きく依存しているため、カスタムデータセットでの再トレーニングには多大なリソースが必要で、膨大なGPUメモリが要求されます。

Link to this sectionユースケースと推奨事項#

YOLOXとDAMO-YOLOのどちらを選ぶかは、プロジェクト固有の要件、展開制約、エコシステムの好みによって決まります。

Link to this sectionYOLOXを選択すべき時#

YOLOXは以下の場合に強力な選択肢となります。

  • アンカーフリー検出研究: 新しい検出ヘッドや損失関数を実験するためのベースラインとして、YOLOXのクリーンでアンカーフリーなアーキテクチャを使用する学術研究。
  • 超軽量エッジデバイス: YOLOX-Nanoバリアントの非常に小さなフットプリント(0.91Mパラメータ)が不可欠な、マイクロコントローラやレガシーモバイルハードウェアへのデプロイ。
  • SimOTAラベル割り当ての研究: 最適輸送に基づくラベル割り当て戦略と、それが学習の収束に与える影響を調査する研究プロジェクト。

Link to this sectionDAMO-YOLOを選択すべきケース#

DAMO-YOLOは以下の場合に推奨されます:

  • 高スループットビデオ解析: バッチサイズ1でのスループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
  • 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェア上での厳格なGPUレイテンシ制約があるシナリオ。
  • Neural Architecture Searchの研究: 自動化されたアーキテクチャ探索 (MAE-NAS) や効率的な再パラメータ化バックボーンが検出パフォーマンスに与える影響の研究。

Link to this sectionUltralytics (YOLO26) を選択すべき時#

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。

  • NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
  • 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。

Link to this sectionUltralyticsの優位性:YOLO26の紹介#

YOLOXとDAMO-YOLOは歴史的に重要なマイルストーンですが、現代のデベロッパーには、最先端の精度と比類なき使いやすさを兼ね備えたソリューションが必要です。ここでUltralytics YOLO26が状況を一変させます。2026年1月にリリースされたYOLO26は、NMSフリーモデルのレガシーを基盤として、速度、精度、デベロッパー体験の究極のバランスを実現しています。

Link to this sectionなぜYOLO26を選ぶのか?#

統合されたUltralyticsエコシステムは、以下を提供することで断片化された学術リポジトリを凌駕します:

  • エンドツーエンドのNMSフリー設計: YOLO26は推論中にNon-Maximum Suppression(NMS)をネイティブに排除します。これにより、エッジ展開や自動運転車に不可欠な、非常に高速かつ予測可能なレイテンシが実現します。
  • DFLの除去: Distribution Focal Lossを排除することで、YOLO26はエッジデバイスへのエクスポートプロセスを簡素化し、軽量アプリケーションのメモリ要件を劇的に削減します。
  • MuSGDオプティマイザ: YOLO26は、ハイブリッドSGDとMuonオプティマイザを備えたLLMトレーニングの革新技術を取り入れており、強固なトレーニングの安定性と超高速な収束を保証します。
  • 最大43%高速なCPU推論: 深い構造の最適化により、高価なGPUハードウェアを必要とせず、CPU上で爆速で動作します。
  • 高度な損失関数: ProgLoss + STALの統合により、小物体認識が大幅に改善され、ドローン検査やIoT監視といったタスクに最適です。
  • 汎用性: 単なる検出器であるDAMO-YOLOとは異なり、YOLO26は単一の統合フレームワーク内でインスタンスセグメンテーション姿勢推定画像分類傾き付きバウンディングボックス(OBB)タスクをネイティブにサポートしています。
即座に開発を開始

Ultralytics Python APIを使用すれば、複雑な蒸留パイプラインを手動で設定したり、モデルを展開するために何百行ものC++コードを書いたりする必要はありません。

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")

YOLO26の詳細はこちら

Link to this section検討すべきその他のモデル#

コンピュータビジョンのエコシステムは広大です。特定の制約に応じて、Ultralyticsエコシステムで完全にサポートされている他のアーキテクチャを探求することもできます:

  • YOLO11 YOLO26の非常に有能な前身モデルであり、小売分析製造品質管理における堅牢性で知られています。
  • YOLOv8 エッジ展開を普及させた、伝説的で非常に安定したアンカーフリーモデル。
  • RT-DETR Baiduによって開発されたリアルタイムDEtection TRansformerであり、グローバルアテンションメカニズムから大きな利益を得るタスクに対して優れた代替手段を提供しますが、その代償として高いトレーニングメモリ要件が求められます。

Link to this section結論#

YOLOXとDAMO-YOLOはどちらもディープラーニングの進歩に不可欠な概念に貢献しました。YOLOXはデカップリングされたアンカーフリーアプローチを検証し、DAMO-YOLOは自動化されたアーキテクチャ探索の力を証明しました。しかし、実際の生産環境においては、研究段階のコードベースの複雑さが、アジャイルなチームの足を引っ張ることがあります。

包括的なUltralytics Platformを活用することで、デベロッパーはこれらの障壁を回避できます。YOLO26のエンドツーエンド設計、優れたCPU速度、そして広範なドキュメントにより、最先端のビジョンAIの実現がこれまで以上に身近になりました。スマートシティインフラ、ヘルスケア診断、高度なロボティクスなど、どのような構築においても、Ultralyticsは生データから強固な現実世界の展開に至る最も効率的なパスを提供します。

コントリビューター

コメント