コンテンツにスキップ

YOLOX対YOLO26:アンカーフリーからエンドツーエンド物体検出への進化

コンピュータビジョン分野は過去10年間で驚異的な変革を遂げてきた。 この進化の過程における二つの重要な節目として、アンカーフリーアーキテクチャを普及させたYOLOXのリリースと、ネイティブのエンドツーエンド設計とNMSによりリアルタイム性能を完全に再定義したUltralytics 登場が挙げられる。本比較では両者のアーキテクチャ、性能指標、最適な導入シナリオを包括的に検証し、開発者が次なるAIプロジェクトにおいて適切な判断を下すための指針を提供する。

モデルの概要

各モデルの起源と主要な設計目標を理解することは、それぞれの技術的成果を理解する上で不可欠な背景を提供する。

YOLOX

著者:Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sun
所属:Megvii
日付:2021-07-18
Arxiv:2107.08430
GitHub:Megvii-BaseDetection/YOLOX
ドキュメント:YOLOX ReadTheDocs

2021年半ばに登場したYOLOXは、アンカーレス設計と分離型ヘッドを採用し、SimOTAと呼ばれる先進的なラベル割り当て戦略を組み合わせることで、大きな転換をもたらした。従来のアーキテクチャを支配していた従来のアンカーボックス機構から脱却したことで、YOLOXは学術研究と産業応用との間のギャップを埋めることに成功し、オブジェクト検出のための洗練されながらも非常に効果的なフレームワークを提供した。

YOLOXの詳細について。

YOLO26

著者:Glenn Jocher、Jing Qiu
所属:Ultralytics
日付:2026-01-14
GitHub:ultralytics/ultralytics
プラットフォーム:Ultralyticsプラットフォーム

2026年初頭にリリースされたYOLO26は、長年にわたる反復的な改良の集大成であり、エッジデプロイメントと簡素化されたトレーニングパイプラインに重点を置いています。エンドツーエンドNMS設計を導入し、従来の非最大抑制(NMS)後処理ステップを完全に排除しました。この画期的な進歩により、多様なハードウェアへのモデルデプロイメントが大幅に簡素化されました。 さらに、分布焦点損失(DFL)モジュールを排除したことで、YOLO26は大幅に低遅延を実現し、現代のコンピュータビジョンアプリケーションにおける最良の選択肢としての地位を確固たるものにしています。

YOLO26についてさらに詳しく

アーキテクチャの革新

これら二つのモデルのアーキテクチャは、特に損失関数と後処理に関して、深層学習手法の急速な進歩を浮き彫りにしている。

YOLOXアプローチ

YOLOXは予測ヘッドにおいて分類と回帰タスクを分離し、これにより学習中の収束が大幅に加速された。アンカーフリー特性により設計パラメータ数が削減され、学習前の複雑なアンカー調整の必要性が軽減された。SimOTAラベル割り当てアルゴリズムと組み合わせることで、YOLOXは当時において最先端の結果を達成し、COCO のような標準ベンチマークで顕著な成果を示した。

YOLO26の優位性

YOLO26はアーキテクチャ効率を新たな次元へ引き上げます。NMS の除去は推論遅延を削減するNMS 、自律走行車やロボティクスにとって重要な要素である一貫した決定論的実行時間を保証します。

YOLO26の主な革新点には以下が含まれます:

  • MuSGD オプティマイザ: 大規模言語モデル (LLM) のトレーニング手法から着想を得たSGDとMuonのこのハイブリッドは、非常に安定したトレーニング実行とより高速な収束を保証します。
  • 最大43%高速なCPU推論: DFLを排除し、ネットワークアーキテクチャを合理化することで、YOLO26 はリソースが制約されたエッジデバイス向けに高度に最適化されており、シンプルなIoTセンサーから Raspberry Pi ボードまで対応します。
  • ProgLoss + STAL: これらの高度な損失関数は、小さなオブジェクトの認識において著しい改善をもたらし、航空画像の分析や製造自動化における精密な品質管理の実行にとって不可欠です。

エッジファースト最適化

プロジェクトが組み込みシステムや専用GPUを持たないモバイルアプリケーションを対象とする場合、YOLO26の最適化されたCPU 大きな利点を提供し、前世代モデルに比べて計算オーバーヘッドを大幅に削減します。

性能とベンチマーク

実稼働環境向けのモデルを評価する際には、精度、速度、計算複雑性のバランスを分析することが極めて重要である。以下に、画像サイズ640ピクセル(ナノ/タイニー版は416ピクセル)で評価した標準モデルの詳細な比較を示す。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

表が示すように、YOLO26シリーズは優れたパフォーマンスバランスを提供します。例えば、 YOLO26x 57.5 mAPという驚異的な性能を達成しながら、そのパラメータ数はほぼ半分に抑えられています。 YOLOXx モデルは、GPU 短縮(11.8ミリ秒対16.1ミリ秒)と圧倒的に優れたデプロイメントの柔軟性に直結します。

トレーニングとエコシステム体験

これらのアーキテクチャ間の最も根本的な違いの一つは、その使いやすさとエコシステムサポートにある。

YOLOXは勾配フローやアンカーフリーメカニズムを研究する研究者にとって基礎的なリポジトリであり続けていますが、その設定は複雑で、依存関係や演算子の手動設定が必要となることがよくあります。一方、 Ultralytics は使いやすさの業界標準を定義しています。

統一されたPython APIを利用することで、開発者は、比類のないシンプルさでYOLO26モデルを初期化、トレーニング、展開できます。システムは、データセットのダウンロード、ハイパーパラメータチューニング、そしてONNXTensorRT、OpenVINOのような形式へのシームレスなエクスポートを本質的に処理します。

from ultralytics import YOLO

# Initialize the cutting-edge, end-to-end YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model efficiently with built-in MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance on the validation set
metrics = model.val()

# Export the optimized model for edge deployment
model.export(format="onnx")

さらに、Ultralytics YOLO 、大規模なトランスフォーマーベースの代替モデルと比較して、トレーニング時のメモリ要件が大幅に低減されているため、エンジニアはコンシューマーグレードのハードウェア上でもより大きなバッチサイズでトレーニングを実施できます。

現実世界のアプリケーション

YOLOXとYOLO26の選択は、最終的にはデプロイメントの制約とマルチタスク要件によって決まります。

YOLOXが優れている点

YOLOXは、特定の学術ベンチマークやMegEngineフレームワークと深く統合されたレガシーシステムにおいて、依然として有力な選択肢である。その歴史的意義から、アンカーフリー検出器やカスタムアサインメント戦略の研究における一般的なベースラインとなっている。

YOLO26が優れている点

YOLO26は基本的に現代の産業用途向けに設計されています。インスタンスセグメンテーション姿勢推定オリエンテッドバウンディングボックス(OBB)をネイティブにサポートするため、標準的な検出エンジンよりもはるかに汎用性が高いです。

  • スマートリテールと在庫管理: NMSフリー設計を活用することで、自動チェックアウトシステムは超低レイテンシでビデオフィードを処理し、後処理ループのボトルネックなしに製品を認識することが保証されます。
  • ドローンおよび航空分析: OBBに特化した角度損失とProgLoss + STALの統合により、YOLO26は広大な衛星画像における回転オブジェクトや微小なアーティファクトのdetectにおいて比類のない性能を発揮します。
  • エッジセキュリティシステム: 43%高速なCPU推論により、YOLO26は企業が高価なクラウドコンピューティングを必要とせずに、堅牢なセキュリティ分析を安価なローカルハードウェアに直接デプロイすることを可能にします。

ユースケースと推奨事項

YOLOXとYOLO26のどちらを選択するかは、特定のプロジェクト要件、デプロイの制約、およびエコシステムの好みによって異なります。

YOLOXを選択すべき時

YOLOXは以下に最適な選択肢です:

  • アンカーフリー検出研究: YOLOXのクリーンなアンカーフリーアーキテクチャをベースラインとして使用し、新しい検出ヘッドや損失関数を実験する学術研究。
  • 超軽量エッジデバイス: YOLOX-Nanoバリアントの極めて小さいフットプリント(0.91Mパラメータ)が重要となるマイクロコントローラーやレガシーモバイルハードウェアへのデプロイ。
  • SimOTAラベル割り当て研究: 最適輸送ベースのラベル割り当て戦略と、それがトレーニング収束に与える影響を調査する研究プロジェクト。

YOLO26を選択すべき時

YOLO26は以下に推奨されます:

  • NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
  • CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
  • 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

その他のUltralyticsモデルの探索

コンピュータビジョンの進化を探求しているなら、Ultralytics には他にも調査する価値のある高性能モデルが存在します:

  • YOLO11: YOLO26の直前のモデルであり、安定した本番環境向けに堅牢なパフォーマンスと広範なコミュニティサポートを提供します。
  • YOLOv8: 何千もの実世界でのデプロイメントにおいて、使いやすさと柔軟性の基準を確立した、厳しく実戦で検証されたアーキテクチャです。

結論として、YOLOXが物体検出の分野に重要な概念をもたらした一方で、新たなYOLO26は速度、精度、導入の簡便性において画期的な飛躍を実現し、先進的な開発者や企業にとって決定的な選択肢となっている。


コメント