コンテンツにスキップ

YOLO26 vs. YOLOX:リアルタイム物体検出の進化

コンピュータビジョンの分野は過去5年間で急速に進化し、複雑なアンカーベースのアーキテクチャから、効率的で高性能なモデルへと移行した。 本比較では、この進化の過程における二つの重要なモデルを検証する。2021年に発表された画期的なアンカーフリー検出器「YOLOX」と、Ultralytics 発表した最先端ビジョンモデル「YOLO26」である。YOLOXが多くの現代的アーキテクチャ設計の礎を築いた一方、YOLO26はこれらの進歩の集大成として、優れた速度、精度、導入の容易さを実現している。

モデル概要

Ultralytics YOLO26

2026年1月にリリースされたYOLO26は、次世代エッジAI向けに設計されています。ネイティブのエンドツーエンド(NMS)アーキテクチャを導入し、デプロイメントのボトルネックとなる後処理ステップを不要にしました。 分布焦点損失(DFL)を排除し、大規模言語モデル訓練に着想を得たMuSGDオプティマイザを導入することで、YOLO26は前世代比最大43%高速CPU 速度を実現。IoTアプリケーションやロボティクス分野における最優先選択肢となっています。

グレン・ジョッカーとジン・チウ
Ultralytics
2026年1月14日
GitHub|ドキュメント

YOLO26についてさらに詳しく

YOLOX

Megviiが2021年に発表したYOLOXは、アンカーボックスとNMSを廃止し、分離型ヘッドとSimOTAラベル割り当てを採用した、初期の高性能「アンカーフリー」検出器の一つである。 当時、学術研究と産業応用との間のギャップを埋めることに成功し、アンカーボックスとトレーニング安定性のためのNMS 排除することで、YOLOv4やYOLOv5などの先行モデルよりもクリーンな設計を実現した。ただし、推論NMS 依然NMS が必要であった。

鄭格、劉松涛ほか.
Megvii
2021年7月18日
ArXiv|GitHub

技術的パフォーマンス比較

以下の表は、2つのモデルの性能差を比較したものです。YOLO26は精度(mAP)と効率性の両面で大幅な向上を示しており、CPU 、そのアーキテクチャが低遅延実行向けに最適化されている点が顕著です。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

パフォーマンスコンテキスト

YOLOXnanoはパラメータ数とFLOPsが低い一方で、YOLO26n(mAP 40.9mAP )と比較して解像度(416px)と精度(25.8mAP)が大幅に低下している。有効精度で正規化した場合、YOLO26ははるかに優れた推論遅延を提供する。

アーキテクチャの革新

エンドツーエンド vs. 後処理

最も重要な違いはデプロイメントパイプラインにある。YOLOXはアンカーフリーだが、重複するバウンディングボックスをフィルタリングするために依然として非最大抑制(NMS)に依存している。NMS ソートや順次処理を伴うため、エッジハードウェア(FPGAやNPUなど)上での最適化が困難で計算コストNMS

YOLO26はネイティブのエンドツーエンド設計を採用しており、この概念は YOLOv10によって先駆的に導入されたコンセプトです。この設計では、ネットワークから直接最終的な検出結果を出力し、NMS(ノード重み付け)を必要としません。これにより以下の利点が得られます:

  1. 低遅延:後処理のオーバーヘッドなし。
  2. 確定的レイテンシ:オブジェクト密度に関わらず推論時間は一定である。
  3. 簡易デプロイメント:ONNX または TensorRT へのエクスポートは、カスタムNMS 不要なため、非常に簡単です。

SGD安定性:MuSGD対SGD

YOLOXは、2021年に改良された分離ヘッド付き標準確率的勾配降下法(SGD)を採用しています。 しかし、YOLO26ではMuSGDオプティマイザーを導入している。SGD ミューオンオプティマイザー(Moonshot AIのKimi K2に着想を得た)のハイブリッドである。この革新により、大規模言語モデル(LLM)のトレーニングから得られる安定性がコンピュータビジョン分野にもたらされ、トレーニングプロセスにおける収束の高速化とより堅牢な特徴抽出が可能となった。

損失関数

YOLOXIoU 分離ヘッド戦略を採用している。YOLO26はProgLoss + STAL(ソフトターゲット割り当て損失)によりこれを進化させた。この組み合わせは、シングルステージ検出器の伝統的な弱点である微小物体検出の課題を特に解決する。ProgLossは学習中に損失重みを動的に調整し、学習が進むにつれてモデルがより困難な例(多くの場合、微小または遮蔽された物体)に集中できるようにする。

エコシステムと使いやすさ

両フレームワークを特徴づける違いの一つは、それらを取り巻くエコシステムである。

Ultralyticsの利点

YOLO26を利用することで、データ管理、アノテーション、モデルトレーニングのための包括的なツールスイートUltralytics アクセスが可能になります。

from ultralytics import YOLO

# Load the model
model = YOLO("yolo26n.pt")

# Train on custom data
model.train(data="coco8.yaml", epochs=100)

# Export for deployment
model.export(format="onnx")

YOLOXの複雑性

YOLOXは主に研究用リポジトリです。強力ではありますが、データセットやトレーニングパイプラインに対してより多くの手動設定を必要とします。標準的な検出以外のタスク(姿勢推定やセグメンテーションなど)に対するネイティブサポートが同一リポジトリ内で不足しており、エッジフォーマットへのエクスポートには外部スクリプトやサードパーティツール(例: onnx-simplifier)。

現実世界のアプリケーション

スマートリテールと在庫管理

在庫管理が必要な小売環境において、YOLO26は優れた選択肢です。DFL(分布焦点損失)の排除とエンドツーエンドアーキテクチャにより、スマートシェルフカメラに搭載される低消費電力ARM CPU上で効率的に動作します。YOLO26s(48.6mAP)はYOLOX-s(40.5mAP)よりも精度が向上しており、偽陰性を減らしながらより正確な在庫管理を実現します。

自律型ドローン航法

ドローンは高解像度画像の処理を最小限の遅延で行う必要がある。YOLO26はProgLossによりこの点で優れており、遠方の車両や送電線といった微小物体の空中からの検出を強化する。NMSにより、ドローンの制御ループは一貫したレートでデータを受信でき、これは衝突回避システムにとって極めて重要です。一方、YOLOXNMS 依存しているため、雑然とした環境(森林や群衆の上空飛行など)では遅延が急増NMS 、飛行安定性を脅かす恐れがあります。

産業用ロボット

製造業では、ロボットアームがピックアンドプレース作業に視覚システムを多用する。YOLO26エコシステム はOBB(Oriented Bounding Boxes)をサポートしており、これは物体の角度情報を提供する——軸に平行でない物体を把持する際に極めて重要である。YOLOXがOBBをサポートするには大幅な修正が必要である一方、YOLO26は標準でこれをサポートしている。

結論

YOLOXがアンカーフリー検出を普及させた重要なマイルストーンであった一方、YOLO26は効率的なコンピュータビジョンの未来を体現しています。エンドツーエンド設計、優れた精度対レイテンシ比、Ultralytics 強固な支援により、YOLO26は2026年における学術研究と商用展開の両方において推奨される選択肢です。

異なるアーキテクチャ上のトレードオフを必要とする開発者向けに、 YOLO11 は実績のある代替案を提供し、 RT-DETRGPU環境において高い精度を提供します。


コメント