YOLO26 vs. YOLOX: リアルタイム物体検出の進化
急速に進化するコンピュータビジョンの分野において、アプリケーションに適したモデルを選択することは極めて重要です。本ガイドでは、エッジおよびリアルタイムアプリケーション向けの最新の最先端モデルであるUltralytics YOLO26と、Megviiが2021年にリリースした高性能なYOLOXの技術的な詳細比較を行います。これらのアーキテクチャ、性能指標、および展開への適合性を分析し、プロジェクトにおける情報に基づいた意思決定を支援します。
モデルの概要
技術的な詳細に入る前に、各モデルの開発を推進する起源と核となる哲学を理解することが不可欠です。
Ultralytics YOLO26
UltralyticsのGlenn JocherとJing Qiuによって2026年1月にリリースされたYOLO26は、効率性と使いやすさにおいて大きな進歩を遂げています。エッジおよび低電力デバイス向けに特別に設計されており、ネイティブなエンドツーエンドのNMS-freeアーキテクチャを導入しています。この設計により、展開パイプラインにおける一般的なボトルネックであるNon-Maximum Suppression (NMS) の後処理が不要になります。
主な革新点としては、Moonshot AIのKimi K2に触発されたMuSGD optimizerが挙げられます。これは、大規模言語モデル (LLM) の学習技術をビジョンタスクに応用したものです。また、エクスポートプロセスを合理化するためにDistribution Focal Loss (DFL) を削除しています。先行モデルと比較して最大43%高速なCPU inferenceを実現しており、GPUアクセラレーションなしで高速性が求められるシナリオでYOLO26は優れています。
YOLOX
2021年にMegviiの研究者によって開発されたYOLOXは、YOLOファミリー内でanchor-free検出パラダイムを普及させた極めて重要なリリースでした。予測ヘッドをデカップリングし、ラベル割り当てにSimOTAを利用することで、YOLOXは競争力のある精度を達成し、CVPR 2021ワークショップのStreaming Perception Challengeで優勝しました。そのクリーンな設計と高性能なGPU環境での有効性により、研究コミュニティでは今もなお高く評価されているモデルです。
パフォーマンス比較
物体検出器を評価する際、速度 (レイテンシ) と精度 (mAP) のトレードオフは極めて重要です。YOLO26は両方の指標で顕著な優位性を示しており、特にCPUベースのハードウェアにおいて顕著です。
メトリック分析
以下の表は、COCO datasetにおける様々なモデルスケールの性能を示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
性能の解釈
YOLO26は、精度 (mAP) の点で、すべてのスケールにおいてYOLOXを一貫して上回っています。例えば、YOLO26sは48.6 mAPを達成しており、YOLOX-sの40.5 mAPと比較して、同サイズのモデルとしては大幅な改善です。さらに、YOLO26のネイティブなエンドツーエンド設計により、記載されている速度は総推論時間を反映していますが、従来のベンチマークではNMS時間が除外されることがよくあります。
アーキテクチャの主な違い
1. エンドツーエンド vs. 後処理
最も決定的な違いの一つは、推論パイプラインです。
- YOLO26: ネイティブなエンドツーエンド。高度な学習技術を用いることで、Non-Maximum Suppression (NMS) を必要とせずに正確な数の物体を予測します。NMSはNPUやエッジプロセッサでの高速化が困難なことが多いため、これは展開において画期的な進歩です。
- YOLOX: NMSに依存。ヘッドを簡素化するためにanchor-freeメカニズムを導入しましたが、生の出力には依然として重複するボックスが含まれており、これらをフィルタリングする必要があります。これにより、TensorRTやCoreMLなどの形式へのモデルエクスポート時にレイテンシと複雑さが増します。
2. 損失関数と最適化
YOLO26は、ProgLoss (Progressive Loss Balancing) とSTAL (Small-Target-Aware Label Assignment) を導入しています。これらの革新は、以前の検出器における一般的な弱点であった小物体検出を特にターゲットとしています。さらに、YOLO26はSGDとMuonのハイブリッドであるMuSGD optimizerを利用しており、YOLOXで使用されている標準的なオプティマイザよりもはるかに速く学習を安定させます。
3. エッジ最適化
YOLO26は、Distribution Focal Loss (DFL) モジュールを明示的に削除しています。DFL(YOLOv8のようなモデルで使用)はボックスの精度を向上させますが、特定のハードウェアでは処理が遅くなる可能性のある操作に依存しています。これを削除することで、YOLO26は最大43%高速なCPU推論を実現し、Raspberry Pi、モバイルCPU、その他のリソース制約のある環境において優れた選択肢となります。
使いやすさとエコシステム
開発者にとって、モデルの「ソフトな」機能、すなわちドキュメント、APIの品質、およびサポートは、純粋な性能指標と同じくらい重要です。
Ultralyticsの利点
YOLO26は、堅牢なUltralyticsエコシステムに統合されています。これにより、以下が保証されます:
- シンプルなpython API: 3行のコードでロード、学習、デプロイが可能です。
- 汎用性: 主に検出器であるYOLOXとは異なり、YOLO26はインスタンスセグメンテーション、姿勢推定、Oriented Bounding Boxes (obb)、および分類をすぐにサポートします。
- メンテナンス: 頻繁なアップデート、充実したドキュメント、およびGitHubとDiscordを通じた活発なコミュニティサポート。
YOLOXエコシステム
YOLOXは堅牢なPyTorch実装を提供し、ONNXやTensorRTのようなフォーマットをサポートしています。しかし、トレーニングと推論には、 ultralytics パッケージと比較して一般により多くのボイラープレートコードが必要となります。そのエコシステムはあまり集中化されておらず、Ultralyticsモデルに標準で付属するデータ拡張やデプロイスクリプトをユーザーが手動で処理する必要があることがよくあります。
コード比較
使いやすさの違いは、コードを通じて最もよく示されます。
UltralyticsによるYOLO26のトレーニング:
from ultralytics import YOLO
# Load model and train on COCO8 dataset
model = YOLO("yolo26n.pt")
model.train(data="coco8.yaml", epochs=100, imgsz=640)
YOLOXのトレーニング (標準実装):リポジトリのクローン、特定の要件のインストール、特定のディレクトリ構造でのデータセットの準備、および複雑なCLIコマンドの実行が必要です。
# Example YOLOX training command (conceptual)
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -o -c yolox_s.pth
理想的なユースケース
YOLO26を選択すべき時
- エッジデプロイメント: TensorRTやNPUアクセラレーションが制限されているモバイルデバイス、IoTセンサー、またはCPUにデプロイする場合。
- 複雑なタスク: プロジェクトが標準のdetectに加えて、segment、姿勢推定、または回転したオブジェクト (obb) の検出を必要とする場合。
- 迅速な開発: データセット管理の組み込みサポートを備えた、安定した十分に文書化されたAPIを使用して迅速に反復する必要がある場合。
- 小オブジェクト検出: 航空画像や品質管理など、小さなターゲットの予測が重要となるアプリケーション。
YOLOXを検討すべき時
- レガシー研究: 2021年から2022年の学術的な結果で、元のYOLOX論文に対して具体的にベンチマークを行っているものを再現する場合。
- 特定のカスタマイズ: 特定のYOLOXアーキテクチャを中心に大幅にカスタマイズされた既存のパイプラインがあり、移行コストが法外である場合。
結論
YOLOXはアンカーフリーのオブジェクト検出の歴史において重要なマイルストーンであり続けていますが、YOLO26は、現代のAIアプリケーション向けにより包括的なソリューションを提供します。そのネイティブなエンドツーエンドアーキテクチャ、優れた精度と速度の比率、そしてUltralyticsエコシステムの支援により、YOLO26は、新規プロジェクトと既存のデプロイメントのアップグレードの両方において推奨される選択肢です。
MuSGDトレーニングの安定性、DFLフリーの効率性、およびタスクの多様性の組み合わせにより、YOLO26はオブジェクトをより速くdetectするだけでなく、トレーニングからデプロイメントまでの機械学習ライフサイクル全体を簡素化します。
参考資料
YOLOファミリーの他のモデルを検討することに興味がある方は、以下を確認してください:
- YOLO11: YOLO26の先行モデルであり、優れたパフォーマンスと幅広い互換性を提供します。
- YOLOv10: NMSフリーのトレーニングを導入した最初のイテレーションであり、YOLO26の進歩への道を開きました。
- YOLO World: トレーニングセットに存在しないオブジェクトをdetectする必要があるオープンボキャブラリー検出タスク向け。