YOLOX対YOLO11:高性能オブジェクト検出の徹底解説
コンピュータビジョンの進化は、高い精度と推論速度を両立させるリアルタイムオブジェクト検出フレームワークの追求によって大きく牽引されてきました。この歩みにおける最も注目すべきマイルストーンとして、YOLOXとUltralytics YOLO11が挙げられます。両モデルは分野に多大な貢献を果たしてきましたが、そのアーキテクチャ、設計思想、開発者エコシステムは大きく異なります。
本稿では、アーキテクチャ、性能指標、学習手法、そして理想的な展開シナリオについて包括的に比較し、次の人工知能プロジェクトに向けた情報に基づいた意思決定を支援します。
YOLOXの概要
2021年7月18日にMegviiの研究者であるZheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sunによって発表されたYOLOXは、YOLOシリーズにおける重要な転換点となりました。アンカーフリー設計を導入することで、学術研究と産業応用の間のギャップを埋めることに成功しました。
詳細な技術的背景については、オリジナルのYOLOX Arxiv論文をご確認ください。
主要なアーキテクチャの特長
YOLOXは、デカップルドヘッドとアンカーフリーメカニズムを採用することで、従来のアンカーベースの検出から脱却しました。この設計により、設計パラメータの数が削減され、さまざまなベンチマークにおけるモデルの性能が向上しました。さらに、SimOTAなどの高度なラベル割り当て戦略を導入し、学習プロセスの加速と収束の改善を実現しました。
YOLOXは当時として優れた精度を提供しますが、主にバウンディングボックスによるオブジェクト検出に焦点を当てており、標準状態では他の複雑なビジョンタスクに対するネイティブなサポートが不足しています。
定義済みのアンカーボックスを排除することで、YOLOXはデータセットごとに必要とされるヒューリスティックな調整を劇的に削減し、アンカーフリー手法の研究における強力なベースラインとなりました。
Ultralytics YOLO11の概要
2024年9月27日にUltralyticsのGlenn JocherとJing QiuによってリリースされたYOLO11は、コンピュータビジョンにおける汎用性と使いやすさを再定義する最先端モデルです。長年の基礎研究の上に構築されており、洗練された本番環境対応のソリューションとして、多岐にわたるタスクで卓越した性能を発揮します。
Ultralyticsの利点
YOLO11は単なるオブジェクト検出器ではありません。インスタンスセグメンテーション、画像分類、姿勢推定、そして指向性バウンディングボックス(OBB)検出をサポートする統合フレームワークです。速度、パラメータ数、精度のシームレスなバランスを優先した、非常に効率的なアーキテクチャを誇ります。
さらに、YOLO11はUltralytics Platformに完全に統合されており、データアノテーション、モデル学習、展開のための効率的なエコシステムを提供します。
パフォーマンスとメトリクスの比較
これらのモデルを比較すると、パフォーマンスのバランスは明らかです。YOLO11は、ほとんどのサイズカテゴリにおいて、YOLOXと比較して大幅に少ないパラメータとFLOPsで、より高いmAPを達成しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
実証されている通り、YOLO11モデルは、より軽量なパラメータ数を維持しながら、精度において一貫してYOLOXを上回ります。例えば、YOLO11mはわずか20.1Mパラメータで51.5 mAPを達成する一方、YOLOXxは同等の51.1 mAPを達成するために99.1Mパラメータという膨大なリソースを必要とします。この学習および推論時のメモリ効率の高さにより、YOLO11は、RT-DETRのような古いモデルやTransformerベースのモデル特有の重いCUDAメモリ要件を回避し、エッジAIデバイスへのデプロイに非常に適しています。
Ultralyticsモデルは、YOLOXやTransformerベースのアーキテクチャと比較して学習時のGPUメモリ消費量が大幅に少なく、一般的なコンシューマー向けハードウェアで強力なモデルを学習させることが可能です。
エコシステムと使いやすさ
両フレームワークの最も顕著な違いの一つは、開発者体験にあります。
YOLOXでは、リポジトリのクローン作成、複雑な環境構築、モデルをONNXやTensorRTなどの形式へエクスポートするための冗長なコマンドライン引数の実行が頻繁に必要となります。
対照的に、Ultralytics YOLO11は非常にシンプルなPython APIとCLIを提供します。Ultralyticsライブラリは、データ拡張、ハイパーパラメータチューニング、エクスポートを自動的に処理します。
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")This well-maintained ecosystem is backed by extensive documentation and seamless integration with tools like Weights & Biases for experiment tracking.
理想的な使用ケース
これらのモデルの選択は、展開環境の特性に左右されることがよくあります。
YOLOXを使用すべき場合
- レガシーシステム: MegEngineフレームワークや、2021年初頭のオブジェクト検出パラダイムに基づいて明示的に構築された既存のパイプラインがある場合。
- 学術的なベースライン: 2021年時代の基盤となるアンカーフリーアーキテクチャに対して直接ベンチマークを行う必要がある研究を行う場合。
YOLO11を使用すべき場合
- 本番環境への展開: スマートリテールやセキュリティ警報システムなど、堅牢で保守されたコードと高精度が必須条件となる商用アプリケーションにおいて。
- マルチタスクパイプライン: オブジェクトの追跡、人間の姿勢推定、インスタンスのセグメンテーションを単一の統合フレームワークで行う必要があるプロジェクトにおいて。
- リソースに制約のあるエッジデバイス: パラメータ数が少なくスループットが高いため、YOLO11はRaspberry Piや、CoreMLおよびNCNNを介したモバイルエッジノードへの展開に最適です。
展望:YOLO26の優位性
YOLO11はYOLOXから飛躍的な進歩を遂げましたが、コンピュータビジョンの分野は急速に進化しています。現在、新しいプロジェクトを開始する開発者には、**Ultralytics YOLO26**を強く推奨します。
2026年1月にリリースされたYOLO26は、YOLO11のアーキテクチャの輝きを受け継ぎ、いくつかの画期的な機能を導入しています。
- エンドツーエンドのNMSフリー設計: YOLO26は非最大値抑制(NMS)の後処理を排除し、推論をネイティブにストリーミングすることで、より高速かつシンプルな展開パイプラインを実現します(このコンセプトはYOLOv10で初めて探求されました)。
- 最大43%高速なCPU推論: Distribution Focal Loss (DFL)の排除により、YOLO26はCPUや低消費電力のエッジデバイス上で飛躍的に効率化されています。
- MuSGDオプティマイザ: Moonshot AIによるLLM学習の革新から着想を得たMuSGDオプティマイザにより、極めて安定した学習実行と高速な収束が保証されます。
- 高度な損失関数: ProgLoss + STALを活用することで、YOLO26は小さなオブジェクトの認識において著しい改善を達成しており、ドローン画像や自律型ロボット工学において極めて重要です。
最新のコンピュータビジョンのタスクの大半において、パイプラインをYOLO26にアップグレードすることで、速度、精度、展開の容易さの究極のバランスが得られます。