YOLOX対YOLO11：高性能物体検出の深層分析

コンピュータビジョンの進化は、高い精度と推論速度のバランスを保つリアルタイム物体検出フレームワークの追求によって大きく推進されてきた。この道のりにおける最も顕著なマイルストーンとして、YOLOXと Ultralytics YOLO11が挙げられる。両モデルともこの分野に大きく貢献しているが、その基盤となるアーキテクチャ、設計思想、開発者エコシステムは大きく異なっている。

この包括的な技術比較では、各AIモデルのアーキテクチャ、性能指標、トレーニング手法、および最適な導入シナリオを検証し、次の人工知能プロジェクトにおける情報に基づいた意思決定を支援します。

YOLOXの概要

2021年7月18日、Megviiの研究者である鄭格（Zheng Ge）、劉松涛（Songtao Liu）、王峰（Feng Wang）、李澤明（Zeming Li）、孫健（Jian Sun）によって発表されたYOLOXは、YOLO における重要な転換点となった。アンカーフリー設計の導入により、学術研究と産業応用との間の隔たりを埋めることに成功した。

より技術的な背景については、オリジナルのYOLOX Arxiv論文を参照できます。

主要なアーキテクチャ機能

YOLOXは、分離されたヘッドとアンカーフリー機構を採用することで、従来のアンカーベース検出から脱却した。この設計により設計パラメータ数が削減され、様々なベンチマークにおけるモデルの性能が向上した。さらに、SimOTAのような高度なラベル割り当て戦略を導入し、学習プロセスの加速と収束性の改善を実現した。

YOLOXはその時代において優れた精度を提供しますが、主にバウンディングボックスによる物体検出に焦点を当てており、他の複雑なビジョンタスクに対するネイティブなサポートは標準では備えていません。

YOLOXの詳細について。

アンカーフリー設計

事前定義されたアンカーボックスを排除することで、YOLOXは異なるデータセットに必要なヒューリスティックチューニングを大幅に削減し、アンカーフリー手法の研究における強力なベースラインとなりました。

Ultralytics YOLO11の概要

2024年9月27日、Glenn JocherとJing Qiuにより公開 UltralyticsによってYOLO11 、コンピュータビジョンにおける汎用性と使いやすさを再定義する最先端YOLO11 。長年にわたる基礎研究を基盤として構築され、高度に洗練された実運用可能なソリューションを提供し、多様なタスクにおいて卓越した性能を発揮します。

Ultralyticsの利点

YOLO11 単なる物体検出器YOLO11 インスタンスセグメンテーション、画像分類、姿勢推定、および方向付き境界ボックス（OBB）検出をサポートする統合フレームワークです。速度、パラメータ数、精度のシームレスなバランスを最優先した、非常に効率的なアーキテクチャを誇ります。

さらに、YOLO11 Ultralytics に完全に統合YOLO11 、データアノテーション、モデルトレーニング、デプロイメントのための合理化されたエコシステムを提供します。

YOLO11の詳細について。

パフォーマンスとメトリクスの比較

これらのモデルを比較すると、性能のバランスが明らかになる。YOLO11 、ほとんどのサイズカテゴリにおいて、YOLOXの対応モデルと比較して、パラメータ数とFLOPsを大幅に削減しながら、より高い平均精度（mAP）YOLO11 。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

示されているように、YOLO11モデルは、より少ないパラメータフットプリントを維持しながら、精度においてYOLOXを一貫して上回ります。例えば、YOLO11mはわずか20.1Mパラメータで51.5 mAPを達成する一方、YOLOXxは同様の51.1 mAPを達成しますが、膨大な99.1Mパラメータを必要とします。トレーニングおよび推論時のこのメモリ効率により、YOLO11はエッジAIデバイスへの展開に非常に適しており、RT-DETRのような古いモデルやトランスフォーマーベースのモデルに典型的な重いCUDAメモリ要件を回避できます。

効率的なトレーニング

Ultralytics 、YOLOXやトランスフォーマーベースのアーキテクチャと比較して、トレーニング中に必要とするGPU 大幅に少ないため、研究者は標準的なコンシューマー向けハードウェア上で強力なモデルをトレーニングできます。

エコシステムと使いやすさ

両フレームワークの最も顕著な違いの一つは、開発者体験である。

YOLOXでは、モデルをトレーニングしONNXなどの形式にエクスポートするために、リポジトリのクローン作成、複雑な環境設定、冗長なコマンドライン引数の実行が頻繁に必要となります。 ONNX や TensorRTなどの形式にエクスポートするために、リポジトリのクローン作成、複雑な環境のセットアップ、

対照的に、 Ultralytics YOLO11 は驚くほどPython CLIを提供します。Ultralytics はデータ拡張、ハイパーパラメータ調整、エクスポートを自動的に処理します。

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")

このよく整備されたエコシステムは、広範なドキュメントと、以下のようなツールとのシームレスな統合によって支えられています。 Weights & Biases などのツールとのシームレスな連携によって支えられています。

理想的なユースケース

これらのモデルの選択は、多くの場合、デプロイ環境の具体的な内容によって決まります。

YOLOXの使用タイミング

レガシーシステム: MegEngineフレームワークまたは2021年初頭の物体検出パラダイムを中心に明示的に構築された確立されたパイプラインがある場合。
Academic Baselines: 2021年時代の基礎的なアンカーフリーアーキテクチャと直接ベンチマークを行う研究を実施する場合。

YOLO11の使用タイミング

本番環境へのデプロイ: スマートリテールまたはセキュリティアラームシステムにおける商用アプリケーションの場合、堅牢で保守されたコードと高精度が不可欠です。
マルチタスクパイプライン: 単一の統合されたフレームワークを使用して、オブジェクトのtrack、人間の姿勢推定、インスタンスのsegmentを必要とするプロジェクトの場合。
Resource-Constrained Edge Devices: YOLO11は、パラメータ数が少なくスループットが高いため、Raspberry PiやモバイルエッジノードへのCoreMLおよびNCNNを介したデプロイに最適です。

展望：YOLO26の優位性

YOLO11 YOLOXから飛躍的な進化YOLO11 が、コンピュータビジョン分野は急速に進歩している。今日新たなプロジェクトを始める開発者にとって、 Ultralytics が最善の選択肢です。

2026年1月にリリースされたYOLO26は、YOLO11 優れたアーキテクチャを継承しつつYOLO11 いくつかの画期的な機能を導入しています：

エンドツーエンドのNMSフリー設計: YOLO26はNon-Maximum Suppression (NMS)後処理を排除し、ネイティブに推論をストリーミングすることで、より高速でシンプルなデプロイメントパイプラインを実現します(これはYOLOv10で最初に探求された概念です)。
最大43%高速なCPU推論: Distribution Focal Loss (DFL) の除去により、YOLO26はCPUおよび低電力エッジデバイス上で大幅に効率的になります。
MuSGD オプティマイザ: Moonshot AIのLLMトレーニングイノベーションから着想を得たMuSGDオプティマイザは、非常に安定したトレーニング実行と迅速な収束を保証します。
Advanced Loss Functions: ProgLoss + STALを利用することで、YOLO26は小さなオブジェクトの認識において顕著な改善を達成し、ドローン画像や自律ロボティクスにとって重要です。

現代のコンピュータビジョンタスクの大多数において、パイプラインをアップグレードしてYOLO26を活用することで、速度、精度、デプロイの簡素さにおいて最高のバランスが提供されます。