コンテンツにスキップ

YOLOX対YOLO11:高性能物体検出の深層分析

コンピュータビジョンの進化は、高い精度と推論速度のバランスを保つリアルタイム物体検出フレームワークの追求によって大きく推進されてきた。この道のりにおける最も顕著なマイルストーンとして、YOLOXとUltralytics YOLO11が挙げられる。両モデルともこの分野に大きく貢献しているが、その基盤となるアーキテクチャ、設計思想、開発者エコシステムは大きく異なっている。

この包括的な技術比較では、各AIモデルのアーキテクチャ、性能指標、トレーニング手法、および最適な導入シナリオを検証し、次の人工知能プロジェクトにおける情報に基づいた意思決定を支援します。

YOLOXの概要

2021年7月18日、Megviiの研究者である鄭格(Zheng Ge)、劉松涛(Songtao Liu)、王峰(Feng Wang)、李澤明(Zeming Li)、孫健(Jian Sun)によって発表されたYOLOXは、YOLO における重要な転換点となった。アンカーフリー設計の導入により、学術研究と産業応用との間の隔たりを埋めることに成功した。

より技術的な背景については、オリジナルのYOLOX Arxiv論文を参照してください。

主要なアーキテクチャ機能

YOLOXは、分離されたヘッドとアンカーフリー機構を採用することで、従来のアンカーベース検出から脱却した。この設計により設計パラメータ数が削減され、様々なベンチマークにおけるモデルの性能が向上した。さらに、SimOTAのような高度なラベル割り当て戦略を導入し、学習プロセスの加速と収束性の改善を実現した。

YOLOXはその時代において優れた精度を提供しますが、主にバウンディングボックスによる物体検出に焦点を当てており、他の複雑なビジョンタスクに対するネイティブなサポートは標準では備えていません。

YOLOXの詳細について。

アンカーフリー設計

事前定義されたアンカーボックスを排除することで、YOLOXは異なるデータセットに必要なヒューリスティック調整を大幅に削減し、アンカーフリー手法の研究における強力なベースラインとなった。

Ultralytics YOLO11の概要

2024年9月27日、Glenn JocherとJing Qiuにより公開 UltralyticsによってYOLO11 、コンピュータビジョンにおける汎用性と使いやすさを再定義する最先端YOLO11 。長年にわたる基礎研究を基盤として構築され、高度に洗練された実運用可能なソリューションを提供し、多様なタスクにおいて卓越した性能を発揮します。

Ultralyticsの利点

YOLO11 単なる物体検出器YOLO11 インスタンスセグメンテーション画像分類姿勢推定および方向付き境界ボックス(OBB)検出をサポートする統合フレームワークです。速度、パラメータ数、精度のシームレスなバランスを最優先した、非常に効率的なアーキテクチャを誇ります。

さらに、YOLO11 Ultralytics に完全に統合YOLO11 、データアノテーション、モデルトレーニング、デプロイメントのための合理化されたエコシステムを提供します。

YOLO11の詳細について。

パフォーマンスとメトリクスの比較

これらのモデルを比較すると、性能のバランスが明らかになる。YOLO11 、ほとんどのサイズカテゴリにおいて、YOLOXの対応モデルと比較して、パラメータ数とFLOPsを大幅に削減しながら、より高い平均精度(mAP)YOLO11 。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

実証された通り、YOLO11 パラメータ数を抑えつつ、精度において一貫してYOLOXを上回っている。 例えば、YOLO11mはわずか20.1Mパラメータで 51.5mAPを達成する一方、YOLOXxは同等の51.1mAP を達成mAP 膨大な99.1Mパラメータを必要とする。このトレーニング時および推論時のメモリ効率により、YOLO11 エッジAIデバイスへの展開にYOLO11 適しており、古いモデルやTransformerベースCUDA モデル(例: RT-DETRのような古いモデルやトランスフォーマーベースのモデルに典型的な重いCUDAメモリ要件を回避します。

効率的なトレーニング

Ultralytics 、YOLOXやトランスフォーマーベースのアーキテクチャと比較して、トレーニング中に必要とするGPU 大幅に少ないため、研究者は標準的なコンシューマー向けハードウェア上で強力なモデルをトレーニングできます。

エコシステムと使いやすさ

両フレームワークの最も顕著な違いの一つは、開発者体験である。

YOLOXでは、モデルをトレーニングしONNXなどの形式にエクスポートするために、リポジトリのクローン作成、複雑な環境設定、冗長なコマンドライン引数の実行が頻繁に必要となります。 ONNXTensorRTなどの形式にエクスポートするために、リポジトリのクローン作成、複雑な環境のセットアップ、

対照的に、 Ultralytics YOLO11 は驚くほどPython CLIを提供します。Ultralytics はデータ拡張ハイパーパラメータ調整、エクスポートを自動的に処理します。

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")

このよく整備されたエコシステムは、広範なドキュメントと、以下のようなツールとのシームレスな統合によって支えられています。 Weights & Biasesなどのツールとのシームレスな連携によって支えられています

理想的なユースケース

これらのモデル間の選択は、多くの場合、導入環境の具体的な状況によって決まります。

YOLOXの使用タイミング

  • レガシーシステム:MegEngineフレームワークまたは2021年初頭の物体検出パラダイムを明示的に基盤とした確立されたパイプラインをお持ちの場合。
  • 学術的基準線:2021年当時の基盤となるアンカーフリーアーキテクチャとの直接的なベンチマークを必要とする研究を実施する場合。

YOLO11の使用タイミング

  • 本番環境へのデプロイ: スマート小売セキュリティ警報システムなどの商用アプリケーションにおいて、堅牢でメンテナンスされたコードと高い精度が必須条件となる場合。
  • マルチタスクパイプライン:単一の統合フレームワークを用いて、物体の追跡、人間の姿勢推定、インスタンスのセグメンテーションを同時に必要とするプロジェクトにおいて。
  • リソース制約のあるエッジデバイス:パラメータ数が少なくスループットが高いため、YOLO11 Raspberry Piやモバイルエッジノードへの展開にYOLO11 。 CoreML および NCNNを介したデプロイに最適です。

展望:YOLO26の優位性

YOLO11 YOLOXから飛躍的な進化YOLO11 が、コンピュータビジョン分野は急速に進歩している。今日新たなプロジェクトを始める開発者にとって、 Ultralytics が最善の選択肢です。

2026年1月にリリースされたYOLO26は、YOLO11 優れたアーキテクチャを継承しつつYOLO11 いくつかの画期的な機能を導入しています:

  • エンドツーエンドNMS設計:YOLO26はノンマキシマムサプレッション(NMS)後処理を排除し、ネイティブストリーミング推論により高速かつ簡素なデプロイメントパイプラインを実現(この概念は YOLOv10)。
  • 最大43%高速CPU :分布焦点損失(DFL)の除去により、YOLO26はCPUおよび低消費電力エッジデバイス上で大幅な効率化を実現。
  • MuSGDオプティマイザー:Moonshot AIのLLMトレーニング革新に着想を得たMuSGDオプティマイザーは、極めて安定したトレーニング実行と迅速な収束を保証します。
  • 高度な損失関数:ProgLossとSTALを活用することで、YOLO26は小型物体認識において顕著な改善を達成した。これはドローン画像処理や自律ロボット技術において極めて重要である。

現代のコンピュータビジョンタスクの大半において、YOLO26を活用するようパイプラインをアップグレードすれば、速度、精度、導入の簡便性の面で絶対的な最適バランスが得られます。


コメント