YOLO11 vs YOLOX:高性能物体検出の進化

コンピュータビジョンの分野ではここ数年で急速な進歩が見られ、リアルタイム物体検出モデルはますます高度化しています。本番環境や学術研究のためにアーキテクチャを選択する際、開発者はしばしばレガシーなマイルストーンと最先端のイノベーションの間でトレードオフを検討します。この包括的な比較では、Ultralytics YOLO11 とMegviiのYOLOXの違いを探り、それぞれのアーキテクチャ、性能指標、および理想的なデプロイシナリオについて深い洞察を提供します。

アーキテクチャの概要

両モデルとも物体検出における重要な飛躍を表していますが、異なる設計哲学に基づいており、異なる開発者体験を対象としています。

YOLO11: 多彩なマルチタスクエンジン

2024年9月にUltralyticsのGlenn JocherとJing QiuによってリリースされたYOLO11は、高い精度と極めて高い効率を両立する統合フレームワークとして設計されています。

YOLO11は標準的なバウンディングボックスを超え、インスタンスセグメンテーション画像分類姿勢推定、およびOBB (Oriented Bounding Box) 検出をネイティブでサポートしています。その洗練されたアーキテクチャは特徴抽出を最適化し、複雑な空間階層全体でより優れた特徴保持を保証します。

YOLO11の詳細はこちら

YOLOX: アンカーフリーのパイオニア

Megviiの研究者によって開発されたYOLOXは、純粋なアンカーフリーの手法を採用することで、研究と産業応用の間のギャップを埋め、2021年に大きな注目を集めました。

YOLOXはデカップリングヘッドとアンカーフリーのパラダイムを導入し、リリース当時は設計パラメータの数を大幅に削減して学術ベンチマークでの性能を向上させました。

YOLOXについて詳しく学ぶ

ご存知でしたか?

YOLOXによって一般化されたアンカーフリー設計は、その後の多くのアーキテクチャにインスピレーションを与えました。Ultralyticsは、YOLOv8やYOLO11といった後のイテレーションでこれらのアンカーフリーの概念を取り入れ、大幅に改良することで、優れた精度とデプロイの柔軟性を提供しています。

パフォーマンスとメトリクス

検出モデルを評価する際、パラメータのバランス、計算コスト (FLOPs)、およびmAP (mean Average Precision) を検討することは、実社会でのモデルデプロイにおいて非常に重要です。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

表に示すように、YOLO11xYOLOXxを絶対精度において大幅に上回っており (54.7 mAP 対 51.1 mAP)、必要なパラメータ数はほぼ半分です (56.9M 対 99.1M)。この効率性は、学習および推論時のメモリ要件の低減につながり、本番環境にとって大きな利点となります。

エコシステムと開発者体験

Ultralyticsの利点

YOLO11とYOLOXの最も深遠な違いの一つはユーザビリティにあります。YOLOXは主に研究用のコードベースとして動作し、複雑な環境構築、C++オペレーターの手動コンパイル、そしてカスタムデータセットの学習を開始するための冗長なコマンドライン引数が必要となります。

これとは対照的に、YOLO11はUltralytics Pythonパッケージに完全に統合されており、効率化された「ゼロから始める」ワークフローを提供します。Ultralytics Platformは、データアノテーション、実験追跡、クラウドベースの学習のための豊富なツールを提供し、ボイラープレートコードを抽象化するため、エンジニアはモデルの性能向上に集中できます。

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model effortlessly using the Ultralytics API
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")

さらに、UltralyticsモデルをTensorRT、CoreML、またはOpenVINOといったフォーマットへエクスポートするのに必要なのは単一のコマンドのみです。一方、レガシーなリポジトリでは、多くの場合、複雑なサードパーティツールや手動でのグラフ操作が必要となります。

実際のユースケース

YOLOXを検討すべき場合

YOLOXは、その特定のデカップリングヘッドのテンソル出力に基づいて、高度にカスタマイズされたC++推論パイプラインをすでに構築済みであるレガシー環境において、有効な選択肢であり続けます。さらに、2021年時点の最先端アーキテクチャとの比較研究を行う研究者は、引き続きベンチマークデータセットのベースラインとしてYOLOXを利用します。

YOLO11が優れている点

ほぼすべての現代的な本番シナリオにおいて、YOLO11は遥かに優れた体験を提供します。

  • スマートシティおよび小売: YOLO11は卓越した速度と精度の比率により、混雑したシーンを難なく処理し、自動小売分析や交通管理システムを大規模なGPUクラスターなしで動かします。
  • Edge Computing: The high memory efficiency and robust export options make YOLO11 perfect for edge AI deployments on devices like Raspberry Pi or NVIDIA Jetson platforms.
  • 複雑なパイプライン: プロジェクトが物体検出とポーズキーポイント(スポーツ分析など)や精密なインスタンスセグメンテーション(医療画像など)の組み合わせを必要とする場合、YOLO11は一つの統合APIを通じてすべてのタスクをネイティブに処理します。

ユースケースと推奨事項

YOLO11とYOLOXのどちらを選ぶかは、プロジェクト固有の要件、デプロイの制約、およびエコシステムの好みによって決まります。

YOLO11を選択すべき場合

YOLO11は次のような場合に強力な選択肢です:

  • 本番環境のエッジデプロイメント: 信頼性と積極的なメンテナンスが最優先される、Raspberry PiNVIDIA Jetsonなどのデバイス上での商用アプリケーション。
  • マルチタスクビジョンアプリケーション: 単一の統合フレームワーク内で、検出セグメンテーションポーズ推定、およびOBBを必要とするプロジェクト。
  • 迅速なプロトタイピングとデプロイメント: 合理化されたUltralytics Python APIを使用して、データ収集から本番環境まで迅速に移行する必要があるチーム。

YOLOXを選択すべき場合

YOLOXは以下の場合に推奨されます:

  • アンカーフリー検出の研究: YOLOXのクリーンでアンカーフリーなアーキテクチャを、新しい検出ヘッドや損失関数の実験のためのベースラインとして使用する学術研究。
  • 超軽量エッジデバイス: マイクロコントローラーやレガシーなモバイルハードウェアへのデプロイ。YOLOX-Nanoバリアントの極めて小さなフットプリント(0.91Mパラメータ)が不可欠な場合。
  • SimOTAラベル割り当ての研究: 最適輸送ベースのラベル割り当て戦略と、それが学習の収束に与える影響を調査する研究プロジェクト。

Ultralytics (YOLO26) を選択すべき場合

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:

  • NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
  • 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。

今後の展望:YOLO26の力

YOLO11は非常に優れた選択肢ですが、AIの状況は常に加速しています。効率と安定性の究極を求めるチームにとって、YOLO26(2026年1月リリース)は、新しいコンピュータビジョンプロジェクトにとって究極の推奨モデルです。

YOLO26は、エンドツーエンドのNMSフリー設計を実装することで大きな飛躍を遂げました。NMS (Non-Maximum Suppression)の後処理を排除することにより、レイテンシのばらつきを完全になくし、デプロイロジックを劇的に簡素化しました。これはYOLOv10で初めて開拓されたコンセプトです。

さらに、YOLO26はDFL除去(Distribution Focal Loss)を特徴としており、アーキテクチャを最適化することで最大43%高速なCPU推論を達成し、低電力およびエッジデバイス向けの疑いのない勝者となっています。また、学習の安定性もMuSGDオプティマイザによって強化されています。これは、SGDとMuonのLLMに着想を得たハイブリッドであり、収束を加速させます。ProgLoss + STALのような高度な損失関数と組み合わせることで、YOLO26はドローン画像やIoTエッジセンサーなどの困難な環境下で小物体を検出する際に威力を発揮します。

さらなる探求

物体検出アーキテクチャの知識を広げたいですか?YOLO-Worldのオープンボキャブラリー機能を探索するか、Ultralyticsエコシステムで文書化されているTransformerベースのRT-DETRモデルを詳しく調べてみてください。

結論として、YOLOXは2021年に重要なアーキテクチャの概念を導入しましたが、包括的なツールセット、メモリ効率、そしてYOLO11の最先端性能、さらにはYOLO26の革新的なアーキテクチャにより、Ultralyticsエコシステムは今日の研究者やエンタープライズ開発者にとって明白な選択肢となっています。

コメント