コンテンツにスキップ

YOLO11 YOLOX:アーキテクチャの進化と性能分析

コンピュータビジョンの急速に進化する環境において、適切な物体検出モデルを選択することはプロジェクトの成功に極めて重要です。この道のりにおける二つの重要なマイルストーンは YOLO11とYOLOXです。YOLOXが2021年に画期的なアンカーフリー概念を導入した一方、YOLO11 2024年末リリース)は現代的なアーキテクチャ改良、優れた効率性、Ultralytics 堅牢なサポートにより、これらの概念をさらに洗練させています。

このガイドは、リアルタイムのエッジデプロイメントから高精度なサーバーサイド分析まで、開発者、研究者、エンジニアが特定のニーズに最適なモデルを選択するための詳細な技術比較を提供します。

概要

YOLO11Ultralytics長年にわたる反復的な改良の集大成です。汎用性に優れ、検出、セグメンテーション、姿勢推定、および方向付き境界ボックス(OBB)のネイティブサポートを提供します。そのアーキテクチャは最新のハードウェア向けに最適化されており、従来のモデルと比較してFLOPあたりの精度が向上しています。

Megviiが2021年に開発したYOLOXはアンカーボックス不要の検出パラダイムを普及させた画期的なリリースであった。アンカーボックスを排除することで学習プロセスを簡素化し、MixUp 高度なデータ拡張技術を導入した。依然として高性能な検出器ではあるが、Ultralytics 特徴とするマルチタスク能力やシームレスなデプロイメントパイプラインには欠けている。

今日、新たなプロジェクトを始める開発者にとって、 YOLO11 または最先端のYOLO26が一般的に推奨されます。これらは優れた性能効率比と使いやすさを兼ね備えているためです。

技術比較指標

以下の表は、さまざまなモデルサイズにおける2つのアーキテクチャの性能差を比較したものです。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

パフォーマンス分析

YOLO11mは、最大規模のYOLOXx(51.1%)よりもmAP 51.5%)を達成しつつ、パラメータ数を5分の1(20.1M vs 99.1M)に削減し、T4 GPU上での実行速度を約3倍高速化しています。この劇的な効率向上により、YOLO11 規模展開においてYOLO11 コストで導入可能となります。

アーキテクチャの詳細

YOLO11:洗練された効率性と汎用性

著者:Glenn Jocher, Jing Qiu (Ultralytics)
日付:2024年9月

YOLO11 、以前のバージョンで導入されたC2f(2つの畳み込み層を持つCSPボトルネック)モジュールをYOLO11 、勾配の流れと特徴抽出を改善するために強化しています。

  • バックボーン:深さと幅のバランスを最適化したCSPベースのバックボーン。計算負荷を最小化しつつ受容野を最大化する。
  • ヘッド:大幅なアーキテクチャ変更を必要とせずに、物体検出、インスタンスセグメンテーション姿勢推定といった複数のタスクをサポートする統合型検出ヘッド。
  • アンカーフリー:YOLOXと同様に、YOLO11 アンカーフリー手法YOLO11 、設計パラメータ(アンカーサイズや比率など)の数を削減し、モデルの複雑さを簡素化します。
  • トレーニングダイナミクス: Ultralytics パイプライン内に高度なデータ拡張戦略を組み込み、多様な照明条件や遮蔽に対する頑健性を確保します。

YOLO11の詳細について。

YOLOX: アンカーフリーの先駆者

著者:鄭格ら(Megvii)
日付:2021年7月

YOLOXは、研究コミュニティと産業応用との間のギャップを埋めるために設計されました。

  • 分離型ヘッド:YOLOXは分類と回帰タスクを別々のブランチで処理する分離型ヘッド構造を導入した。これにより収束速度と精度が向上することが確認された。
  • SimOTA:ラベル割り当てにおける重要な革新は「簡略化最適輸送割り当て」(SimOTA)であった。この動的戦略は、固定IoU よりも効果的に、真値オブジェクトを予測値に割り当てる。
  • アンカーフリー機構:アンカーボックスを排除することで、YOLOXはYOLO (v2-v5)における共通の課題であった手動アンカー調整の必要性を解消した。
  • 強力な拡張:モザイクとMixUp を多用したことで、YOLOXはゼロから効果的に学習できた。

YOLOXの詳細について。

エコシステムと使いやすさ

開発者にとって最も重要な要素の一つは、モデルを取り巻くソフトウェアエコシステムである。これは、モデルがどれほど容易に学習、検証、展開できるかを決定づける。

Ultralyticsの利点

YOLO11 、成熟し、活発にメンテナンスされているUltralytics YOLO11 。この統合により、いくつかの明確な利点が得られます:

  1. 統一API:タスク間の切り替えは簡単です。Python CLIで単一のパラメータを変更するだけで、車両検出から腫瘍のセグメンテーションへ移行できます。
  2. デプロイの柔軟性:このフレームワークには、 ONNXTensorRT、CoreML、OpenVINO。これにより、開発者はたった1行のコードでモデルを本番環境にデプロイできます。
  3. プラットフォームサポート: Ultralytics は、データセットの注釈付けからクラウドトレーニング、モデル管理に至るまでの全ライフサイクルを簡素化します。
from ultralytics import YOLO

# Load a model (YOLO11n)
model = YOLO("yolo11n.pt")

# Train on a custom dataset
# The system automatically handles data downloading and preparation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for deployment
path = model.export(format="onnx")

YOLOXエコシステム

YOLOXは主に研究リポジトリとしてホストされています。コードはオープンソースで高品質ですが、多くの場合手動での設定がより多く必要となります。ユーザーは通常、自身のデータローダーを管理し、特定のハードウェア向けにカスタムエクスポートスクリプトを記述し、Ultralytics と比較して更新頻度の低いコードベースを操作する必要があります。

現実世界のアプリケーション

これらのモデル間の選択は、多くの場合、アプリケーション環境の特定の制約条件によって決まります。

YOLO11の理想的なユースケース

  • リアルタイム動画解析:T4推論速度がわずか1.5msのYOLO11nは、交通管理やスポーツ分析向けの高FPS動画ストリーム処理に最適です。
  • マルチタスクシステム:アプリケーションが同時オブジェクト追跡と姿勢推定を必要とする場合(例:ジムワークアウト分析)、YOLO11汎用的なヘッドアーキテクチャにより、複数の重いモデルが必要なくなる。
  • 商用エッジ展開: NVIDIA Raspberry Piへのシームレスなエクスポートにより、YOLO11 商用IoT製品のYOLO11 となっています。

YOLOXの理想的な使用例

  • 学術的ベンチマーク:YOLOXは、2021年から2022年にかけて開発されたアンカーフリー検出手法を比較する研究者にとって、依然として確固たる基準点である。
  • レガシーシステム:YOLOXコードベースとカスタム統合パイプラインに既に多額の投資を行っているプロジェクトでは、移行するよりも維持する方が費用対効果が高い場合があります。
  • 特定のモバイル制約:YOLOX-Nanoモデルは極めて軽量(0.91Mパラメータ)であり、非常に制約の厳しいモバイルハードウェアに有用です。ただし、YOLO26nのような新モデルは、はるかに優れた精度を保ちつつ同等のサイズを実現しています。

未来:YOLO26の登場

最先端を求める開発者向けに、Ultralytics YOLO26(2026年1月版)リリースしました。このモデルは大幅な飛躍を遂げており、ほとんどのユースケースにおいてYOLO11 事実上凌駕しています。

YOLO26はいくつかの重要な革新を導入しています:

  • ネイティブのエンドツーエンド処理:推論速度のボトルネックとなることが多い後処理ステップである非最大抑制(NMS)を排除します。これにより、より高速で確定的な出力が実現されます。
  • MuSGDオプティマイザー:LLMのトレーニング手法に着想を得たこのオプティマイザーは、安定した収束を保証し、トレーニング時間を短縮します。
  • 効率性:YOLO26は前世代と比較して最大43%高速CPU を実現し、GPU 強力な選択肢となります。

新しいプロジェクトを開始する場合は、YOLO11と併せてYOLO26の評価を強く推奨します。

YOLO26についてさらに詳しく

結論

YOLO11 YOLOXYOLO11 ともにコンピュータビジョンの歴史に名を刻んだ。YOLOXはアンカーフリー検出の実現可能性を証明した先駆者であった。しかし、 YOLO11 は現代の開発者にとってより魅力的なパッケージを提供します:高速化、精度向上、幅広いタスクへの対応、そして開発時間を大幅に短縮するエコシステムによる支援を実現しています。

その他の検討すべきモデル

  • YOLO26:Ultralytics最新鋭モデル。エンドツーエンドNMS検出を実現。
  • RT-DETR: 高精度を実現するトランスフォーマーベースの検出器。GPU 豊富なシナリオに最適です。
  • YOLOv9: プログラマブル勾配情報(PGI)とGELANアーキテクチャで知られる。
  • YOLOv8:YOLO の信頼性が高く、広く採用されている定番モデル。

コメント