YOLO11 vs YOLOX：包括的な技術比較

最適な物体検出モデルを選択することは、開発者や研究者にとって極めて重要な決定であり、精度、推論速度、導入の容易さのバランスを取ることを目的としている。この技術分析では Ultralytics YOLO11とMegviiの先駆的なアンカーフリー検出器であるYOLOXとの詳細な比較を行う。YOLOXは2021年に重要なイノベーションを導入したが、YOLO11 11は次世代のコンピュータビジョンを象徴し、強化された汎用性、優れた性能指標、統一された開発エコシステムを提供する。

Ultralytics YOLO11：ビジョンAIの新基準

YOLO11 、Ultralytics リアルタイムコンピュータービジョンの可能性を再定義するために発表した、名高いYOLO シリーズの最新フラッグシップモデルです。YOLO11 、前モデルの遺産を基に、特徴抽出能力と処理効率を大幅に向上させるアーキテクチャの改良を導入しています。

著者: Glenn Jocher、Jing Qiu
組織Ultralytics
日付: 2024-09-27
GitHub：https://github.com/ultralytics/ultralytics
ドキュメントhttps://docs.ultralytics.com/models/yolo11/

アーキテクチャーとコア能力

YOLO11 、計算コストと検出精度のトレードオフを最適化する最先端のアンカーフリーアーキテクチャを利用している。バウンディングボックス回帰のみに依存する従来のモデルとは異なり、YOLO11 11はマルチタスクフレームワークである。YOLO11は、物体検出、インスタンス分割、姿勢推定、画像分類、方向バウンディングボックス（OBB）検出など、幅広い視覚タスクをネイティブにサポートします。

すべてのタスクの統一API

YOLO11 、サポートされるすべてのタスクに単一のPython インターフェースを使用することで、開発ワークフローを簡素化します。検出からセグメンテーションへの切り替えは、異なるモデルウェイトファイル（例、 yolo11n-seg.pt)。

主な利点

最先端のパフォーマンス： YOLO11 より高い性能を達成 mAPCOCO ベンチマークにおいて、YOLO11はより少ないパラメータで、以前の反復や競合と比較してより高いmAPスコアを達成しました。
幅広い汎用性：同じコードベース内でセグメンテーション、分類、姿勢推定を実行できるため、複数のフレームワークを学ぶ必要がない。
展開の柔軟性：モデルは以下のようなフォーマットへシームレスにエクスポートします。 ONNX, TensorRTCoreML、TFLiteフォーマットでシームレスにエクスポートされるため、エッジデバイスからクラウドGPUまで、さまざまなハードウェアとの互換性が保証されます。
ユーザー中心の設計： 使いやすさを重視し、開発者は最小限のコードでモデルのトレーニング、検証、デプロイを行うことができます。

YOLO11の詳細について。

YOLOX：アンカーフリーのパイオニア

2021年にMegviiからリリースされたYOLOXは、物体検出の状況に変革をもたらした。当時一般的だったアンカーベースのアプローチ（YOLOv4やYOLOv5）とは一線を画し、アンカーフリーのメカニズムと非結合型ヘッド構造を採用した。

著者: Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sun
組織メグヴィ
Date: 2021-07-18
Arxiv:https://arxiv.org/abs/2107.08430
GitHub：https://github.com/Megvii-BaseDetection/YOLOX
ドキュメントhttps://yolox.readthedocs.io/en/latest/

建築ハイライト

YOLOXは、分類タスクと回帰タスクを異なるブランチに分離した、非結合型ヘッドを特徴としている。この設計とSimOTAラベル割り当て戦略を組み合わせることで、アンカーボックスのハイパーパラメータを手動で調整する複雑さを伴わずに、強力な性能を達成することができた。

強みと限界

Anchor-Free Design: アンカーを削除することで、YOLOXはトレーニングパイプラインを簡素化し、さまざまなオブジェクト形状にわたる一般化を改善しました。
堅実なベースライン：アンカーフリーの検出方法を研究するための貴重な基準点であることに変わりはない。
限られた範囲： YOLO11異なり、YOLOXは主にオブジェクト検出器であり、セグメンテーションやポーズ推定のような複雑な下流タスクをネイティブにサポートしていません。
エコシステムの断片化：オープンソースではあるが、Ultralytics エコシステムに見られるような、統一され、活発にメンテナンスされているツールがないため、統合やデプロイに手作業が必要になることが多い。

YOLOXの詳細について。

パフォーマンス分析

次の表は、COCO データセットにおける主要な性能指標の直接比較です。YOLO11 、効率性において明らかな優位性を示しており、同等の計算要件または削減された計算要件で、著しく高い精度mAP）を実現しています。

モデル	サイズ ^{(ピクセル)}	mAP^値 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

指標の内訳

精度 (mAP): YOLO11はすべてのモデルスケールでYOLOXを上回っています。例えば、YOLO11sは47.0 mAPを達成し、YOLOX-m (46.9 mAP)がYOLOX-mの約3倍のFLOPsを持つより大きなモデルクラスであるにもかかわらず、それを上回っています。
推論速度： YOLO11 11は最新のハードウェア・アクセラレーションに最適化されている。T4GPU TensorRTを使用した場合、YOLO11nのクロックは1.5ミリ秒となり、高速リアルタイム推論に最適です。
効率：YOLO11mは、わずか20.1Mのパラメータで51.5mAP 高精度を達成した。対照的に、最大のYOLOX-xモデルは、51.1mAP低い精度を達成するために99.1Mのパラメータを必要とし、パラメータ効率における YOLO11 アーキテクチャの優位性が浮き彫りになりました。

テクニカル・ディープ・ダイブ

トレーニング方法とエコシステム

最も大きな違いの一つは、トレーニングと開発の経験にある。Ultralytics 、合理化されたユーザー体験を優先し、機械学習ライフサイクルの各段階を簡素化する包括的なエコシステムを提供しています。

使いやすさ： YOLO11 、以下のコードを数行書くだけでトレーニングできる。 ultralytics Python パッケージまたは堅牢なコマンドライン・インターフェイスCLI）。このアクセシビリティは、通常リポジトリのクローンや複雑なコンフィギュレーション・セットアップを必要とするYOLOXとは対照的だ。
トレーニングの効率化： Ultralytics 、トランスファー学習を加速させる高品質で事前訓練された重みを提供します。トレーニングパイプラインは高度に最適化されており、自動バッチサイズ調整やマルチGPU 分散トレーニングなどの機能をすぐにサポートします。
メモリの使用 YOLO11 モデルは、学習時と推論時の両方でメモリ効率が高くなるように設計されている。これは、古いアーキテクチャや重いトランスフォーマーベースのモデルに対する決定的な利点であり、CUDA メモリが制限されているコンシューマーグレードのハードウェアやエッジデバイスで YOLO11 実行することを可能にします。

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

汎用性と実世界での応用

YOLOXが専用の物体検出器であるのに対し、YOLO11 総合的なビジョン・プラットフォームとして機能する。

マルチモーダル機能：開発者はタスクを組み合わせることで、複雑な問題に取り組むことができます。例えば、ロボット工学アプリケーションでは、物体検出を使用して物体を見つけ、姿勢推定を使用して把持のための姿勢を決定することがYOLO11 。
整備されたエコシステム： Ultralytics モデルは、活発なコミュニティと頻繁なアップデートの恩恵を受けています。Ultralytics HUBのような機能は、データ管理、モデルのトレーニング、デプロイメントを容易にし、断片的なオープンソースプロジェクトにはないレベルのサポートを提供します。

理想的なユースケース

Ultralytics YOLO11を選択する場合

YOLO11 、その性能バランスとエコシステムのサポートにより、大多数の商業および研究用途に推奨される選択肢である。

リアルタイム・エッジAI：その低レイテンシーと高効率は、NVIDIA Jetson、Raspberry Pi、携帯電話などのデバイスへの展開に最適です。
複雑な視覚システム：検出と同時にセグメンテーション、トラッキング、姿勢推定を必要とするプロジェクトは、統一されたフレームワークの恩恵を受ける。
エンタープライズソリューション：信頼性、豊富なドキュメント、積極的なメンテナンスにより、プロダクショングレードのソフトウェアの安定した基盤を保証します。

YOLOXを検討する時期

YOLOXは、特定のニッチ・シナリオにおいて、依然として関連性を保っている：

学術研究： アンカーフリーdetectorにおけるデカップルドヘッドの特定の影響を研究している研究者は、YOLOXをベースライン比較として使用することがあります。
レガシーシステム：特定のYOLOXコードベースと密接に統合された既存のパイプライン（例えば、MegEngineの実装）は、リファクタリングコストを避けるために、YOLOXを使い続けるかもしれません。

結論

YOLOXは、アンカーフリーの物体検出の普及に重要な役割を果たしたが、Ultralytics YOLO11 、現代のコンピュータビジョン開発における優れた選択肢である。

YOLO11 、あらゆる重要な指標においてYOLOXを凌駕しています。より正確で、大幅に速く、はるかにパラメータ効率が高いのです。Ultralytics エコシステムは、純粋な性能だけでなく、比類のない使いやすさ、堅牢なドキュメント、多目的なマルチタスク機能によって、開発者に力を与えます。ラピッドプロトタイピングでも大規模な産業展開でも、YOLO11 11は最先端のAIソリューション構築に必要なツールとパフォーマンスを提供します。

その他のモデル比較

YOLO11 他の主要モデルとの比較をご覧ください：