YOLOX 対 YOLO11:技術比較
適切な物体検出モデルの選択は、精度、速度、計算リソースの要求のバランスを取る上で重要な決定です。このページでは、Megviiの高性能なアンカーフリーモデルであるYOLOXと、Ultralyticsの最新の最先端モデルであるUltralytics YOLO11との詳細な技術比較を提供します。アーキテクチャの違い、パフォーマンス指標、理想的なユースケースを掘り下げ、コンピュータビジョンプロジェクトに最適なモデルを選択するためにお役立てください。
YOLOX:アンカーフリーの高性能検出器
YOLOXは、強力な性能を達成しつつ検出パイプラインを簡素化するように設計された、YOLOのアンカーフリーバージョンとしてMegviiによって導入されました。これは、定義済みのアンカーボックスの複雑さを取り除くことによって、学術研究と産業応用の間のギャップを埋めることを目的としていました。
技術詳細:
- 著者: Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sun
- 組織: Megvii
- Date: 2021-07-18
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- Docs: https://yolox.readthedocs.io/en/latest/
アーキテクチャと主な機能
YOLOXは、YOLOファミリーにいくつかの重要なイノベーションをもたらしました。
- Anchor-Free Design: YOLOXは、アンカーボックスを排除することで、設計パラメータの数を減らし、トレーニングプロセスを簡素化し、より優れた汎化性能につながる可能性があります。
- Decoupled Head: 分類タスクと回帰タスクに別々の予測ヘッドを使用します。この分離により、初期のYOLOバージョンで使用されていた結合されたヘッドと比較して、収束速度が向上し、モデルの精度を高めることができます。
- 高度なトレーニング戦略: YOLOXは、トレーニング中の動的なラベル割り当てのために、SimOTA(簡略化された最適輸送割り当て戦略)のような高度な手法を、強力なデータ拡張法とともに組み込んでいます。
長所と短所
長所:
- 高精度: YOLOXモデル、特に大規模なバリアントは、COCOデータセットのような標準的なベンチマークで、競争力のあるmAPスコアを達成しています。
- Anchor-Free Simplicity: この設計は、他の検出器でよくある問題点であるアンカーボックスを構成する必要性を排除することで、検出パイプラインを簡素化します。
- 確立されたモデル: 2021年にリリースされたモデルとして、コミュニティの支持があり、さまざまな導入事例が利用可能です。
弱点:
- 旧世代のパフォーマンス: 当時は強力でしたが、速度と精度の両面で、YOLO11のような新しいモデルに性能が追い抜かれています。
- 汎用性の制限: YOLOXは主に物体検出に重点を置いています。Ultralyticsのような最新のフレームワークで標準となっているインスタンスセグメンテーション、姿勢推定、分類のような他のビジョンタスクに対する組み込みサポートがありません。
- 外部エコシステム: 統合されたUltralyticsエコシステムの一部ではないため、ユーザーは合理化されたツール、継続的なアップデート、およびトレーニング、検証、デプロイメントに関する包括的なサポートを利用できません。
理想的なユースケース
YOLOXは、以下のような場合に有効な選択肢となります。
- 研究のベースライン: アンカーフリー検出法を研究する研究者にとって、優れたベースラインとなります。
- 産業用アプリケーション: 堅牢で十分に理解された検出器で十分な製造業における品質管理などのタスクに適しています。
Ultralytics YOLO11:最先端の汎用性とパフォーマンス
Ultralytics YOLO11は、Ultralyticsの最新のフラッグシップモデルであり、YOLOシリーズの頂点を表しています。YOLOv8などの前身の成功に基づいて構築されており、最先端のパフォーマンス、比類のない汎用性、および卓越したユーザーエクスペリエンスを提供します。
技術詳細:
- 著者: Glenn Jocher、Jing Qiu
- 組織: Ultralytics
- 日付: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- ドキュメント: https://docs.ultralytics.com/models/yolo11/
アーキテクチャと主な機能
YOLO11は、最大限の効率と精度を実現するために設計された、高度に最適化されたシングルステージ、アンカーフリーのアーキテクチャを特徴としています。
- パフォーマンスのバランス: YOLO11は、速度と精度の間で並外れたトレードオフを実現しており、エッジデバイスでのリアルタイム処理から、クラウドサーバーでの高スループット分析まで、広範なアプリケーションに適しています。
- 多様性: YOLO11の重要な利点は、そのマルチタスク機能です。単一の統合フレームワーク内で、物体検出、インスタンスセグメンテーション、画像分類、ポーズ推定、および傾斜バウンディングボックス(OBB)検出をサポートします。
- 使いやすさ: YOLO11は、シンプルなPython API、強力なCLI、および充実したドキュメントを備えた、適切にメンテナンスされたエコシステムに統合されています。これにより、初心者から専門家まで非常にアクセスしやすくなっています。
- 学習効率: このモデルは、効率的な学習プロセス、すぐに利用できる事前学習済みのウェイト、およびより低いメモリ要件の恩恵を受け、より迅速な開発サイクルを可能にします。
- 充実したエコシステム: Ultralyticsは、活発な開発、強力なコミュニティサポート、およびデータセット管理から本番環境へのデプロイメントまで、エンドツーエンドのMLOpsを実現するUltralytics HUBのようなツールとのシームレスな統合を提供します。
長所と短所
長所:
- 最先端のパフォーマンス: 高い推論速度を維持しながら、トップレベルのmAPスコアを実現します。
- 優れた効率性: 最適化されたアーキテクチャにより、YOLOXと比較して、特定の精度レベルに対してパラメータとFLOPが少なくなります。
- マルチタスク対応: 単一のYOLO11モデルでさまざまなビジョンタスクに対応できるように学習できるため、他に類を見ない柔軟性が得られます。
- ユーザーフレンドリーなフレームワーク: Ultralyticsのエコシステムは、開発ライフサイクル全体を簡素化します。
- 活発な開発とサポート: Ultralyticsからの継続的なアップデート、大規模なコミュニティ、およびプロフェッショナルなサポートの恩恵を受けています。
弱点:
- ワンステージ検出器として、密集したシーンで極端に小さいオブジェクトや大きく遮られたオブジェクトの検出に課題が生じる可能性があり、これはこのクラスのモデルに共通の制限事項です。
- YOLO11xのような最大のモデルは、最大の精度を達成するためにかなりの計算リソースを必要としますが、その性能レベルに対しては依然として非常に効率的です。
理想的なユースケース
YOLO11は、幅広い最新のアプリケーションに最適な選択肢です。
- 自律システム: リアルタイム認識でロボティクスや自動運転車を強化。
- スマートセキュリティ: 高度な監視システムと盗難防止を実現します。
- 産業オートメーション: 品質管理の自動化とリサイクル効率の向上。
- 小売分析: 在庫管理の最適化と顧客行動の分析。
性能の直接対決:YOLOX vs. YOLO11
COCOデータセットでのパフォーマンスを比較すると、YOLO11の進歩が明確になります。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOX-Nano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOX-Tiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOX-s | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOX-m | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOX-l | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOX-x | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
YOLO11は、全体的に優れたパフォーマンスを示しています。たとえば、YOLO11sは、YOLOX-m(46.9)よりも高いmAP(47.0)を、パラメータ数が半分以下で、FLOPが大幅に少ない状態で達成しています。さらに印象的なことに、YOLO11mは、最大のYOLOX-xモデルの精度(51.5 mAP対51.1 mAP)を上回りながら、はるかに効率的です(20.1Mパラメータ対99.1M)。
速度の点では、YOLO11モデルは非常に高速で、特にTensorRT最適化を備えたGPUでは高速です。YOLO11nは、わずか1.5ミリ秒の推論時間で、軽量モデルの新しい標準を打ち立てています。さらに、Ultralyticsは、YOLOXベンチマークにはない、多くの現実世界のデプロイメントにとって重要な要素である、明確なCPUパフォーマンスベンチマークを提供します。
結論: どのモデルを選ぶべきか?
YOLOXはアンカーフリー物体検出器の開発に重要な貢献をしましたが、Ultralytics YOLO11は、ほぼすべての現代的なユースケースにとって明確な勝者です。精度、速度、計算効率の優れた組み合わせを提供します。
YOLO11 の利点は、生のメトリクスをはるかに超えています。包括的な Ultralytics エコシステムへの統合により、生産性が大幅に向上します。そのマルチタスクの汎用性、使いやすさ、アクティブなメンテナンス、および広範なサポートにより、YOLO11 は開発者と研究者が高度なコンピュータビジョンソリューションをより迅速かつ効果的に構築および展開できるようにします。最先端のパフォーマンスとシームレスな開発エクスペリエンスを必要とする新しいプロジェクトには、YOLO11 が推奨される選択肢です。
その他のモデル比較
YOLOXとYOLO11と他の主要モデルとの比較にご興味があれば、以下の比較ページをご覧ください。
- YOLOv10 vs YOLOX
- YOLOv8 vs YOLOX
- RT-DETR vs YOLOX
- YOLO11 vs YOLOv10
- YOLO11 vs YOLOv8
- YOLO11 vs EfficientDet
- YOLO11 vs RT-DETR