YOLOv7 vs YOLOX:詳細な技術比較
最適な物体検出モデルを選択することは、コンピュータービジョンプロジェクトにとって重要な決定です。最高のパフォーマンスを実現するには、さまざまなアーキテクチャの特定の長所と短所を理解することが重要です。このページでは、2 つの影響力のあるモデルである YOLOv7 と YOLOX の技術的な比較を提供し、アーキテクチャのニュアンス、パフォーマンスベンチマーク、および理想的なデプロイメントシナリオについて詳しく説明します。
YOLOv7:高精度かつ効率的な検出
YOLOv7は2022年7月に発表され、トレーニング効率と推論速度の両方を最適化することで、リアルタイム物体検出器の新たな標準を急速に確立しました。要求の厳しいアプリケーションにおいて、速度と精度のバランスを取る上で重要な一歩を踏み出しました。
著者: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
所属: Institute of Information Science, Academia Sinica, Taiwan
日付: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
ドキュメント: https://docs.ultralytics.com/models/yolov7/
アーキテクチャと主な機能
YOLOv7 は、論文で詳述されているいくつかのアーキテクチャの革新を導入しました。主要なコンポーネントは、勾配パスを中断することなくネットワークの学習能力を高め、特徴抽出を改善する Extended Efficient Layer Aggregation Network (E-ELAN) です。このモデルは、連結ベースのモデルに適した高度なスケーリング技術も採用しており、「trainable bag-of-freebies」を利用しています。これらは、計画的な再パラメータ化畳み込みや粗から密への補助損失など、推論のコストを増加させることなく精度を向上させるトレーニングの強化です。これらの機能により、YOLOv7 は、競争力のあるモデルサイズで物体検出において最先端の結果を達成できます。
パフォーマンスとユースケース
YOLOv7 は、高速な推論と高い精度の両方が要求されるシナリオで優れた性能を発揮します。その優れた mAP と速度指標により、リアルタイムビデオ分析、自動運転システム、高解像度画像処理などのアプリケーションに最適です。スマートシティの展開において、YOLOv7 は交通管理や、即時の脅威検出のためのセキュリティシステムの強化に利用できます。
長所と短所
- 長所: 検出精度と推論速度のバランスが取れています。推論時の計算量を大幅に増やすことなく、パフォーマンスを向上させるための高度な学習テクニック("bag-of-freebies")を採用しています。アーキテクチャには、E-ELANのような最先端のモジュールが組み込まれています。
- 弱点: アーキテクチャとトレーニングプロセスは、YOLOv5のようなより単純なモデルと比較して、より複雑になる可能性があります。大規模なYOLOv7モデルのトレーニングも、推論は高速なままですが、かなりの計算リソースを必要とします。
YOLOX:アンカーフリーの卓越性
2021年にMegviiによって導入されたYOLOXは、アンカーフリー設計で際立っており、トレーニングプロセスを簡素化し、一般化を強化することを目指しています。YOLOXは、定義済みのアンカーボックスから離れることで、オブジェクトの位置を直接予測し、オブジェクト検出への異なるアプローチを提供します。
著者: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
所属: Megvii
日付: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
ドキュメント: https://yolox.readthedocs.io/en/latest/
アーキテクチャと主な機能
YOLOXは、いくつかの主要なアーキテクチャの革新を採用しています。アンカーフリーのアプローチにより、アンカーボックスの必要性がなくなり、設計の複雑さと計算コストが削減されます。これにより、さまざまなオブジェクトサイズとアスペクト比への適応性が高まり、COCOのような多様なデータセットでのパフォーマンスが向上する可能性があります。また、分類とローカリゼーションのためにデカップリングされたヘッドを採用しており、これにより収束が速くなり、精度が向上します。YOLOXは、MixUpやMosaicのような強力なデータ拡張技術と、SimOTA(Simplified Optimal Transport Assignment)と呼ばれる高度なラベル割り当て戦略を利用して、トレーニング効率をさらに向上させています。
パフォーマンスとユースケース
YOLOXは、速度と精度の間で良好なバランスを実現しています。そのアンカーフリーの性質は、オブジェクトのスケールが大幅に異なるアプリケーションに特に適しています。ロボティクスやエッジAIの展開など、効率的で正確な検出を必要とするタスクにとって強力な候補です。たとえば、製造業では、YOLOXを品質検査に使用して、多様なオブジェクト形状に対する堅牢性を活用して欠陥検出を行うことができます。
長所と短所
- 長所: アンカーフリー設計により、実装と学習パイプラインが簡素化されます。強力なデータ拡張とアンカーフリーアプローチにより、新しいデータセットへの汎化が向上します。デカップリングされたヘッドとアンカーフリーの性質が、効率的な推論に貢献します。
- 弱点: 効率的ですが、特にYOLOv7の最適化されたバージョンや、YOLOv8のような新しいUltralyticsモデルと比較して、すべてのYOLOモデルの中で最速ではない可能性があります。さらに、統合されたUltralyticsエコシステムの一部ではないため、Ultralytics HUBのようなツールとのシームレスな統合が欠けている可能性があります。
性能とベンチマーク:YOLOv7 vs. YOLOX
この2つを比較すると、YOLOv7は一般的にその大型モデルでより高い精度(mAP)を達成し、リリース当時はリアルタイム検出器の最先端を押し上げました。一方、YOLOXは、非常に小型のYOLOX-Nanoから大型のYOLOX-Xまで、より幅広いスケーラブルなモデルを提供します。YOLOXのアンカーフリー設計は、シンプルさと一般化において利点を提供する可能性がありますが、YOLOv7の「bag-of-freebies」アプローチは、推論のオーバーヘッドを追加せずに精度を最大化します。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
結論と推奨事項
YOLOv7とYOLOXはどちらも強力な物体検出モデルであり、この分野に大きく貢献してきました。YOLOv7は、リアルタイム速度で可能な限り最高の精度を達成することが主な目標であるアプリケーションに最適です。YOLOXは、汎化に優れ、さまざまな計算予算に適した高度にスケーラブルなモデルファミリーを提供する、説得力のあるアンカーフリーの代替手段を提供します。
ただし、最新で汎用性が高く、ユーザーフレンドリーなフレームワークを求めている開発者および研究者にとって、YOLOv8 や Ultralytics YOLO11 のような新しい Ultralytics YOLO モデルは、多くの場合、より魅力的な選択肢となります。これらのモデルは、いくつかの重要な利点を提供します。
- 使いやすさ: シンプルなPython API、充実したドキュメント、そして簡単なCLIコマンドによる合理化されたユーザーエクスペリエンス。
- 充実したエコシステム: 活発な開発、強力なオープンソースコミュニティ、頻繁なアップデート、そしてエンドツーエンドのMLOpsのためのUltralytics HUBのようなツールとのシームレスな統合。
- 多様性: セグメンテーション、分類、ポーズ推定、傾斜物体検出(OBB)など、物体検出以外の複数のビジョンタスクをサポートします。
- パフォーマンスバランス: 速度と精度の間で優れたトレードオフを実現し、エッジデバイスからクラウドサーバーまで、多様な現実世界のシナリオに適しています。
- Training Efficiency: 効率的な学習プロセス、すぐに利用できる事前学習済みの重み、そしてより速い収束時間。
その他のモデルを見る
さらに検討を深めるには、YOLOv7、YOLOX、およびその他の関連モデルを含むこれらの比較をご検討ください。
- YOLOv7 vs YOLOv8
- YOLOv5 vs. YOLOX
- RT-DETR vs. YOLOv7
- YOLOv10やYOLO11のような最新モデルをご覧ください。