コンテンツにスキップ

YOLOX対YOLOv7:詳細な技術比較

物体検出モデルを使いこなすには、アーキテクチャのニュアンスと性能のトレードオフを深く理解する必要があります。このガイドでは、YOLOXとYOLOv7このガイドでは、コンピュータビジョンの分野を大きく形成した2つの影響力のあるアーキテクチャであるYOLOXとYOLOv7の包括的な技術比較を行います。その構造的な革新性、ベンチマーク指標、実用的なアプリケーションを調査し、プロジェクトに最適なものを判断できるようにします。両モデルとも、それぞれの発売当時は最先端の進歩でしたが、現代の開発者は、統合されたワークフローと最先端のパフォーマンスを求めて、Ultralytics エコシステムに注目することがよくあります。

性能直接対決

モデルを選択する際、平均平均精度mAP)と推論レイテンシのバランスがしばしば決め手となります。YOLOXは、NanoからXまでのスケーラビリティの高いモデルファミリーを提供し、アンカーフリー設計によるシンプルさを重視しています。逆に、YOLOv7 、高度なアーキテクチャの最適化により、リアルタイムアプリケーションのスピードと精度のトレードオフを最大化することに重点を置いています。

モデルサイズ
(ピクセル)
mAP
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

データは明確な強みを示している。YOLOXnanoは非常に軽量であるため、リソースが極端に制限された環境に最適です。しかし、高性能なシナリオでは、YOLOv7xが優れた精度(53.1%mAP)と効率を示し、T4 GPU上で、浮動小数点演算(FLOP)を大幅に減らし、推論時間を短縮しながら、YOLOXxよりも高精度を実現します。

YOLOX:アンカー・フリー・デザインによるシンプルさ

YOLOXは、YOLO シリーズのパラダイムシフトを象徴するもので、アンカーベースのメカニズムを捨て、アンカーフリーのアプローチを採用した。この設計上の選択により、トレーニング・プロセスが簡素化され、しばしば領域特有のヒューリスティック最適化を必要とする、手作業によるアンカーボックスのチューニングが不要になりました。

アーキテクチャと主要なイノベーション

YOLOXは、分類タスクと回帰タスクを分離した非結合型ヘッド構造を統合している。この分離により、モデルは物体が何であるかを認識するための特徴量と、物体がどこにあるかを認識するための特徴量とを区別して学習することができ、収束の高速化と精度の向上につながります。さらに、YOLOXはSimOTAという先進的なラベル割り当て戦略を採用しており、ポジティブサンプルをグラウンドトゥルースのオブジェクトに動的にマッチングさせることで、混雑したシーンにおけるモデルのロバスト性を向上させています。

アンカーフリーとアンカーベース

従来のYOLO モデル(YOLOX以前)は、事前に定義された「アンカーボックス」を使用してオブジェクトの寸法を予測していました。YOLOXのアンカーフリー手法は、ピクセルの位置から直接バウンディングボックスを予測し、ハイパーパラメータの数を減らし、モデルをより多様なデータセットに一般化する。

使用例と限界

YOLOXは、大規模なハイパーパラメータチューニングを行うことなく、さまざまなハードウェアプラットフォームへのモデル展開を合理化する必要があるシナリオで優れています。YOLOXの軽量バージョン(Nano/Tiny)は、モバイル・アプリケーションに人気があります。しかし、より大きなスケールでのピーク性能は、YOLOv7 や YOLO11より複雑な特徴集約ネットワークを利用する。

YOLOXの詳細について。

YOLOv7:「おまけ袋」大国

YOLOXの1年後にリリースされたYOLOv7 、学習プロセスを最適化し、"学習可能なフリー素材 "によって純粋に推論結果を向上させることを目的とした一連のアーキテクチャ改革を導入した。

アーキテクチャと主要なイノベーション

YOLOv7 7の中核は、拡張効率的レイヤ集約ネットワーク(E-ELAN)である。このアーキテクチャにより、ネットワークは最短および最長の勾配パスを制御することで、より多様な特徴を学習することができ、非常に深いネットワークでも効果的な収束を実現します。さらに、YOLOv7 、連結ベースのモデルのために特別に設計されたモデル・スケーリング技術を利用し、モデルの深さと幅を増加させることで、リターンを減少させることなく、パフォーマンスの向上に線形に変換することを保証します。

YOLOv7 また、トレーニング中に補助ヘッドを効果的に使用し、粗目から細目への監視を提供する。これは、展開時に計算コストを追加することなく、主検出ヘッドの精度を向上させるテクニックである。

使用例と限界

その卓越したスピード対精度比により、YOLOv7 、ミリ秒単位が重要視されるリアルタイムのビデオ解析やエッジコンピューティングタスクの最有力候補です。YOLOv7は、標準的なGPU ハードウェア(V100やT4など)で可能なことの限界を押し広げました。しかし、そのアーキテクチャの複雑さゆえに、標準的な物体検出以外のカスタムタスクのための修正や微調整が難しい場合があります。

YOLOv7もっと知る

Ultralytics 優位性なぜモダナイズするのか?

YOLOXとYOLOv7 有能なツールであることに変わりはないが、コンピュータ・ビジョンの分野は急速に進歩している。現代の開発者や研究者は、以下のようなモデルを持つUltralytics エコシステムをますます好むようになっています。 YOLO11YOLOv8その包括的なサポート、統一されたデザイン、使いやすさから、Ultralyticsエコシステムを好むようになってきています。

合理化された開発者エクスペリエンス

古いモデルの最大のハードルの一つは、コードベースの断片化です。Ultralytics 、すべてのモデルのバージョンで一貫して動作する統一されたPython APIとCLI 提供することで、これを解決します。1行のコードで検出、セグメンテーション、分類を切り替えることができます。

from ultralytics import YOLO

# Load a model (YOLO11 or YOLOv8)
model = YOLO("yolo11n.pt")  # or "yolov8n.pt"

# Run inference on an image
results = model("path/to/image.jpg")

# Export to ONNX for deployment
model.export(format="onnx")

Ultralytics 主な利点

  • 汎用性:主に検出に焦点を当てたYOLOXやYOLOv7異なり、Ultralytics モデルはインスタンスのセグメンテーションポーズ推定分類指向性オブジェクト検出(OBB)をすぐにサポートします。
  • 整備されたエコシステム:頻繁なアップデートにより、PyTorch、CUDA、Python最新バージョンとの互換性が確保されています。活発なコミュニティと詳細なドキュメントにより、環境の問題のデバッグに費やす時間を短縮できます。
  • パフォーマンス・バランス: YOLO11 ようなモデルは最新の最先端であり、YOLOXやYOLOv7優れた精度と低レイテンシーを提供します。エッジデバイスからクラウドサーバーまで、多様なハードウェア上でのリアルタイム推論に最適化されている。
  • トレーニングの効率化: Ultralytics モデルは収束が速くなるように設計されており、貴重なGPU 時間を節約できます。事前に訓練された重みは様々なタスクですぐに利用できるため、転移学習は簡単です。
  • メモリ要件: RT-DETRようなトランスフォーマーベースのモデルに比べ、学習や推論に必要なVRAMが少ないため、コンシューマーグレードのハードウェアで利用可能です。

YOLO11の詳細について。

結論

YOLOXとYOLOv7 ともに、コンピュータビジョンの歴史にその名を刻んでいる。YOLOXは、アンカーフリーアプローチを民主化し、理解しやすく小型デバイスに導入しやすい簡素化されたパイプラインを提供した。 YOLOv7は性能の限界を押し広げ、効率的なアーキテクチャ設計が速度と精度の大幅な向上をもたらすことを証明した。

しかし、現在、プロダクショングレードのAIシステムを構築している人たちには、次のような製品をお勧めします。 Ultralytics YOLOファミリーだ。YOLOファミリーは YOLO11を使用することで、MLOの複雑な問題を処理する、多用途で堅牢、かつユーザーフレンドリーなプラットフォームを利用できるようになり、現実の問題解決に集中できるようになります。

その他の比較

モデル選択の参考とするために、関連する比較をご覧ください:


コメント