YOLOv7 YOLOXの詳細な技術比較
急速に進化するコンピュータビジョンの中で、YOLO (You Only Look Once)モデルファミリーは一貫してリアルタイムの物体検出の基準を設定してきました。この歴史における2つの重要なマイルストーン YOLOv7とYOLOXである。どちらのモデルもスピードと精度のバランスを目指していますが、そのアーキテクチャ哲学、特にアンカーベースとアンカーフリーの方法論において大きく異なっています。
このガイドでは、研究者やエンジニアが特定のコンピュータ・ビジョン・アプリケーションに適したツールを選択できるよう、詳細な技術比較を行います。各ツールのアーキテクチャを分析し、性能をベンチマークし、以下のような最新の代替ツールの理由を探ります。 Ultralytics YOLO11のような最新の代替ツールが優れた開発者体験を提供する理由を探ります。
パフォーマンス指標:スピードと正確さ
物体検出器を評価する場合、推論レイテンシと平均平均精度mAP)のトレードオフが最も重要です。下の表は、COCO データセットにおける YOLOv7 YOLOXの直接比較です。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
結果の分析
このデータは、配備の制約に応じて、各モデルファミリーの明確な利点を浮き彫りにしている。 YOLOv7は、ハイパフォーマンス・ブラケットにおいて卓越した効率性を示している。例えば、YOLOv7lは、わずか36.9Mのパラメーターで51.4%のmAP達成し、YOLOXx(51.1%のmAP、99.1Mのパラメーター)を凌駕する一方で、使用する計算リソースは大幅に少なくなっています。このことから、YOLOv7 、GPU 効率が重要であるがメモリに制約があるシナリオの有力な候補となります。
逆に、YOLOXは軽量カテゴリーで輝きを放っている。YOLOX-Nanoモデル(0.91Mパラメータ)は、最小の標準YOLO モデルでさえ重すぎるかもしれない超低消費電力エッジ・デバイスに実行可能なソリューションを提供します。スケーラブルな深度幅乗算器により、幅広いハードウェア・プロファイルできめ細かなチューニングが可能です。
YOLOv7:最適化された福袋
2022年7月にリリースされたYOLOv7 、推論コストをかけずにトレーニングプロセスを最適化するために設計された、いくつかのアーキテクチャ上の革新を導入した。
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織: Institute of Information Science, Academia Sinica, Taiwan
- Date: 2022-07-06
- 論文Arxivリンク
- GitHub:YOLOv7 リポジトリ
建築ハイライト
YOLOv7 、「訓練可能な自由形式の袋(trainable bag-of-freebies)」-訓練中に精度を向上させ、推論中に削除または統合される最適化手法-に焦点を当てている。主な特徴は以下の通り:
- E-ELAN(Extended Efficient Layer Aggregation Network):最短・最長の勾配パスを制御することで、モデルの多様な特徴学習能力を高める改良型バックボーン構造。
- モデルのスケーリング:単純に深さや幅をスケーリングするのではなく、YOLOv7 連結ベースのモデルに対して複合的なスケーリング方法を採用し、アップスケーリング中も最適な構造を維持する。
- 補助ロスヘッド(Auxiliary Head Coarse-to-Fine):学習時に補助ロスヘッドを使用し、スーパービジョンを補助する。
再パラメータ化
YOLOv7 、計画的なリパラメータ化を利用し、異なるトレーニングモジュールを数学的に統合して、推論用の単一の畳み込み層にする。これにより、トレーニング中に得られた特徴学習能力を犠牲にすることなく、推論の待ち時間が大幅に短縮される。
YOLOX:アンカーフリーの進化
2021年に発表されたYOLOXは、アンカーボックスからアンカーフリーのメカニズムへと移行し、セマンティック・セグメンテーションのアプローチに似た、YOLO パラダイムのシフトを表している。
- 著者: Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sun
- 組織: Megvii
- Date: 2021-07-18
- 論文Arxivリンク
- GitHub:YOLOXリポジトリ
建築ハイライト
YOLOXは、YOLOv4やYOLOv5ような以前のバージョンで一般的なペインポイントであった、手動によるアンカーボックスのチューニングの必要性をなくすことで、検出パイプラインを簡素化した。
- アンカーフリーのメカニズム:オブジェクトの中心を直接予測することで、YOLOXはアンカーに関連する複雑なハイパーパラメータを排除し、多様なデータセットでの汎化を向上させる。
- 分離されたヘッド:分類とローカリゼーションを1つのヘッドで行っていた以前のYOLO バージョンとは異なり、YOLOXはそれらを分離している。これにより、収束が速くなり、精度が向上します。
- SimOTA:分類と回帰の損失を効果的にバランスさせながら、最も低いコストで正サンプルをグランドトゥルースに動的に割り当てる高度なラベル割り当て戦略。
Ultralytics 選ばれる理由
YOLOv7 YOLOXはアーキテクチャが異なりますが、使いやすさとエコシステムのサポートでは、どちらも最新のUltralytics YOLO モデルが上回っています。堅牢で将来性のあるソリューションを求めている開発者にとって、YOLO11への移行は非常に有効です。 YOLO11への移行は明確な利点を提供します。
1.統一されたエコシステムと使いやすさ
YOLOv7 YOLOXは、しばしば特定のGitHubリポジトリのクローン、複雑な依存関係の管理、データの異なるフォーマットの利用を必要とする。対照的に、Ultralytics すべてのタスクを統合するpipインストール可能なパッケージを提供している。
from ultralytics import YOLO
# Load a model (YOLO11n recommended for speed)
model = YOLO("yolo11n.pt")
# Train on a custom dataset with a single line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
2.優れたパフォーマンス・バランス
ベンチマークに示されているように、最新のUltralytics モデルは、速度と精度の間のより良いトレードオフを達成している。 YOLO11は、YOLOX(アンカーフリー設計)とYOLOv7 (勾配経路最適化)の両方の進歩から学んだ、最適化されたアンカーフリーアーキテクチャーを利用しています。その結果、CPU 推論が高速化されるだけでなく、学習時に必要なCUDA メモリも少なくなり、より幅広いハードウェアで利用できるモデルになりました。
3.タスクを超えた多用途性
YOLOv7 YOLOXは主に物体検出用に設計されている。Ultralytics モデルは、APIを変更することなく、この機能を一連のコンピュータビジョンタスクにネイティブに拡張します:
- インスタンス分割:ピクセルレベルのオブジェクト理解。
- 姿勢推定:人体のキーポイントを検出する。
- 回転物体検出(OBB):回転した物体を検出する(航空画像など)。
- 分類:画像全体にクラスラベルを割り当てること。
4.シームレスな展開とMLOps
旧来のフレームワークでは、モデルを研究から生産に移すことは困難です。Ultralytics エコシステムには、ONNX、TensorRT、CoreML、OpenVINO用のエクスポートモードが組み込まれており、モデルのデプロイを簡素化します。さらに、Ultralytics HUBとの統合により、ウェブベースのデータセット管理、リモートトレーニング、エッジデバイスへのワンクリックデプロイが可能になります。
結論
YOLOv7 YOLOXはともに、コンピュータ・ビジョンの分野に大きく貢献している。 YOLOv7は、GPU デバイス上で最高のパフォーマンスを発揮するようにアーキテクチャを最適化し、「bag-of-freebies」アプローチの効率を最大化した。YOLOXは、アンカーフリー検出の実行可能性を実証し、パイプラインを簡素化し、汎化性を向上させることに成功した。
しかし、最新の開発ワークフローでは Ultralytics YOLO11は、優れた選択肢として際立っている。これは、比類のないPython API、より低いメモリ要件、および包括的な範囲のビジョンタスクのサポートと、その前任者のアーキテクチャの強みを兼ね備えています。エッジデバイスにデプロイする場合でも、クラウドサーバーにデプロイする場合でも、Ultralytics エコシステムの活発なコミュニティと広範なドキュメントが、本番環境へのスムーズなパスを保証します。
その他のモデルを見る
さらに技術的な比較にご興味があれば、以下のリソースをご覧いただきたい:
- YOLOv7 vs.YOLOv8:世代を超えたパフォーマンスの飛躍を見る。
- RT-DETR 対YOLOv7:トランスフォーマーとCNNの比較。
- YOLO11 YOLOv10比較:リアルタイム検出における最新の進歩。