Link to this sectionYOLOv7 と YOLOX の比較#

コンピュータビジョンの進化は、リアルタイム物体検出における急速な進歩によって特徴付けられてきました。この歩みにおける2つの重要なマイルストーンが YOLOv7 と YOLOX です。両モデルとも速度と精度の限界を押し広げましたが、その成果を達成するために異なるアーキテクチャの哲学を採用しました。本ガイドでは、これら2つの強力なモデルについて包括的な技術比較を提供し、コンピュータビジョンプロジェクトに適したアーキテクチャを選択するための手助けをします。

Link to this sectionモデルの紹介#

現代の機械学習運用（MLOps）においてこれらのモデルを効果的にデプロイするには、各モデルの起源と主要な設計上の選択を理解することが不可欠です。

Link to this sectionYOLOv7の詳細#

CSPNet および Scaled-YOLOv4 アーキテクチャを保守していた研究者によって開発された YOLOv7 は、推論コストを増加させることなく精度を最大化するための「学習可能な bag-of-freebies」アプローチを導入しました。

著者: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
組織: 台湾中央研究院情報科学研究所
日付: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
ドキュメント: Ultralytics YOLOv7 ドキュメント

YOLOv7の詳細はこちら

Link to this sectionYOLOX の詳細#

YOLOX は、パラダイムをアンカーフリー検出へと回帰させることで異なる道を歩み、堅牢なパフォーマンスを維持しながらヘッドのアーキテクチャを大幅に簡素化しました。

著者： Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
組織： Megvii
日付: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
ドキュメント: YOLOX 公式ドキュメント

YOLOXについて詳しく学ぶ

Link to this sectionアーキテクチャの違いと革新#

YOLOv7 と YOLOX の根本的な違いは、特徴抽出、境界ボックス予測、およびラベル割り当てに対するアプローチにあります。

Link to this sectionYOLOX：アンカーフリーの先駆者#

YOLOX は、アンカーフリー設計へ移行することで YOLO ファミリーに革命をもたらしました。従来のアンカーベースの検出器は、アンカーボックスのクラスタリングに複雑なヒューリスティックな調整を必要とし、これがデータセットに大きく依存してしまう可能性があります。アンカーボックスを排除することで、YOLOX は設計パラメータの数を大幅に削減しました。さらに、YOLOX は**デカップルドヘッド（分離型ヘッド）**を採用しており、分類タスクと位置特定タスクを別々のネットワークブランチに分離しています。これにより、物体の分類と空間座標の回帰という本来相反する問題を解決しています。また、YOLOX は学習中にポジティブサンプルを動的に割り当てる SimOTA のような高度なラベル割り当て戦略を統合しています。

Link to this sectionYOLOv7: 拡張効率的レイヤー集約#

YOLOv7 はアンカーベースの手法へ回帰しましたが、拡張効率的レイヤー集約ネットワーク (E-ELAN) を導入しました。E-ELAN は勾配パスの長さを最適化し、ネットワークが異なる深さ全体で効果的に学習できるようにします。アーキテクチャは再パラメータ化技術に大きく依存しており、推論中に畳み込み層を統合することで精度を犠牲にせずに速度を向上させます。YOLOv7 の「bag-of-freebies」戦略には、計画的な再パラメータ化畳み込みや、粗から密へのリードガイド付きラベル割り当てなどの革新が含まれており、モデルの平均適合率（mAP）を驚異的なレベルまで引き上げています。

アンカーベース vs アンカーフリー

YOLOX はアンカーフリーの設定によってデプロイメントパイプラインを簡素化しましたが、現代の Ultralytics アーキテクチャはそのアプローチを完成させ、新しい世代では事前に定義されたボックスの必要性を完全に排除しています。

Link to this sectionパフォーマンスの比較#

本番環境に向けてこれらのモデルを評価する際は、精度と計算効率のバランスをとることが不可欠です。以下の表はトレードオフを示しており、最も優れたパフォーマンス指標を太字で強調しています。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	パラメータ ^(M)	FLOPs ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

上記からわかるように、YOLOv7x は最高の mAP を達成しており、複雑なデータセットに対して非常に高い精度を誇ります。逆に、YOLOX-Nano は極端なリソース制約に対して高度に最適化されています。ただし、どちらのモデルも最新のアーキテクチャと比較すると、学習中に比較的高いメモリ消費量を示します。

Link to this sectionトレーニング方法論とエコシステム#

研究者や開発者にとって重要な要素は、実装の容易さです。歴史的に、古い YOLO バージョンでは、高度にカスタマイズされた C++ スクリプトや複雑な依存関係の管理が必要でした。

Link to this sectionUltralyticsエコシステムの利点#

今日、これらのアーキテクチャを利用する最も効果的な方法は、十分に保守された Ultralytics エコシステムを通じることです。Ultralytics は、学習、検証、デプロイメントを劇的に簡素化する、統合された直感的な Python API を提供しています。

使いやすさ: 数行のコードで学習ループを開始でき、生 PyTorch 実装に伴う急峻な学習曲線を軽減できます。
学習効率: Ultralytics YOLO モデルは、RT-DETR のような重量級の Transformer モデルと比較して、本質的に学習時のメモリ消費量が少なくなっています。これにより、開発者はコンシューマー向けハードウェアでバッチサイズを最大化できます。
汎用性: 単純な境界ボックスを超えて、エコシステムはインスタンスセグメンテーションやポーズ推定といったタスクにも難なく拡張可能です。

以下は、Ultralytics API を利用してモデルを学習する方法を示す、完全に動作する実行例です。

from ultralytics import YOLO

# Load a pre-trained model
model = YOLO("yolov8n.pt")  # Readily available weights for rapid transfer learning

# Train the model efficiently on your custom data
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    batch=16,
    device="0",  # Utilizes optimal CUDA memory management
)

# Export seamlessly to ONNX or TensorRT
model.export(format="onnx")

エクスポートパイプラインを標準化することで、開発者は重みを TensorRT や ONNX といった形式に容易に変換し、ターゲットハードウェア上で高速な推論を確保できます。

Link to this section理想的なユースケースと実世界のアプリケーション#

YOLOX と YOLOv7 のどちらを選択するかは、主にデプロイ先のターゲットに依存します。

エッジ AI 向け YOLOX: YOLOX-Nano および YOLOX-Tiny バリエーションは、低消費電力デバイスへのデプロイメントに非常に適しています。Raspberry Pi 上でスマート防犯カメラを構築する場合、YOLOX のシンプルなアンカーフリー畳み込みは、エッジアクセラレータに容易に変換できます。
高精度分析向け YOLOv7: 高解像度の衛星画像を処理する場合や、複雑な製造品質管理を実行する場合、ハイエンドの NVIDIA GPU を動力とする YOLOv7x の高い mAP により、最小の異常も確実に検出されます。

Link to this section未来：Ultralytics YOLO26 へのアップグレード#

YOLOv7 と YOLOX は登場当時は画期的でしたが、コンピュータビジョンの状況は大幅に前進しました。新規デプロイメントの場合、開発者は2026年1月にリリースされた Ultralytics YOLO26 に注目すべきです。この最先端モデルは、優れたアーキテクチャ理論をすべて集約し、究極のプロダクションレディなシステムを実現しています。

アップグレードが強く推奨される理由は以下の通りです。

エンドツーエンドの NMS フリー設計: YOLO26 は、後処理における非最大値抑制（NMS）をネイティブに排除しています。YOLOv10 で初めて開拓されたこの設計は、一貫して低いレイテンシを保証し、NMS ハードウェアサポートのないデバイスへのデプロイメントを簡素化します。
DFL の削除: Distribution Focal Loss を排除することで、YOLO26 は低電力エッジデバイスとの互換性が大幅に向上し、ONNX へのエクスポートも簡潔に行えます。
MuSGD オプティマイザ: LLM 学習のイノベーションに触発された YOLO26 は、ハイブリッド MuSGD オプティマイザを活用し、より高速な収束と非常に安定した学習ダイナミクスを保証します。
最大 43% 高速な CPU 推論: 実世界のハードウェアに対して高度に最適化されており、YOLO26 は高価な GPU インフラストラクチャを必要とせずに標準 CPU 上で優れたパフォーマンスを発揮します。
ProgLoss + STAL: これらの高度な損失関数は、航空ドローン点検や高度な IoT ネットワークにおいて不可欠な機能である、小さな物体の認識精度を大幅に向上させます。

物体検出、セグメンテーションなどを通じて最適なパフォーマンスバランスを求める開発者にとって、Ultralytics Platform を介したモデルのデプロイは、他に類を見ない摩擦のない体験を提供します。

YOLO26の詳細はこちら

Link to this section結論#

YOLOX と YOLOv7 はいずれも、オープンソースのビジョン AI の軌跡を形成する重要な技術を導入しました。YOLOX はアンカーフリーのデカップルドヘッドの実現可能性を証明し、YOLOv7 は勾配パスの再パラメータ化の計り知れない力を示しました。今日、Ultralytics エコシステムを活用することで、これらの歴史的なアーキテクチャから最大限の可能性を引き出すことも、最先端の YOLO26 へとシームレスに移行して次世代のコンピュータビジョンアプリケーションを将来にわたって保証することも可能です。

貢献者

GLglenn-jocher¹²

作成日時 2025年1月27日更新日時 4 週間前