YOLOX vs. YOLOv5: アーキテクチャとパフォーマンスの詳細比較

適切な物体検出モデルを選択することは、あらゆるコンピュータビジョンプロジェクトの成功を左右する重要な決断です。本ガイドでは、AI分野における2つの主要モデル、MegviiのYOLOXとUltralytics YOLOv5について、包括的な技術比較を行います。両者のアーキテクチャ、パフォーマンス指標、そして学習エコシステムを分析することで、開発者や研究者が特定のデプロイ環境に対して十分な情報に基づいた選択ができるよう支援します。

モデルの紹介

両モデルはリアルタイム物体検出が急速に進歩していた時期に登場しましたが、パフォーマンスを実現するためのアーキテクチャ哲学はそれぞれ異なります。

YOLOX: アンカーフリー(Anchor-Free)のアプローチ

2021年7月18日にMegviiの研究者であるZheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sunによって発表されたYOLOXは、従来のアンカーボックスから脱却することで大きな転換をもたらしました。彼らのArxivテクニカルレポートに詳述されているように、YOLOXはアンカーフリーの設計とデカップリングヘッド(Decoupled Head)、そしてSimOTAラベル割り当て戦略を統合しています。この設計は、学術研究と産業応用のギャップを埋めることを目的としており、標準的なデータセットで強力なパフォーマンスを発揮します。

YOLOXについて詳しく学ぶ

YOLOv5: プロダクション向けビジョンAIの標準

Glenn Jocherによって作成され、2020年6月26日にUltralyticsからリリースされたYOLOv5は、デプロイされるコンピュータビジョンの業界標準として急速に普及しました。PyTorchフレームワーク上でネイティブに構築されており、比類のない使いやすさ、非常に高速な学習、そして洗練されたリポジトリを提供することで、最先端のAIを民主化しました。YOLOv5のアーキテクチャは、速度、精度、およびデプロイの容易さの完璧なバランスに重点を置いており、エッジデバイスから大規模なクラウドデプロイまで、あらゆる用途で愛用されています。

YOLOv5の詳細はこちら

アーキテクチャの違い

これらのネットワーク間の主要なメカニズムの違いを理解することで、なぜさまざまなタスクにおいてパフォーマンスに違いが生じるのかが明確になります。

アンカーフリー(Anchor-Free) vs. アンカーベース(Anchor-Based)

最も決定的な違いは、YOLOXのアンカーフリーメカニズムにあります。YOLOv5のような従来のモデルは、定義済みのアンカーボックスに依存してBBoxを予測します。これには、最適なアンカーサイズを決定するための学習データセットに対するクラスタリング分析が必要です。一方、YOLOXはこれを排除し、各空間位置で直接BBox座標を予測します。アンカーフリーのアプローチは設計パラメータの数やヒューリスティックな調整を減らしますが、YOLOv5の洗練されたアンカーベースのアプローチは、自動アンカー(auto-anchor)機能によってサポートされており、導入直後から非常に安定した予測可能な学習収束を保証します。

デカップリングヘッド vs. カップリングヘッド

YOLOXはデカップリングヘッドを採用しており、分類タスクと回帰タスクが別々のニューラルネットワークブランチに分割されています。著者らは、これが空間的特徴学習と意味的特徴学習の間の競合を解決すると主張しました。対照的に、YOLOv5は計算効率を最大化し、リアルタイムエッジコンピューティングに不可欠な推論レイテンシを低減するために、非常に最適化されたカップリングヘッド(初期バージョンにおいて)を利用しました。

アーキテクチャの進化

YOLOXが2021年にデカップリングヘッドを推奨した一方で、Ultralyticsはその後、YOLOv8や最先端のYOLO26といったモデルにおいてデカップリングアーキテクチャを採用および完成させ、両者の長所を組み合わせています。

ラベル割り当て戦略

YOLOXはラベル割り当てにSimOTAを利用しており、これは正解物体と予測とのペアリングを最適輸送問題として定式化するものです。この動的な割り当てにより、混雑したシーンでの処理が向上します。一方、YOLOv5は堅牢な形状ルールに基づく割り当てを採用しており、高品質の正例サンプルが損失関数に一貫して供給されることを保証しており、これが伝説的な学習安定性に寄与しています。

パフォーマンスとベンチマーク

速度と精度のトレードオフは、これらのアーキテクチャに対する究極の試練です。以下の表は、標準的なベンチマークにおける様々なモデルサイズのパフォーマンスを示しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

YOLOXは特に大型バリエーションにおいて競争力のあるmAPスコアを達成していますが、YOLOv5はTensorRT推論速度において全般的に顕著な利点を維持しています。例えば、YOLOv5sモデルは優れた速度対精度比を提供し、ミリ秒単位が重要となるリアルタイムアプリケーションにおいて非常に望ましい選択肢となっています。

Ultralyticsの優位性: 学習とユーザビリティ

研究からプロダクションへ移行する際、モデルを取り巻くエコシステムは、モデルそのものと同じくらい重要です。ここで、Ultralyticsエコシステムの利点がはっきりと現れます。

効率化されたユーザーエクスペリエンス

YOLOv5は「ゼロからヒーローへ」の優れた開発者体験で広く称賛されています。Ultralytics Python APIとCLIを使用すれば、コードを数行書くだけでモデルのロード、学習、デプロイが可能です。対照的に、Megvii GitHubリポジトリからYOLOXを実行するには、環境変数の手動設定や複雑なPythonパスのセットアップ、学術研究用コードベース特有の急な学習曲線が必要となります。

トレーニング効率とメモリ要件

Ultralyticsモデルは、学習中のメモリ使用量を最小限に抑えるよう細心の注意を払ってエンジニアリングされています。YOLOv5は、RT-DETRのようなパラメータの多いTransformerモデルや、最適化されていない研究用モデルと比較して、CUDAメモリを大幅に削減します。これにより、開発者はコンシューマーグレードのハードウェアでより大きなバッチサイズでの学習が可能となり、反復的な開発サイクルを加速させることができます。

タスクの汎用性

YOLOXが純粋な物体検出フレームワークであるのに対し、UltralyticsエコシステムはYOLOv5を進化させ、複数のビジョンタスクをサポートするようになりました。そのままの状態で、全く同じAPI構文を使用して画像分類インスタンスセグメンテーション、および物体検出を実行できます。

絶え間ない革新

さらに高度なタスクとしてポーズ推定方向付きBBox (OBB)検出が必要な場合は、最新のUltralytics YOLO26アーキテクチャへのアップグレードを強くお勧めします。これは最新の精度でこれらすべてのタスクをネイティブにサポートしています。

コード比較

ユーザビリティの違いは、コードによって最もよく示されます。

YOLOv5による学習:

from ultralytics import YOLO

# Load a pretrained YOLOv5s model
model = YOLO("yolov5su.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Display results
results[0].show()

YOLOXによる学習: (手動でのリポジトリクローン、setup.pyのインストール、および複雑なCLI引数が必要)

# Example YOLOX training command
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -o

Ultralyticsのアプローチは摩擦を取り除き、設定ファイルのデバッグではなく、データセットやアプリケーションのロジックに集中できるようにします。さらに、Weights & BiasesComet MLとの統合機能が組み込まれているため、実験の追跡もシームレスに行えます。

理想的な使用事例と実世界のアプリケーション

これらのモデルの選択は、プロジェクトの運用環境にかかっています。

YOLOXの強み

YOLOXは、研究者がアンカーフリーのパラダイムやラベル割り当て戦略を明確に研究している学術的な場において、強力な候補であり続けます。また、混雑したシーンでの検出が最優先の指標であり、エッジデプロイの速度が二次的な重要度であるシナリオでも有用です。

YOLOv5の強み

YOLOv5は実用的なデプロイにおいて圧倒的なチャンピオンです。

  • 高速製造: 組立ラインでの欠陥検出において、エッジGPU上でのYOLOv5の最小限の推論レイテンシは、ラインを減速させることなく製品を検査できることを保証します。
  • ドローンおよび航空画像: 効率的なメモリフットプリントにより、農業モニタリングや野生生物追跡といったタスクのために、ドローン上の軽量なコンパニオンコンピュータで動作可能です。
  • スマートリテール: 自動決済から在庫管理まで、YOLOv5はTensorRTONNXに簡単にエクスポートできるため、数千台の店舗カメラでの大規模なデプロイが可能です。

未来へ:YOLO26の利点

YOLOv5は伝説的なモデルですが、AI分野は急速に進歩しています。今日、新しいプロジェクトを始めるのであれば、最新世代のUltralyticsモデルを検討することを強くお勧めします。

2026年にリリースされた**Ultralytics YOLO26は、飛躍的な進歩を遂げています。これはEnd-to-End NMS-Free設計を特徴としており、NMS(Non-Maximum Suppression)の後処理の必要性が完全になくなったことで、デプロイロジックが劇的に簡素化されました。DFL(Distribution Focal Loss)を排除し、最先端のMuSGDオプティマイザを活用することで、YOLO26は前世代よりも最大43%高速なCPU推論**を達成しつつ、新しいProgLoss + STAL損失関数のおかげで、特に小さな物体に対して高い精度を維持しています。

実績ある信頼性のYOLOv5を選ぶか、最先端のYOLO26を選ぶかにかかわらず、Ultralytics Platformは、コンピュータビジョンソリューションをコンセプトからプロダクションへシームレスに移行するための最適なツールを提供します。AIパイプラインの可能性を最大限に引き出すために、包括的なUltralyticsドキュメントをぜひご確認ください。

コメント