コンテンツにスキップ

YOLOX対YOLOv5:詳細なアーキテクチャと性能比較

適切な物体検出モデルの選択は、あらゆるコンピュータビジョンプロジェクトの成否を左右する重要な決定です。本ガイドでは、AI分野における二つの主要モデル、MegviiのYOLOXと Ultralytics YOLOv5の包括的な技術比較を行います。両モデルのアーキテクチャ、性能指標、トレーニング環境を分析することで、開発者や研究者が特定の導入環境に合わせて適切な選択を行えるよう支援します。

モデルの紹介

両モデルはリアルタイム物体検出が急速に進歩した時期に登場したが、その性能を達成するために異なるアーキテクチャの哲学を採用した。

YOLOX:アンカーフリーなアプローチ

2021年7月18日、Megviiの研究者である鄭格(Zheng Ge)、劉松涛(Songtao Liu)、王峰(Feng Wang)、李澤明(Zeming Li)、孫健(Jian Sun)によって発表されたYOLOXは、従来のアンカーボックスから脱却することで大きな転換をもたらした。Arxiv技術報告書に記載されたYOLOXは、アンカーフリー設計と分離型ヘッド、SimOTAラベル割り当て戦略を統合。この設計は学術研究と産業応用のギャップを埋めることを目指し、標準データセットで高い性能を発揮した。

YOLOXの詳細について。

YOLOv5:実運用向けビジョンAIの標準

グレン・ジョチャーによって作成され、Ultralytics リリースされたYOLOv5 、展開されたコンピュータビジョンの業界標準としてYOLOv5 普及しました。PyTorch 上にネイティブに構築されたこのモデルは、比類のない使いやすさ、非常に高速なトレーニング、そして高度に洗練されたリポジトリを提供することで、最先端のAIを民主化しました。YOLOv5アーキテクチャYOLOv5、速度・精度・導入容易性の完璧なバランスを追求した設計であり、エッジデバイスから大規模クラウド展開まであらゆる場面で最適な選択肢となっています。

YOLOv5について詳しくはこちら

アーキテクチャの違い

これらのネットワーク間の核心的な機械的差異を理解することで、様々なタスクにおいてそれらが異なる性能を示す理由が明らかになる。

アンカーフリーとアンカーベースの比較

最も特徴的な違いはYOLOXのアンカーフリー機構である。YOLOv5 のような従来モデルは、境界ボックスを予測するために事前定義されたアンカーボックスにYOLOv5 、最適なアンカーサイズを決定するためにトレーニングデータセットのクラスタリング分析が必要となる。 YOLOXはこれを排除し、空間上の各位置で直接バウンディングボックス座標を予測する。アンカーフリー手法は設計パラメータ数とヒューリスティック調整を削減するが、YOLOv5洗練されたアンカーベース手法は自動アンカー機能により、箱から出してすぐに驚くほど安定かつ予測可能な学習収束を保証する。

分離ヘッド対結合ヘッド

YOLOXは分離型ヘッドを採用しており、分類タスクと回帰タスクが別々のニューラルネットワーク分岐に分離されている。著者らは、これにより空間的特徴学習と意味的特徴学習の間の矛盾が解消されると主張した。一方、YOLOv5 (初期バージョンにおいて)高度に最適化された結合型ヘッドYOLOv5 、計算効率を最大化し推論遅延を低減した。これはリアルタイムエッジコンピューティングにおいて極めて重要である。

アーキテクチャの進化

YOLOXが2021年に分離型ヘッドを提唱した一方、Ultralytics 、YOLOv8などの後続モデルで分離型アーキテクチャを採用し完成させた。 YOLOv8 や最先端のYOLO26といった後続モデルで分離型アーキテクチャを採用・完成させ、両者の長所を融合させました。

ラベル割り当て戦略

YOLOXはSimOTAを用いてラベル割り当てを行い、真値オブジェクトと予測値の対応関係を最適輸送問題として定式化する。この動的割り当てにより混雑したシーンの処理が改善される。YOLOv5 頑健な形状規則に基づく割り当てYOLOv5 、高品質な陽性サンプルが損失関数に一貫して供給されることを保証する。これがその伝説的な学習安定性に寄与している。

性能とベンチマーク

速度と精度のトレードオフは、これらのアーキテクチャにとって究極の試金石である。下表は標準ベンチマークにおける各種モデルサイズの性能を示している。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

YOLOXは特に大規模なバリエーションにおいて競争力mAP を達成する一方、YOLOv5 TensorRT において全体的に顕著な優位性をYOLOv5 。例えばYOLOv5sモデルは卓越した速度対精度比を提供し、ミリ秒単位の処理が求められるリアルタイムアプリケーションにおいて極めて有用である。

Ultralytics :トレーニングと使いやすさ

研究から実運用への移行において、モデルを取り巻くエコシステムはモデル本体と同等に重要となる。Ultralytics 優位性が顕著に明らかになる。

合理化されたユーザーエクスペリエンス

YOLOv5 「ゼロからヒーローへ」という開発者体験で広く称YOLOv5 。Python CLI たった1行のコードでモデルの読み込み、学習、デプロイCLI 。一方、MegviiのGitHubリポジトリからYOLOXを実行するには、環境変数の手動設定や複雑なPython がより多く必要で、学術研究コードベースに典型的な急峻な学習曲線があります。

トレーニング効率とメモリ要件

Ultralytics CUDA Ultralytics 、トレーニング中のメモリ使用量を最小限にYOLOv5 よう入念に設計されています。YOLOv5 、 RT-DETR や最適化されていない研究モデルと比較して、CUDAメモリを大幅に削減します。これにより開発者は、コンシューマー向けハードウェア上でより大きなバッチサイズでトレーニングが可能となり、反復開発サイクルを加速させます。

タスクを横断する汎用性

YOLOXは純粋な物体検出フレームワークですが、Ultralytics YOLOv5 を進化させYOLOv5 複数のビジョンタスクYOLOv5 。そのままの状態で、まったく同じAPI構文を用いて画像分類インスタンスセグメンテーション、物体検出を実行できます。

継続的な革新

姿勢推定オリエンテッドバウンディングボックス(OBB)検出といったさらに高度なタスクが必要な場合は、Ultralytics アーキテクチャへのアップグレードを強く推奨します。本アーキテクチャはこれら全てをネイティブにサポートし、最先端の精度を実現します。

コード比較

使いやすさの違いは、コードを通じて最もよく示される。

YOLOv5を用いたトレーニング:

from ultralytics import YOLO

# Load a pretrained YOLOv5s model
model = YOLO("yolov5su.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Display results
results[0].show()

YOLOXでのトレーニング:(手動でのリポジトリクローン、setup.pyによるインストール、複雑なCLI が必要)

# Example YOLOX training command
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -o

Ultralytics 摩擦を取り除き、設定ファイルのデバッグではなくデータセットとアプリケーションロジックに集中できるようにします。さらに、実験の追跡は以下との組み込み統合によりシームレスに行えます Weights & BiasesComet との統合により、実験の追跡がシームレスに行えます。

理想的な使用例と実世界の応用例

これらのモデル間の選択は、プロジェクトの運用環境によって決まります。

YOLOXが優れている点

YOLOXは、研究者がアンカーフリーパラダイムやラベル割り当て戦略を明示的に研究している学術環境において、依然として有力な候補である。また、混雑したシーン検出が絶対的な主要指標であり、エッジ展開速度が二次的なシナリオにおいても有用である。

YOLOv5が優れている点

YOLOv5 実用的な展開において誰もが認めるYOLOv5 。

  • 高速製造:組立ラインの欠陥検出において、YOLOv5ッジGPU上での最小限の推論遅延により、ベルトの速度を落とすことなく製品検査を実現します。
  • ドローンおよび航空画像:効率的なメモリ使用量により、農業モニタリングや野生生物追跡などのタスクにおいて、ドローン搭載の軽量コンパニオンコンピューター上で動作可能。
  • スマート小売: 自動レジから在庫管理まで、YOLOv5 エクスポート可能 TensorRT および ONNX へのエクスポートが容易で、数千台の店舗カメラへの大規模展開を実現します。

展望:YOLO26の優位性

YOLOv5 伝説的なYOLOv5 、AI分野は急速に進歩しています。今日新たなプロジェクトを始めるなら、最新世代Ultralytics を検討されることを強くお勧めします。

2026年にリリースされた、 Ultralytics は飛躍的な進化を遂げた。エンドツーエンドNMS設計を採用し、非最大抑制(NMS)の後処理を完全に不要化。これにより展開ロジックが大幅に簡素化された。 分布焦点損失(DFL)を排除し、最先端のMuSGDオプティマイザーを採用したYOLO26は、新開発のProgLoss + STAL損失関数により、特に小型物体において高い精度を維持しつつ、前世代比で最大43%高速CPU を実現しています。

YOLOv5 実YOLOv5 信頼性を選ぶYOLOv5 YOLO26の最先端性能YOLOv5 Ultralytics 、コンピュータビジョンソリューションをコンセプトから本番環境までシームレスに実現するための最適なツールを提供します。AIパイプラインの真の潜在能力を引き出すため、Ultralytics 必ずご確認ください。


コメント