YOLOv5 YOLOX: 物体検出アーキテクチャの技術的比較
コンピュータビジョンの急速に進化する分野において、アンカーベース検出器とアンカーフリー検出器の議論は中心的なテーマとなっている。本比較では両者の技術的差異を探る。 YOLOv5(使いやすさと速度における業界標準)と、高性能なアンカーフリー検出器であるYOLOXとの技術的差異を比較検討する。
モデルの起源と概要
YOLOv5
著者: Glenn Jocher
組織: Ultralytics
日付: 2020-06-26
GitHub:yolov5
YOLOX
著者: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
組織: Megvii
日付: 2021-07-18
GitHub:Megvii-BaseDetection/YOLOX
YOLOv5YOLOv5は、アーキテクチャの変更だけでなく、シームレスなユーザー体験を創出することでこの分野に革命をもたらした。トレーニングの容易さ、エクスポート可能性、デプロイ速度を優先し、企業や開発者にとって最適な選択肢となった。1年後にリリースされたYOLOXは、YOLO とYOLO 検出という学術的トレンドの間のギャップを埋めることを目指し、分離されたヘッドと新しいラベル割り当て戦略を導入した。
パフォーマンス指標
以下の表は両モデルの性能を比較したものです。YOLOXはわずかに高い性能を達成しましたが mAP を達成しましたが、YOLOv5 特にCPU優れた推論速度を示し、デプロイメントの複雑さも大幅に低減されています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
アーキテクチャの違い
各モデルが境界ボックス予測をどのように処理するかに、技術的な相違の核心がある。
YOLOv5: アンカーベースの標準
YOLOv5 はアンカーベースのメカニズムYOLOv5 。事前に定義されたアンカーボックスからのオフセットを予測することで、既知のスケールを持つ物体のトレーニングを安定化させます。
- バックボーン:改良版CSPDarknet53を採用し、勾配の流れを強化し、計算上のボトルネックを低減する。
- データ拡張: MixUp モザイクMixUp 広範な活用を先駆的に導入し、これによりモデルの遮蔽に対する頑健性が大幅に向上した。
- 焦点:アーキテクチャは実環境での展開を強く最適化しており、各レイヤーがEdgeTPUなどのハードウェアアクセラレータに効率的にマッピングされることを保証します。
YOLOX:アンカーレス・チャレンジャー
YOLOXはアンカーフリー手法に切り替え、物体の中心を直接予測する。
- 分離型ヘッド: YOLO 異なり、YOLOXは分類と位置特定タスクを別々の「ヘッド」に分離する。これにより収束過程における両目的の競合が解消されると主張している。
- SimOTA:学習プロセスを最適輸送問題として捉える先進的な動的ラベル割り当て戦略。
- 参考:詳細な技術的情報については、YOLOXのarXiv論文を参照してください。
分離ヘッドのトレードオフ
YOLOXの分離型ヘッドは収束速度と精度を向上させる一方、追加の計算オーバーヘッドを招くことが多く、YOLOv5 に見られる結合型ヘッド設計と比較して推論速度がわずかに低下する。 YOLOv8よりもわずかに遅くなります。
エコシステムと使いやすさ
モデルを本番環境で評価する際、周囲のエコシステムはアーキテクチャ自体と同様に重要である。ここで Ultralytics のモデルが明確な優位性を発揮する領域です。
YOLOv5 は成熟した、よく管理されたエコシステムに統合されています。ユーザーUltralytics (旧称HUB)の恩恵を受け、データセットの注釈付け、トレーニング、デプロイメントを効率化します。このプラットフォームはインフラストラクチャの複雑さを処理するため、開発者はデータと結果に集中できます。
対照的に、YOLOXは優れた学術的性能を発揮する一方、デプロイには手動設定がより多く必要となる場合が多い。Ultralytics トレーニング効率を優先し、すぐに利用可能な事前学習済み重みと、トレーニング時の低メモリ使用量を提供する。このメモリ効率は、特に RT-DETRなどの新しいトランスフォーマーベースのモデルと比較すると、特に顕著です。
進化:YOLO26の登場
YOLOv5 依然として優れた選択肢ですが、この分野は進化を続けています。2026年に新規プロジェクトを開始する開発者にとって、YOLO26はこの進化の頂点を体現する存在です。YOLOv5 融合させ、両者を凌駕する性能を実現しています。
YOLO26は、エッジコンピューティングとリアルタイム分析における究極の性能バランスを実現するよう設計されています。
YOLO26にアップグレードする理由
- NMS:YOLOXと同様にYOLO26はアンカーから脱却するが、さらに進歩してネイティブにエンドツーエンド化を実現した。これにより、FPNMSや CoreMLなどのデバイス上での展開を複雑にすることが多い後処理ステップである非最大抑制(NMS)を排除
- MuSGDオプティマイザー:大規模言語モデル(LLM)のトレーニング技術(特にMoonshot AIのKimi K2)に着想を得たこのハイブリッドオプティマイザーは、安定したトレーニングダイナミクスを確保し、視覚タスクにLLMの安定性を効果的にもたらします。
- 速度:YOLO26は、ディストリビューションフォーカルロス(DFL)の削除とアーキテクチャのプルーニングにより、前世代と比較して最大43%高速CPU を実現します。
- ProgLoss + STAL:これらの改良された損失関数は、特に小物体認識をターゲットとしており、従来の検出器に共通する弱点を解決する。
タスクを横断する汎用性
YOLOXが主に検出に焦点を当てているのとは異なり、Ultralytics 、姿勢推定、インスタンスセグメンテーション、方向性物体検出(OBB)を含む、包括的なタスク群を標準でサポートしています。
現実世界のアプリケーション
これらのモデル間の選択は、多くの場合、導入シナリオによって決まります。
- 産業用検査(YOLOv5):高スループットが求められる製造ライン向けに、結合ヘッド設計と TensorRTUltralytics 最適化により、最小限の遅延を実現します。
- 空中監視(YOLO26): 新たなProgLoss + STAL機能により、YOLO26はドローン画像における車両や家畜などの微小物体検出に優れており、従来のアンカーベースモデルが苦戦することがあったこの課題において高い性能を発揮する。
- 学術研究(YOLOX):ラベル割り当て戦略を調査する研究者は、SimOTAを明確に実装していることから、しばしばYOLOXをベースラインとして使用する。
コード例
Ultralytics 間の移行はシームレスです。以下のコードは、YOLOv5、YOLO11、および推奨されるYOLO26で動作する統一APIを用いて、モデルの読み込みと推論の実行方法を示しています。
from ultralytics import YOLO
# Load a model (YOLOv5 or the recommended YOLO26)
# The API unifies usage, making it easy to swap models for comparison
model = YOLO("yolo26n.pt") # Loading the latest Nano model
# Run inference on a local image
results = model("path/to/image.jpg")
# Process the results
for result in results:
result.show() # Display prediction
result.save(filename="result.jpg") # Save to disk
結論
YOLOv5 コンピュータビジョン史に名を刻んだ。YOLOv5 使いやすさと導入の容易さで基準をYOLOv5 、YOLOXはアンカーフリー検出の限界を押し広げた。
しかし、最高の効率性を求める現代のアプリケーションにおいては、Ultralytics 優れた選択肢です。NMS、革新的なMuSGDオプティマイザー、エッジ最適化アーキテクチャを統合することで、広範なサポートに支えられた堅牢で将来性のあるソリューションを提供します。 Ultralytics エコシステムによって支えられた堅牢で将来を見据えたソリューションを提供します。