コンテンツにスキップ

YOLOX対YOLOv10:アンカーフリーからエンドツーエンド検出への進化

物体検出の分野は2021年から2024年にかけて劇的に変化した。Megviiが発表したYOLOXはアンカーベース手法からの大きな転換点となり、簡素化されたアンカーフリー設計を導入。研究のベースラインとして広く採用されるようになった。3年後、清華大学の研究者らが YOLOv10を発表し、エンドツーエンドアーキテクチャにより非最大抑制(NMS)を完全に不要とするパラダイムをさらに推進した。

この比較では、YOLOXの分離型ヘッドからYOLOv10二重割り当て戦略に至る技術的飛躍を探求し、開発者が自身のコンピュータビジョンパイプラインに適したツールを選択する手助けとなる。

比較の概要

両モデルともリアルタイム性能を追求しているが、検出問題への解決策は異なる。YOLOXは動的ラベル割り当てによる学習プロセスの簡素化に重点を置く一方、YOLOv10 後処理のボトルネックを排除することで推論遅延のYOLOv10 。

YOLOX: アンカーフリーの先駆者

YOLOX は2021年7月にMegviiの鄭格(Zheng Ge)氏とチームによって発表されました。これによりYOLO アンカーボックス不要のメカニズムへ移行し、エンジニアが調整する必要のある設計パラメータ(アンカーボックスサイズなど)の数を削減しました。

  • 主要な革新点:分離型ヘッドとSimOTA(簡易最適輸送割り当て)。
  • アーキテクチャ:速度と精度のバランスを重視した改良型CSPダークネット基幹ネットワーク。
  • レガシーステータス: YOLOXのArxivレポートのような学術論文において、信頼性の高いベースラインとして広く利用されている。

YOLOXの詳細について。

YOLOv10: リアルタイムエンドツーエンドdetect

YOLOv10清華大学の研究者らが2024年5月に発表したYOLOv10は、NMS遅延コストに対処する。トレーニング中に一貫した二重割り当て戦略を採用することで、オブジェクトごとに1つのボックスを予測することを学習し、真のエンドツーエンド展開を可能にする。

  • 主要な革新点:デュアルラベル割り当てNMS(教師用ラベルは1対多、推論用ラベルは1対1)。
  • 効率性:ランクガイド付きブロック設計を含む、効率性と正確性を重視した包括的なモデル設計手法を導入する。
  • 統合: Ultralytics サポートされており、トレーニングデプロイメントが容易です。

YOLOv10について詳しくはこちら

パフォーマンス分析

これらの世代間の性能差は顕著であり、特に現代のハードウェアにおける効率性(FLOPs)と推論速度において顕著である。YOLOv10 より新しいアーキテクチャブロックYOLOv10 、より少ないパラメータでより高い平均精度(mAP)を達成している。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

決定的な差異

  1. レイテンシ: YOLOv10 NMS をYOLOv10 。エッジデバイスでは、NMS 推論時間全体の大きな割合NMS 、実世界のパイプラインにおいてYOLOv10 高速です。
  2. 精度:YOLOv10xは54.mAPを達成し、YOLOX-xの51.1%を明らかに上回っている。これはYOLOX-xのパラメータ数がほぼ2倍(99.1M対56.9M)であるにもかかわらずである。
  3. 計算効率: YOLOv10 、同等の精度において一般的に低く、GPU 消費を削減します。

アーキテクチャの詳細

YOLOX: 分離型ヘッドとSimOTA

YOLOXは分離型ヘッドを採用することで従来のYOLO 異なるアプローチを取った。従来の検出器では分類と位置特定タスクが畳み込み特徴を共有していたが、YOLOXはこれらを二つの分岐に分離したことで収束速度と精度を向上させた。

さらに、YOLOXは動的ラベル割り当て戦略であるSimOTAを導入した。SimOTAは、アンカーに対する真のボックスのマッチングに固定ルールを用いる代わりに、マッチングプロセスを最適輸送問題として扱い、グローバルなコスト計算に基づいてラベルを割り当てる。このアプローチにより、YOLOXは重厚なハイパーパラメータ調整なしに、異なるデータセット間で頑健性を発揮する。

YOLOv10: 一貫した二重アサインメント

YOLOv10主な貢献は、NMSに見られる学習と推論の不一致を解消した点である。

  • 一対多トレーニング:トレーニング中、モデルは単一のオブジェクトに対して複数の正例サンプルを割り当て、豊富な教師信号を提供します。
  • 1対1推論:一貫したマッチング指標を通じて、モデルは推論時に単一の最適なボックスを選択することを学習し、NMSの必要性を排除する。

さらに、YOLOv10 、フルトランスフォーマーの重い計算コストを伴わずにグローバルコンテキストを効果的に捕捉するため、大カーネル畳み込み(Large-Kernel Convolutions)と部分自己注意(Partial Self-Attention: PSA)モYOLOv10 。

NMSフリーが重要である理由

非最大抑制(NMS)は、重複する境界ボックスをフィルタリングする後処理アルゴリズムである。効果的ではあるが、逐次処理であり、FPGAやNPUなどのハードウェアでの高速化が困難である。これを除去することで、デプロイメントパイプラインは厳密に決定論的となり、高速化される。

理想的な使用例

YOLOXを選択すべき時

  • 学術的基準線:研究論文を執筆中で、比較対象となるクリーンで標準的なアンカーフリー検出器が必要な場合。
  • レガシーシステム: MegviiコードベースまたはOpenMMLabフレームワーク上で既に検証済みの環境であり、推論エンジン全体のアップグレードが不可能なもの。

YOLOv10を選択すべき時

  • 低遅延アプリケーション:自動ブレーキシステムや高速産業用選別装置など、後処理におけるミリ秒単位の時間が重要なシナリオ。
  • リソース制約のあるエッジデバイス: CPU が限られたデバイスは、NMS ステップの除去によって非常に大きな恩恵を受ける。

Ultralyticsの利点

YOLOXとYOLOv10 強力なアーキテクチャYOLOv10 、Ultralytics は生のモデルコードと実運用可能なアプリケーションの間の架け橋を提供します。

シームレスな統合

Ultralytics YOLOv10 Ultralytics 、たった1行のコードでモデルを切り替えられます。これにより、異なるAPIやデータ形式(YOLOX用にラベルCOCO に変換するなど)を学ぶ必要がなくなります。

from ultralytics import YOLO

# Load YOLOv10n or the newer YOLO26n
model = YOLO("yolov10n.pt")

# Train on your data with one command
model.train(data="coco8.yaml", epochs=100, imgsz=640)

汎用性とエコシステム

スタンドアロンのYOLOXリポジトリとは異なり、Ultralytics 検出以外にもインスタンスセグメンテーション姿勢推定OBBなど幅広いタスクUltralytics 。これら全てUltralytics で管理可能であり、ウェブベースのデータセット管理、ワンクリックトレーニング、CoreML、ONNX、TensorRTフォーマットへのデプロイを提供します。

トレーニング効率

Ultralytics メモリ効率に最適化されています。一部のトランスフォーマーベースモデル(例: RT-DETR)は大量のCUDA 必要とする一方、Ultralytics YOLO コンシューマー向けGPUでのトレーニングを前提に設計されており、最先端AIへのアクセスを民主化しています。

未来:YOLO26

最高のパフォーマンスと使いやすさを求める開発者には、YOLOv10 を超えて新たにリリースYOLOv10 YOLO26をお試しください。

2026年1月にリリースされたYOLO26は、YOLOv10 NMS画期的な成果を基盤YOLOv10 生産環境での安定性と速度をYOLOv10 改良を加えたものである。

  • MuSGDオプティマイザー:Moonshot AIのLLMトレーニング革新に着想を得たこのオプティマイザーは、収束の高速化と安定したトレーニング実行を保証します。
  • DFL除去:ディストリビューション焦点損失を除去することで、YOLO26はモデルグラフを簡素化し、エッジデバイスへのエクスポートを円滑にし、オペレータの非互換性の発生を低減します。
  • 速度: CPU 向けに最適化されており、前世代比で最大43%高速化を実現。標準的なIoTハードウェアに最適です。

YOLO26についてさらに詳しく

結論

YOLOXは物体検出の歴史における重要なマイルストーンであり、アンカーフリー手法がトップクラスの精度を達成できることを証明した。 YOLOv10 は次の論理的なステップを表し、NMS 最後のボトルネックを取り除くNMS 真のエンドツーエンド処理を可能NMS

しかし、堅牢で長期的な解決策としては、 Ultralytics エコシステム(YOLO26が中核)が最も包括的なソリューションを提供します。優れたドキュメント、活発なコミュニティサポート、データアノテーションからモデルエクスポートまでを包括的に扱うプラットフォームをUltralytics 、コンピュータビジョンプロジェクトがプロトタイプから本番環境まで確実に成功することをUltralytics

参考資料


コメント