コンテンツにスキップ

YOLOX対YOLO26:アンカーフリーからエンドツーエンド物体検出への進化

コンピュータビジョン分野は過去5年間で急速な変革を遂げ、複雑なアンカーベースのアーキテクチャから合理化されたアンカーフリー設計へ移行し、最終的にネイティブのエンドツーエンドシステムに到達した。 本比較では、2021年に発表された画期的なアンカーフリーモデルであるYOLOXと、Ultralytics 発表した最先端(SOTA)エンドツーエンド検出器であるYOLO26の技術的差異を掘り下げる。

YOLOXはその時代に研究と性能において高い基準を打ち立てましたが、YOLO26はNMS推論や MuSGDオプティマイザといった画期的な最適化を導入し、低遅延と高精度を要求する現代の生産環境において優れた選択肢となっています。

YOLOX: アンカーフリーの先駆者

2021年7月にMegviiの研究者によって発表されたYOLOXは、YOLO (YOLOv4やYOLOv5など)で主流だったアンカーベースのロジックから大きく方向転換した。アンカーボックスを排除することで、設計プロセスの簡素化と、アンカークラスタリングに伴うハイパーパラメータ調整の負担軽減を目指した。

主な技術的特徴:

  • アンカーフリー機構:事前定義されたアンカーボックスを不要とし、物体検出を点回帰問題として扱う。
  • 分離型ヘッド:分類と位置推定タスクをネットワークヘッドの異なる分岐に分離し、収束速度と精度の向上に寄与した。
  • SimOTA:正例データを動的に真値データに割り当てる高度なラベル割り当て戦略「Simplified Optimal Transport Assignment」。

革新的ではあるものの、YOLOXは後処理に従来の非最大抑制(NMS)に依存している。このステップは重複するバウンディングボックスを除去するが、遅延変動と計算オーバーヘッドをもたらし、厳密なリアルタイムアプリケーションではボトルネックとなり得る。

モデル詳細:

  • 著者: Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sun
  • 組織: Megvii
  • 日付: 2021-07-18
  • リンク:YOLOX Arxiv|YOLOX GitHub

YOLOXの詳細について。

YOLO26: エンドツーエンド標準

2026年1月に Ultralyticsが発表したYOLO26は、コンピュータビジョンの効率性の頂点を体現しています。NMS パイプラインを完全に廃止し、ネイティブ NMS設計を採用しています。このアーキテクチャにより、モデルは検出されたオブジェクトの最終セットを直接出力できるようになり、レイテンシを大幅に削減し、デプロイメントロジックを簡素化します。

主な技術的特徴:

  • NMS:数千もの候補ボックスのソートとフィルタリングにかかる計算コストを排除し、安定した予測可能な推論時間を実現します。
  • MuSGDオプティマイザー: SGD ミューオン(Moonshot AIのKimi K2など大規模言語モデル訓練の革新に着想を得た)を組み合わせたハイブリッドオプティマイザー。これにより、より安定した学習ダイナミクスと高速な収束が保証される。
  • DFL除去:分布焦点損失(DFL)を除去することでモデルヘッドが簡素化され、エッジデバイスや量子化ツールとの互換性が向上します。
  • ProgLoss + STAL:先進的な損失関数(プログラム損失とスケール理論的整合性損失)により、小型物体認識能力を劇的に向上。ドローン画像や産業検査において極めて重要な機能である。

モデル詳細:

YOLO26についてさらに詳しく

なぜエンドツーエンドが重要なのか

YOLOXのような従来モデルは、数千もの冗長な検出ボックスを出力するため、非最大抑制(NMS)によるフィルタリングが必要となる。この処理CPU、TPUやNPUなどのハードウェアアクセラレータでの最適化が困難である。YOLO26のエンドツーエンド設計はこのステップを排除し、ニューラルネットワークが直接最終判定を出力できるようにした。これにより、CPU上での推論速度が従来世代比で最大43%高速化されている

パフォーマンス比較

以下の表は、2つのアーキテクチャ間の性能差を強調しています。YOLO26は、特にエッジAIアプリケーションで使用されるNanoおよびSmallバリアントにおいて、優れた精度(mAP)と効率性を示しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

注:YOLOXの速度は、NMS により、現代のハードウェアでは一般的に遅くなります。一方、YOLO26の指標には、すべての後処理時間が含まれています。

アーキテクチャの詳細

背骨と頭

YOLOXは、検出ヘッドの分離に重点を置いた改良版CSPDarknetバックボーンを採用している。この分離は効果的である一方、従来のモデルにおける共有ヘッド設計と比較してパラメータ数を大幅に増加させる。

対照的に、YOLO26はニューラルアーキテクチャサーチ(NAS)の概念を用いて設計された高度に最適化されたバックボーンを採用している。そのヘッド構造はDFLを除去することで合理化されており、モデルサイズを縮小するだけでなく、複雑な出力層に苦戦するハードウェアアクセラレータと完全に整合する。これによりTensorRTONNX へのエクスポートをシームレスに実現する。

損失関数とトレーニング

YOLOXはラベル割り当て問題を動的に解決するためSimOTAを導入した。しかし、依然として標準的な損失関数に依存している。YOLO26はProgLoss(プログラム的損失)とSTAL(スケール理論的整合性損失)を組み込むことでこれを進化させた。これらの損失関数は物体のサイズと学習段階に基づいて境界ボックス誤差のペナルティを動的に調整し、遠方の歩行者や製造上の欠陥など小さなYOLO 従来の弱点を解決する。

さらに、YOLO26のMuSGDオプティマイザーは、LLMの世界から視覚処理への安定化技術を導入しています。SGDよりも効果的に層間の更新を正規化することで、YOLO26はより少ない訓練エポックで高い精度を達成します。

理想的なユースケース

YOLOXの使用タイミング

YOLOXは学術界において貴重な参照点であり続けている。

  • 研究の基準点:その明確でアンカーのない構造は、ラベル割り当て戦略を研究する研究者にとって優れた基準点となる。
  • レガシープロジェクト:MegEngineや特定のYOLOXフォークと既に高度に統合されているシステムは、即時移行にはコストがかかる可能性があります。

YOLO26 の使用場面

YOLO26は、ほぼすべての新規商業・産業用途において推奨される選択肢です。

  • エッジコンピューティング:最大43%CPU を実現するYOLO26は、GPUが利用できないラズベリーパイ、Jetson Nano、モバイルデバイスに最適です。
  • ロボティクスと自律システム: NMSにより、雑然とした環境(例:混雑した倉庫内を移動するロボット)で発生するレイテンシの急上昇を排除し、決定論的な応答時間を保証します。
  • 高精度検査: ProgLossとSTALの組み合わせにより、YOLO26は微細な欠陥を伴う品質管理タスクにおいて優れた性能を発揮します。
  • マルチタスクアプリケーション:主に検出器であるYOLOXとは異なり、Ultralytics インスタンスセグメンテーション姿勢推定、およびオリエンテッドバウンディングボックス(OBB)のためのYOLO26をサポートしています。

Ultralyticsの利点

YOLO26を選択することは、包括的な Ultralytics エコシステムへのアクセス権も得られます。YOLOXが単体のリポジトリを提供するのに対し、Ultralytics AIライフサイクル全体を簡素化する統合フレームワークUltralytics 。

  1. 使いやすさ:一貫したPython により、タスク(detect、segment、姿勢推定)やモデル(YOLO26、 YOLO11RT-DETR)を切り替えることが可能です。
  2. トレーニング効率: Ultralytics 、トレーニング時のメモリ効率を最適化しています。従来のアーキテクチャや大規模なトランスフォーマーと比較して、コンシューマー向けGPUでより大きなバッチをトレーニングできます。
  3. Ultralytics : Ultralytics 、データセット管理、自動アノテーション、ワンクリックモデルトレーニングのためのウェブベースのインターフェースを提供し、チームのコラボレーションを効率化します。
  4. 健全なエコシステム:頻繁な更新、充実したドキュメント、活発なコミュニティサポートにより、開発者は決して一人でデバッグに追われることはありません。

コード例

YOLO26の実行は、以下の方法で簡単に行えます。 ultralytics パッケージ。以下の例は、事前学習済みモデルの読み込みと画像に対する推論の実行を示しています。

from ultralytics import YOLO

# Load the YOLO26 Nano model (highly efficient for CPU)
model = YOLO("yolo26n.pt")

# Perform object detection on an image
# The model handles preprocessing and post-processing internally
results = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

# Display the results
for result in results:
    result.show()  # Show image in a window

    # Print boxes to console
    for box in result.boxes:
        print(f"Class: {box.cls}, Confidence: {box.conf}, Coordinates: {box.xywh}")

結論

YOLOXとYOLO26は、いずれも物体検出の歴史における重要なマイルストーンである。YOLOXは2021年にアンカーベースのパラダイムに挑戦し、アンカーフリーモデルがトップクラスの性能を達成できることを証明した。しかしYOLO26は、推論における「ラストマイル」問題NMS を解決することで、2026年の基準を再定義する。

エンドツーエンドのアーキテクチャMuSGDオプティマイザ、専用損失関数を備えたYOLO26は、速度、精度、使いやすさのバランスにおいて他に類を見ない性能を発揮します。強力なクラウドサーバーからリソース制約のあるエッジデバイスまで、堅牢なコンピュータビジョンソリューションを展開しようとする開発者にとって、YOLO26は決定的な選択肢です。

他の現代建築を探求したい方は、以下の記事を参照してください YOLO11 汎用検出用、または RT-DETR などのトランスフォーマーベースのアプリケーションを検討してみてください。


コメント