Meet YOLO26: next-gen vision AI.

Link to this sectionPP-YOLOE+ vs YOLOX#

コンピュータビジョンの環境は、物体検出モデルの急速な進化によって大きく形作られてきました。この進化の過程における重要なマイルストーンとして、リアルタイム性能と精度の限界を押し広げた2つのアーキテクチャであるPP-YOLOE+とYOLOXが挙げられます。これらのアーキテクチャの細かな違いや性能のトレードオフ、そして理想的なデプロイシナリオを理解することは、次世代の視覚認識システムを構築する研究者や開発者にとって極めて重要です。

Link to this sectionモデルの系譜と詳細#

技術的なアーキテクチャを掘り下げる前に、両モデルの背景を理解することは有益です。それぞれが、サポートする組織の影響を強く受けながら、物体検出における特定のボトルネックに対処するために開発されました。

PP-YOLOE+の詳細:

PP-YOLOE+の詳細はこちら

YOLOXの詳細:

YOLOXについて詳しく学ぶ

Link to this sectionアーキテクチャの革新#

これら2つの検出器の主な違いは、特徴抽出と境界ボックス予測へのアプローチにあります。

YOLOXは、YOLOファミリーをアンカーフリー設計に適合させることに成功し、2021年に注目を集めました。アンカーボックスを削除することで、YOLOXはカスタムデータセットに必要な設計パラメータとヒューリスティックな調整の数を大幅に削減しました。さらに、分類と局所化のタスクを別々のニューラル経路に分離するデカップルヘッド(decoupled head)を導入しました。この分離により、物体の分類と空間座標の回帰という本質的な競合が解消され、学習中の収束が高速化されました。

Baiduによって開発された**PP-YOLOE+**は、PaddlePaddleエコシステム向けに高度に最適化されています。前身であるPP-YOLOv2をベースとし、動的ラベル割り当て戦略(TAL)と、CSPRepResNetと呼ばれる新しいバックボーンを導入しています。このバックボーンは構造的な再パラメータ化を活用しており、学習中は複雑なマルチブランチアーキテクチャの恩恵を受けつつ、推論時にはシームレスに高速なシングルパスネットワークへと折りたたむことが可能です。

構造的再パラメータ化

構造的再パラメータ化により、モデルは複数の並列ブランチで学習(勾配フローを改善)し、デプロイ時にはそれらのブランチを数学的に1つの畳み込み層に圧縮できるため、精度を犠牲にすることなく推論速度を向上させることができます。

Link to this sectionパフォーマンスと指標の比較#

これらのモデルを比較すると、それぞれが性能スペクトルのわずかに異なる領域をカバーしていることが明らかです。PP-YOLOE+は一般的に高い絶対精度を実現する一方、YOLOXは非常に制約の厳しいハードウェアに適した軽量なバリエーションの提供に長けています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

注: 各関連カラムセグメントで最も優れた値は太字で強調されています。

YOLOXはディスク容量やCUDAメモリをほとんど消費しないnanoおよびtinyバリエーションを提供しますが、PP-YOLOE+はサーバーグレードのハードウェアまで非常にうまく拡張できるため、Baiduエコシステム内の重厚な産業アプリケーションにとって強力な選択肢となります。

Link to this section実際のアプリケーション#

これらのフレームワークの選択は、多くの場合、統合要件とハードウェアターゲットによって決まります。

Link to this sectionYOLOXが優れている点#

アンカーフリーという性質と極めてエッジに近いバリエーションが利用可能であるため、YOLOXはロボット工学やマイクロコントローラーへのデプロイにおいて人気があります。そのシンプルな後処理パイプラインにより、TensorRTNCNNといったカスタマイズされたNPUハードウェアフォーマットへの移植が容易になります。

Link to this sectionPP-YOLOE+の強み#

Baiduの技術スタックを活用するアジアの製造拠点に深く統合されている組織にとって、PP-YOLOE+は最適化済みのデプロイパスを提供します。これは、厳格なリアルタイム制約のもとでわずかに重いモデルウェイトを許容できる、強力なサーバーラック上で実行される高精度な品質検査シナリオで真価を発揮します。

Link to this sectionユースケースと推奨事項#

PP-YOLOE+とYOLOXのどちらを選択するかは、特定のプロジェクト要件、デプロイの制約、およびエコシステムの優先順位によって決まります。

Link to this sectionPP-YOLOE+ を選ぶべき場面#

PP-YOLOE+ は以下の場合に強力な選択肢となります:

  • PaddlePaddle エコシステムへの統合: Baidu の PaddlePaddle フレームワークとツールを使用して構築された既存のインフラストラクチャを持つ組織。
  • Paddle Lite エッジデプロイメント: Paddle Lite または Paddle 推論エンジン専用に高度に最適化された推論カーネルを備えたハードウェアへのデプロイ。
  • 高精度サーバーサイド検出: フレームワークの依存関係が懸念事項とならない、強力な GPU サーバー上での最大の検出精度を優先するシナリオ。

Link to this sectionYOLOXを選択すべき時#

YOLOXが推奨されるケース:

  • アンカーフリー検出研究: 新しい検出ヘッドや損失関数を実験するためのベースラインとして、YOLOXのクリーンでアンカーフリーなアーキテクチャを使用する学術研究。
  • 超軽量エッジデバイス: YOLOX-Nanoバリアントの非常に小さなフットプリント(0.91Mパラメータ)が不可欠な、マイクロコントローラやレガシーモバイルハードウェアへのデプロイ。
  • SimOTAラベル割り当ての研究: 最適輸送に基づくラベル割り当て戦略と、それが学習の収束に与える影響を調査する研究プロジェクト。

Link to this sectionUltralytics (YOLO26) を選択すべき時#

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。

  • NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
  • 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。

Link to this sectionUltralyticsの利点: YOLO26の登場#

PP-YOLOE+とYOLOXは素晴らしい研究成果ですが、現代のデプロイ環境では、より一貫性があり、開発者に優しく、優れた効率性を備えた体験が求められています。そこで登場するのが、現代の視覚AIの基準を完全に再定義するUltralytics YOLO26です。

独立した研究用リポジトリから本番環境対応のシステムへと移行しようとしているチームにとって、Ultralyticsは堅牢で適切に保守されたエコシステムを提供します。複雑な環境を構成する必要はもうありません。統合されたPython APIにアクセスするだけでモデルを学習できます。

Ultralytics YOLO26の主な利点は以下の通りです:

  • エンドツーエンドのNMSフリー設計: 重複する境界ボックスをフィルタリングするためにNon-Maximum Suppression (NMS)を必要とするPP-YOLOE+やYOLOXとは異なり、YOLO26はネイティブでエンドツーエンドです。これにより、レイテンシのボトルネックが解消され、デプロイロジックが劇的に簡素化されます。
  • CPU推論が最大43%高速: Distribution Focal Loss (DFL)を戦略的に削除することで、YOLO26はCPUハードウェア上で比類のない推論速度を実現し、エッジコンピューティングや低電力デバイスにおいて遥かに優れた性能を発揮します。
  • MuSGDオプティマイザ: Moonshot AIのKimi K2から着想を得たこのハイブリッドオプティマイザは、LLMの学習安定性をコンピュータビジョンにもたらし、学習フェーズにおいてより高速な収束と最小限のメモリ要件を実現します。
  • ProgLoss + STAL: これらの高度な損失関数は、ドローン運用や詳細な航空画像において重要な機能である、小さな物体の認識性能を大幅に向上させます。
  • 汎用性: PP-YOLOE+やYOLOXは純粋に検出に焦点を当てていますが、YOLO26は全く同じ直感的な構文を使用して、インスタンスセグメンテーション姿勢推定、および指向性境界ボックス (OBB)をシームレスに処理します。

YOLO26の詳細はこちら

Link to this sectionUltralyticsによる効率化された学習#

Ultralyticsモデルのメモリ効率と学習速度は比類がなく、膨大なCUDAメモリオーバーヘッドを必要とするTransformerベースの代替モデルを完全に凌駕しています。わずか数行のコードでYOLO26のパワーを活用できます。

from ultralytics import YOLO

# Load the highly efficient, end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with built-in auto-batching and MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT
model.export(format="engine")
Ultralyticsプラットフォームを探る

ノーコードソリューションを求めているチーム向けに、Ultralyticsプラットフォームでは、すべてのYOLOモデルについて、クラウドベースの学習、統合されたデータセットアノテーション、およびワンクリックデプロイメントを提供しています。

Link to this section結論#

PP-YOLOE+とYOLOXの両モデルは、それぞれ高精度と軽量なアンカーフリー設計を提供することで、コンピュータビジョンの歴史にその名を刻みました。しかし、農業、スマートシティ、小売におけるAIの未来を構築している組織にとって、継続的な保守性、使いやすさ、そしてネイティブなNMSフリーアーキテクチャを持つUltralytics YOLO26は、揺るぎない選択肢です。

特定のベンチマークで代替アーキテクチャを検討している場合、包括的なUltralyticsドキュメントを通じて、旧来のYOLO11RT-DETRのようなTransformerベースのオプションを比較することも有益です。統合されたUltralyticsエコシステムへ移行することで、開発者はエッジまたはクラウド環境のいずれにおいても最先端の結果を達成しつつ、貴重な時間とリソースを節約できます。

コントリビューター

コメント