PP-YOLOE+ 対 YOLOX：リアルタイム物体検出器の進化を導く

コンピュータビジョンの分野は、物体検出モデルの急速な進化によって大きく形作られてきた。この進化の過程における顕著なマイルストーンとして、リアルタイム性能と精度の限界を押し広げた2つのアーキテクチャ、PP-YOLOE+とYOLOXが挙げられる。次世代の視覚認識システムを構築する研究者や開発者にとって、これらのアーキテクチャの微妙な差異、性能上のトレードオフ、そして理想的な導入シナリオを理解することは極めて重要である。

モデル系統と詳細

技術的なアーキテクチャに深く踏み込む前に、両モデルの起源を文脈化することが役立ちます。それぞれが、支援組織の影響を強く受けながら、物体検出における特定のボトルネックに対処するために開発されました。

PP-YOLOE+の詳細:

著者: PaddlePaddle Authors
組織：Baidu
日付: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub:PaddlePaddle
ドキュメント: PaddleDetection PP-YOLOE+ README

PP-YOLOE+の詳細について。

YOLOXの詳細:

著者: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun
組織：Megvii
日付: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub:https://github.com/Megvii-BaseDetection/YOLOX
ドキュメント: YOLOX 公式ドキュメント

YOLOXの詳細について。

アーキテクチャの革新

これら二つの検出器の根本的な違いは、特徴抽出と境界ボックス予測へのアプローチにある。

YOLOXは、2021年にYOLOファミリーをアンカーフリー設計にうまく適応させることで注目を集めました。アンカーボックスを削除することによって、YOLOXはカスタムデータセットに必要な設計パラメータとヒューリスティックチューニングの数を大幅に削減しました。さらに、デカップルドヘッドを導入し、分類タスクとローカライゼーションタスクを別々のニューラル経路に分離しました。この分離は、オブジェクトの分類とその空間座標の回帰との間に内在する競合を解決し、トレーニング中の収束を高速化しました。

PP-YOLOE+は、Baiduによって開発され、PaddlePaddleエコシステム向けに高度に最適化されています。前身であるPP-YOLOv2を基盤とし、動的なラベル割り当て戦略 (TAL) とCSPRepResNetと呼ばれる新しいバックボーンを導入しています。このバックボーンは構造的再パラメータ化を活用しており、モデルはトレーニング中に複雑なマルチブランチアーキテクチャの恩恵を受けつつ、推論時には高速なシングルパスネットワークにシームレスに統合されます。

構造的再パラメータ化

構造的再パラメータ化により、モデルは複数の並列分岐で学習（勾配の流れを改善）した後、それらの分岐を数学的に単一の畳み込み層に統合して展開できるため、精度を損なうことなく推論速度を向上させられる。

パフォーマンスとメトリクスの比較

これらのモデルを直接比較すると、性能スペクトルの異なる端点をそれぞれ担っていることが明らかになる。PP-YOLOE+は一般的に絶対的な精度がより高く、一方YOLOXはハードウェア制約が厳しい環境に適した極めて軽量なバリエーションを提供する点で優れている。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

注：segment 最高のパフォーマンスを示した値は太字で segment 。

YOLOXはディスク容量やCUDA ほとんど消費しないnanoおよびtinyバリエーションを提供する一方、PP-YOLOE+はサーバーグレードのハードウェアに対して驚異的な拡張性を発揮し、百度エコシステム内の重工業アプリケーション向け堅牢な選択肢となっています。

現実世界のアプリケーション

これらのフレームワークの選択は、多くの場合、統合要件とハードウェアターゲットが決め手となります。

YOLOXが優れている点

アンカーフリーの特性と極端なエッジバリアントの利用可能性により、YOLOXはロボティクスやマイクロコントローラーへのデプロイメントで人気があります。そのシンプルな後処理パイプラインは、TensorRTやNCNNのようなカスタマイズされたNPUハードウェア形式への移植を容易にします。

PP-YOLOE+が優れている点

Baiduのテクノロジースタックを利用し、アジアの製造拠点に深く統合されている組織にとって、PP-YOLOE+は、デプロイメントへの事前最適化されたパスを提供します。厳格なリアルタイム制約によりわずかに重いモデルウェイトが許容される、強力なサーバーラックで実行される高精度な品質検査シナリオでその真価を発揮します。

ユースケースと推奨事項

PP-YOLOE+とYOLOXの選択は、特定のプロジェクト要件、デプロイ制約、およびエコシステム設定に依存します。

PP-YOLOE+を選択するタイミング

PP-YOLOE+は以下に最適です：

PaddlePaddleエコシステム統合: BaiduのPaddlePaddleフレームワークとツールに基づいて既存のインフラストラクチャを構築している組織。
Paddle Lite Edgeデプロイメント: Paddle LiteまたはPaddle推論エンジン専用に高度に最適化された推論カーネルを備えたハードウェアへのデプロイ。
高精度サーバーサイドdetect: フレームワークの依存関係が問題とならない、強力なGPUサーバー上での最大限のdetect精度を優先するシナリオ。

YOLOXを選択すべき時

YOLOXは以下の方におすすめです：

アンカーフリー検出研究: YOLOXのクリーンなアンカーフリーアーキテクチャをベースラインとして使用し、新しい検出ヘッドや損失関数を実験する学術研究。
超軽量エッジデバイス: YOLOX-Nanoバリアントの極めて小さいフットプリント（0.91Mパラメータ）が重要となるマイクロコントローラーやレガシーモバイルハードウェアへのデプロイ。
SimOTAラベル割り当て研究: 最適輸送ベースのラベル割り当て戦略と、それがトレーニング収束に与える影響を調査する研究プロジェクト。

Ultralytics YOLO26）を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

Ultralyticsの利点: YOLO26の登場

PP-YOLOE+とYOLOXは優れた研究上のマイルストーンではあるものの、現代のデプロイ環境では、より一貫性があり開発者に優しい体験と優れた効率性が求められています。Ultralytics 、まさにこの点において、現代のビジュアルAIの基準を完全に再定義するものです。

孤立した研究リポジトリから本番環境対応システムへの移行を検討しているチーム向けに、Ultralyticsは堅牢で十分に維持されたエコシステムを提供します。モデルのトレーニングに複雑な環境設定はもはや必要なく、統一されたPython APIにアクセスするだけで簡単に行えます。

Ultralytics YOLO26の主な利点は以下の通りです：

エンドツーエンドのNMSフリー設計: 冗長なバウンディングボックスをフィルタリングするためにNon-Maximum Suppression (NMS)を必要とするPP-YOLOE+とYOLOXの両方とは異なり、YOLO26はネイティブにエンドツーエンドです。これにより、レイテンシのボトルネックが解消され、デプロイメントロジックが大幅に簡素化されます。
最大43%高速なCPU推論: Distribution Focal Loss (DFL) を戦略的に削除することで、YOLO26 は CPU ハードウェアで比類のない推論速度を実現し、エッジコンピューティングおよび低電力デバイスにとって遥かに優れています。
MuSGDオプティマイザ: Moonshot AIのKimi K2に着想を得たこのハイブリッドオプティマイザは、LLMトレーニングの安定性をコンピュータビジョンにもたらし、はるかに速い収束を保証し、トレーニングフェーズ中のメモリ要件を最小限に抑えます。
ProgLoss + STAL: これらの高度な損失関数は、ドローン運用と高精細な航空画像にとって重要な機能である小物体認識において、顕著な改善を実現します。
汎用性: PP-YOLOE+とYOLOXが純粋に検出に焦点を当てているのに対し、YOLO26は全く同じ直感的な構文を使用してインスタンスセグメンテーション、姿勢推定、および指向性バウンディングボックス (OBB)をシームレスに処理します。

YOLO26についてさらに詳しく

Ultralyticsによる効率化されたトレーニング

Ultralytics メモリ効率と学習速度は比類なく、膨大なCUDA オーバーヘッドを必要とするトランスフォーマーベースの代替モデルを完全に凌駕します。わずか数行のコードでYOLO26のパワーを活用できます：

from ultralytics import YOLO

# Load the highly efficient, end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with built-in auto-batching and MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT
model.export(format="engine")

Ultralytics Platformを探る

ノーコードソリューションを探しているチームにとって、Ultralytics Platformは、クラウドベースのトレーニング、統合されたデータセットアノテーション、およびすべてのYOLOモデルに対するワンクリックデプロイメントを提供します。

結論

PP-YOLOE+とYOLOXは両方ともコンピュータビジョンの歴史に名を刻んでおり、それぞれ高精度と軽量なアンカーフリー設計を提供しています。しかし、農業AI、スマートシティ、小売の未来を築く組織にとって、Ultralytics YOLO26の継続的なメンテナンス、使いやすさ、およびネイティブなNMSフリーアーキテクチャは、議論の余地のない選択肢となっています。

特定のベンチマーク向けに代替アーキテクチャを検討している場合、旧式の YOLO11 や、トランスフォーマーベースの RT-DETR といったUltralytics 。統合されたUltralytics に移行することで、開発者は貴重な時間とリソースを節約しつつ、あらゆるエッジやクラウド環境において最先端の結果を達成できます。