コンテンツにスキップ

YOLOXとPP-YOLOE+の比較:アンカーなし物体検出の深掘り

適切なコンピュータビジョンアーキテクチャを選択することは、プロジェクトの成功にとって極めて重要であり、計算効率と検出精度のバランスを取る必要がある。この技術比較では、YOLOXと PP-YOLOE+の2つの著名なアンカーフリー物体検出モデルを調査し、リアルタイムビジョンAIの展望に影響を与えました。それぞれのアーキテクチャの革新性、ベンチマーク性能、導入時の考慮点を分析し、お客様のアプリケーションに最適なモデルを決定するお手伝いをします。

YOLOX:シンプルさとパフォーマンスの融合

メグヴィが2021年に発表したYOLOXは、アンカーレス機構に変更し、高度な検出技術を取り入れることで、YOLO シリーズを活性化させた。高性能を維持しながら検出パイプラインを簡素化することで、学術研究と産業応用のギャップを埋めることを目指している。

技術詳細:

アーキテクチャと主要なイノベーション

YOLOXは、しばしばヒューリスティックなチューニングを必要としたアンカーボックスの制約を取り除くことで、これまでのYOLO 反復とは一線を画している。その代わりに、物体検出をグリッド上の回帰問題として扱い、バウンディングボックスの座標を直接予測する。

  • 非結合型ヘッド:YOLOXは非結合型ヘッド構造を採用し、分類とローカリゼーションのタスクを異なるブランチに分離しています。この分離により、分類の信頼性とローカライゼーションの精度の対立が解消され、モデル学習時の収束が速くなります。
  • SimOTAラベル割り当て:YOLOXのコア・コンポーネントはSimOTA(Simplified Optimal Transport Assignment)である。この動的なラベル割り当て戦略は、分類と回帰の両方の損失に基づいて、地上真実のオブジェクトと予測のマッチングのコストを計算し、高品質の予測が優先されるようにします。
  • アンカーフリー設計: アンカーボックスを排除することで、YOLOXは設計パラメータの数を減らし、ネットワークの複雑さを単純化し、さまざまな形状のオブジェクトへの汎用性を高めています。

SimOTAを理解する

SimOTAはラベル割り当て問題を最適輸送タスクとして扱う。SimOTAは、グローバルマッチングコストを最小化するグランドトゥルースにポジティブサンプルを動的に割り当てる。これにより、手動で閾値を調整することなく、最適な学習サンプルを適応的に選択することができ、混雑したシーンでの精度が大幅に向上します。

長所と短所

長所 YOLOXはスピードと精度のバランスがよく、汎用的な検出タスクに適している。アンカーを使用しないため、特定のデータセット用にアンカーをクラスタリングする必要がなく、導入パイプラインが簡素化される。MosaicやMixUp ような強力なデータ補強テクニックを使用することで、その堅牢性はさらに向上する。

弱点: リリース当時は革新的であったが、CPU上でのYOLOXの推論スピードは、より最適化された新しいアーキテクチャに遅れをとる可能性がある。さらに、環境とトレーニングパイプラインのセットアップは、より統合された最新のフレームワークと比較して複雑な場合がある。

YOLOXの詳細について。

PP-YOLOE+:百度の産業大国

PP-YOLOE+は、バイドゥのチームがPaddlePaddle エコシステムのために開発したPP-YOLOEアーキテクチャの進化版である。2022年にリリースされ、高精度と推論効率が最優先される産業用アプリケーション向けに特別に設計されている。

技術詳細:

アーキテクチャと主な機能

PP-YOLOE+は、アンカーフリーのパラダイムを基盤としているが、特にGPU ハードウェア上で、精度と速度の限界を押し広げるためにいくつかの最適化を導入している。

  • バックボーンとネック大きな有効受容野を持つCSPRepResNetバックボーンとPAN(Path Aggregation Network)ネックを利用。この組み合わせにより、複数のスケールでロバストな特徴抽出が保証される。
  • タスクアライメント学習(TAL):分類の信頼度とローカライズの品質との間のずれを解決するために、PP-YOLOE+はTALを採用しています。これは、学習中に2つのタスクを明示的に整列させ、最も高い信頼度スコアが最も正確なバウンディングボックスに対応するようにします。
  • 効率的タスクアラインドヘッド(ET-Head):ET-Headは、非結合型ヘッドの利点を維持しながら計算効率を高めるように設計されており、高速なリアルタイム推論のためにモデルを最適化します。

長所と短所

長所 PP-YOLOE+は、COCO データセットにおいて卓越した性能を発揮し、同様のモデルサイズにおいて、平均平均精度(mAP)でYOLOXを上回ることが多い。工業用欠陥検出や、正確な位置特定を必要とするシナリオに非常に有効です。

弱点: 主な制限は、PaddlePaddle フレームワークへの依存である。主に PyTorchを使用している開発者にとって、PP-YOLOE+を採用することは、学習曲線が険しくなり、既存のMLOpsパイプラインと統合したり、モデルを ONNX.

PP-YOLOE+の詳細について。

技術比較:指標と分析

YOLOXとPP-YOLOE+を比較すると、設計思想の違いが性能指標で明らかになります。次の表は、さまざまなモデルスケールにおける両者の能力を並べて示したものです。

モデルサイズ
(ピクセル)
mAP
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

パフォーマンス分析

  • 精度:PP-YOLOE+は、同程度のモデルサイズで一貫してYOLOXよりも高いmAP スコアを達成している。特に、PP-YOLOE+xモデルは54.7%のmAP達成し、YOLOX-xモデルを上回った。これは、タスクアライメント学習とCSPRepResNetバックボーンが、きめ細かな詳細を捉える上で有効であることを強調している。
  • 効率:計算コストの面では、PP-YOLOE+モデルは一般に、より少ないパラメータとFLOP数で優れた精度を実現します。この効率性は、熱や電力バジェットに制限のあるハードウェア上に高精度モデルを展開する上で非常に重要です。
  • スピード:推論スピードは拮抗している。速度ではYOLOX-sがわずかに優勢ですが、より大きなPP-YOLOE+モデルは、TensorRTハードウェア上で、より速い推論時間を示しており、サーバーサイドでの展開において、より優れたスケーラビリティを示唆しています。

実際のユースケース

これらのモデルのどちらを選択するかは、多くの場合、特定の作戦環境とタスク要件に依存する。

YOLOXの使用例

  • 研究のベースラインYOLOXは、そのクリーンでアンカーのないアーキテクチャにより、新しい検出手法を開発するためのベースラインとして頻繁に使用されている。
  • ロボット工学ナビゲーション:速度と精度のトレードオフが良いため、リアルタイムの障害物回避が必要なロボット工学の知覚モジュールに適している。
  • 自律システム:YOLOXの非結合型ヘッドは、安定したバウンディングボックス回帰を必要とするタスクを支援し、自律走行シナリオでのオブジェクト追跡に役立ちます。

PP-YOLOE+の使用例

  • 産業用品質管理:このモデルの高い精度は、製造業におけるAIの中核である製造ラインの微細な欠陥の特定に最適です。
  • 製造業におけるエッジAI:産業環境でよく使用されるハードウェア用に最適化されたエクスポートサポートにより、PP-YOLOE+はスマートカメラやエッジアプライアンスによく適合します。
  • スマートリテール:高い精度は、在庫管理や棚の監視など、混雑した小売環境でのアプリケーションに役立ちます。

Ultralytics YOLO11:優れた代替品

YOLOXとPP-YOLOE+は有能なモデルである、 Ultralytics YOLO11は、コンピュータ・ビジョンの最先端を代表するものであり、先行モデルの限界に対処する包括的なソリューションを提供します。YOLO11 11は、単なる検出モデルではなく、現代の開発者のために設計された統一フレームワークです。

YOLO11選ぶ理由

  • 比類のない汎用性:YOLOXやPP-YOLOE+が主に検出に重点を置いているのとは異なり、YOLO11 、インスタンスのセグメンテーションポーズ推定OBB(Oriented Bounding Box)、分類など、幅広いタスクをネイティブにサポートしています。これにより、単一のコードベースで多面的な問題に取り組むことができます。
  • 使いやすさ: Ultralytics 開発者の使いやすさを最優先しています。シンプルなPython APIとコマンドラインインターフェイスにより、インストールからトレーニングまで数分で完了します。豊富なドキュメントにより、迷うことはありません。
  • パフォーマンス・バランス: YOLO11 11は、スピードと精度の最適なトレードオフを提供するように設計されています。トランスフォーマーベースのモデルと比較して、トレーニング時に必要なメモリ量が少なく、最先端の結果を提供するため、より幅広いハードウェアで利用することができます。
  • 整備されたエコシステム:活発なコミュニティと頻繁なアップデートに支えられたUltralytics エコシステムは、お客様のツールを常に最新の状態に保ちます。データセット管理やMLOpsのためのプラットフォームとの統合は、プロジェクトのライフサイクル全体を合理化します。
  • トレーニングの効率化:最適化された学習ルーチンと高品質な事前学習済み重みにより、YOLO11 11は収束が速くなり、貴重な計算時間とエネルギーを節約できます。

YOLO11始めよう

YOLO11 予測を実行するのは驚くほど簡単だ。わずか数行のコードで画像内のオブジェクトをdetect できる:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display results
results[0].show()

YOLO11 YOLOXの比較、あるいはYOLO11 PP-YOLOE+の比較については、最新世代が競合他社をどのように凌駕しているかをご覧いただきたい。


コメント