コンテンツにスキップ

PP-YOLOE+ vs.YOLO:産業用物体検出の深層解析

リアルタイムコンピュータビジョンの競争の激しい分野において、最適なアーキテクチャの選択はエンジニアや研究者にとって極めて重要な決定事項である。中国のテックエコシステムを代表する二大巨頭、百度のPP-YOLOE+と YOLO、速度と精度のトレードオフを解決する上で異なるアプローチを提供している。両モデルともニューラルアーキテクチャサーチ(NAS)や再パラメータ化といった先進技術を活用しつつ、異なる導入環境やエコシステムの選好に対応している。

本ガイドでは包括的な技術比較を行い、各モデルのアーキテクチャ革新、ベンチマーク性能、実世界アプリケーションへの適合性を分析します。さらに、Ultralytics アーキテクチャがこれらの従来モデルの限界をどのように克服し、エッジとクラウド展開向けの統合ソリューションを提供するかについても探求します。

PP-YOLOE+: 洗練されたアンカーフリー検出

2022年4月に百度のPaddlePaddle によってリリースされたPP-YOLOE+は、PP-YOLOEアーキテクチャを進化させたもので、学習収束と推論速度の向上を目的としています。これはPaddlePaddle 内における高性能でアンカーフリーな検出技術への移行を象徴しています。

著者: PaddlePaddle
組織:Baidu
日付:2022年4月2日
Arxiv:PP-YOLOE Paper
GitHub:PaddlePaddle

アーキテクチャの革新

PP-YOLOE+は、高精度を維持しながらレイテンシを低減することを目的としたいくつかの重要な設計選択を統合することで、先行モデルの成功を基盤としています:

  • CSPRepResStage:本バックボーンは、再パラメータ化残差ブロックと組み合わせたCSP(クロスステージ部分)構造を採用している。これにより、モデルは学習時には複雑な特徴抽出の恩恵を受けつつ、推論時にはより単純で高速な構造へと収縮することが可能となる。
  • アンカーフリーパラダイム:アンカーボックスを排除することで、PP-YOLOE+はハイパーパラメータ探索空間を簡素化し、アンカーベース検出器にしばしば伴うエンジニアリング負担を軽減する。
  • タスクアラインメント学習(TAL):分類と位置特定における信頼度の不整合に対処するため、PP-YOLOE+はTALを採用する。これは分類スコアとIoU組み合わせた指標に基づき高品質な陽性例を選択する動的ラベル割り当て戦略である。
  • ET-Head:効率的なタスク連動ヘッド(ET-Head)は分類と回帰の枝を分離し、特徴表現が干渉なしに各タスクごとに最適化されることを保証する。

PP-YOLOEについて詳しく知る

DAMO-YOLO: NAS駆動の効率性

2022年11月下旬にアリババグループがYOLO Distillation-Augmented MOdel)YOLO 、ニューラルアーキテクチャ検索(NAS)と高度な蒸留技術を活用し、低遅延性能の限界を押し広げます。産業用ハードウェアにおけるスループットを最大化するために特別に設計されています。

著者:許賢哲, 江一琪, 陳偉華, 黄一倫, 張元, 孫秀宇
所属:Alibaba Group
日付:2022年11月23日
Arxiv:YOLO
GitHub:YOLO

アーキテクチャの革新

YOLO 、自動化されたアーキテクチャ設計とコンパクトな特徴融合に焦点を当てることでYOLO :

  • MAE-NASバックボーン:手動設計のバックボーンとは異なり、YOLO ニューラルアーキテクチャ検索(MAE-NAS)によって発見された構造YOLO 。これにより、特定のハードウェア制約に対してネットワークの深さと幅が数学的に最適化されます。
  • RepGFPN:効率的な汎用特徴ピラミッドネットワーク(RepGFPN)は、特徴融合経路とチャネル深さを最適化することで標準FPNを改良し、歩行者から車両に至るまでの物体のマルチスケール検出性能を向上させる。
  • ZeroHead:軽量な検出ヘッド設計であり、リアルタイムアプリケーションに不可欠な最終予測層の計算コスト(FLOPs)を大幅に削減します。
  • AlignedOTA:最適輸送割り当て(OTA)の改良版であり、学習中に分類と回帰の目的関数をより良く整合させることで、収束を早める。

DAMO-YOLOの詳細

パフォーマンス比較

これらのモデルを比較する際、選択は特定のハードウェアターゲットと、パラメータ数と精度との許容可能なトレードオフに帰着することが多い。PP-YOLOE+はサーバークラスのGPU上で概ね堅牢な性能を発揮する一方、YOLO NAS由来のバックボーンにより、積極的なレイテンシ最適化を必要とするシナリオでYOLO 。

以下の表は主要な指標を示しています。YOLO はZeroHeadおよびRepGFPNの最適化により、同等の精度レベルにおいてYOLO 低いレイテンシを達成することに留意してください。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Ultralyticsの利点: YOLO26の登場

YOLO 競争力のあるYOLO 、複雑なフレームワーク固有の環境(PaddlePaddle 内部スタック)を必要とする場合が多くあります。汎用的で実運用可能なソリューションを求める開発者にとって、Ultralytics 決定的な優位性を提供します。

2026年にリリースされたYOLO26は、物体検出の展開における歴史的な摩擦点を解決します。単なるモデルではなく、使いやすさと迅速な反復を目的に設計された完全なエコシステムです。

YOLO26の主な特徴

  1. エンドツーエンドNMS:PP-YOLOE+YOLO NMS 微調整が必要な場合とは異なり、YOLO26はネイティブにエンドツーエンドです。これにより非最大抑制(NMS)が完全に不要となり、確定的な推論遅延が保証され、デプロイメントパイプラインが簡素化されます。
  2. MuSGDオプティマイザー:大規模言語モデル(Moonshot AIのKimi K2など)のトレーニングにおける革新に着想を得て、YOLO26はMuSGDオプティマイザーを採用しています。このハイブリッド手法はトレーニングの動的挙動を安定化させ、従来のアーキテクチャSGD と比較して、より少ないエポック数でモデルを迅速に収束させることが可能です。
  3. ProgLoss + STAL:小物体検出はProgLossとソフトタスクアラインメント学習(STAL)によって大幅に改善される。これによりYOLO26は、微小な欠陥の精度が極めて重要となる航空写真や産業検査において特に効果を発揮する。
  4. エッジ最適化:ディストリビューション焦点損失(DFL)を除去することで、YOLO26 CPU 最大43%高速化し、ラズベリーパイ、モバイルデバイス、IoTアプリケーションにおいて優れた選択肢となります。
  5. 比類なき汎用性:競合他社が主に検出に注力する中、Ultralytics 単一の統合API内でインスタンスセグメンテーション姿勢推定OBB分類をサポートします。

効率化されたワークフロー

Ultralytics では、データアノテーションからデプロイまでを数分で実現できます。Ultralytics を活用すれば、データセットの管理、クラウド上でのトレーニング、あらゆる形式(ONNX、TensorRT、CoreML)へのエクスポートを、定型コードを記述することなく行えます。

コード例: 実践におけるシンプルさ

Ultralytics 最先端モデルのトレーニングはUltralytics 。Python アーキテクチャ定義とハイパーパラメータ調整の複雑さを抽象化します。

from ultralytics import YOLO

# Load the latest YOLO26 model (nano version for edge devices)
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
# YOLO26 automatically handles anchor-free assignment and efficient dataloading
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on an image
# NMS-free output is returned directly, ready for downstream logic
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the results
predictions[0].show()

YOLO26についてさらに詳しく

ユースケースと推奨事項

適切なモデルの選択は、エコシステム統合、ハードウェアの可用性、開発リソースに関する特定の制約条件によって決まります。

  • インフラがすでに百度PaddlePaddleエコシステムと深く統合されている場合は、PP-YOLOE+を選択してください。静的画像処理において最大化を図る場合、有力な候補となります。 mAP を最大化することが最優先であり、かつPaddle固有の依存関係を管理するエンジニアリング能力を有している場合に最適な選択肢です。
  • ニューラルアーキテクチャサーチの研究を行う場合、またはサポート対象ハードウェア上で特定のレイテンシ最適化が必要なYOLO。その軽量なヘッドにより、高スループットの動画解析に効率的です。ただし、蒸留を多用したトレーニングパイプラインを運用できることが前提となります。
  • 速度、精度、開発者体験の最適なバランスを求めるなら Ultralytics を選択してください。NMS設計によりデプロイロジックが簡素化され、DFLの排除によりCPUやエッジデバイス上で極めて高速に動作します。スマート小売システム構築から自律型農業ロボット開発まで、充実したドキュメントと活発なコミュニティサポートがプロジェクトの将来性を保証します。

他の効率的なアーキテクチャに関心のあるユーザー向けに、ドキュメントでは以下のようなモデルについても解説しています YOLO11RT-DETRなどのモデルについても解説しており、あらゆるコンピュータビジョン課題に対応する多様なツールを提供しています。

結論

PP-YOLO 、アンカーフリー物体検出の進歩に大きくYOLO 。PP-YOLOE+はタスクアラインメントによる学習プロセスの洗練を実現し、YOLO NASとディスティレーションのYOLO 。しかし、それぞれの学習パイプラインの複雑さとエコシステムへの依存は、多くのチームにとって障壁となり得る。

Ultralytics 、これらの高度な機能を民主化することで際立っています。NMSMuSGD最適化優れたエッジ性能を組み合わせることで、プロトタイプから本番環境まで最小限の摩擦でスケーリングする包括的なソリューションを提供します。生産性とパフォーマンスを最大化したい開発者にとって、Ultralytics 業界標準Ultralytics 。


コメント