PP-YOLOE+ 対YOLO: 包括的な技術比較
コンピュータビジョンの継続的な進化により、リアルタイム物体検出のための高度に専門化されたアーキテクチャが数多く生み出されている。産業および研究用途向けのモデルを評価する際、2022年に登場した2つの主要なフレームワークがしばしば議論の対象となる:百度のPP-YOLOE+とアリババグループYOLO。両モデルとも、新規のバックボーン、高度なラベル割り当て戦略、特化した特徴融合技術を導入することで、アンカーフリー検出の限界を押し広げた。
本ガイドでは、YOLO詳細な技術分析を提供し、そのアーキテクチャ、トレーニング手法、および導入時の強みを探ります。また、Ultralytics などの最新ソリューションとの比較も検討し、特定の導入制約に最適なツールを選択するお手伝いをします。
PP-YOLOE+: 高精度産業用物体検出
Baiduエコシステム内で開発されたPP-YOLOE+は、オリジナルのPP-YOLOEに対する反復的な改善であり、PaddlePaddleディープラーニングフレームワーク向けに高度に最適化されています。これは、サーバーグレードのハードウェアで精度と推論速度を最大化するように設計されており、産業検査やスマートリテールアプリケーションの有力な候補となっています。
アーキテクチャの革新
PP-YOLOE+は、従来のアンカーフリー検出器を改善するため、いくつかのアーキテクチャ上の強化を導入します:
- CSPRepResNet Backbone: このバックボーンは、RepVGGスタイルのアーキテクチャとCross Stage Partial (CSP) 接続を組み合わせることで、特徴抽出能力と推論レイテンシの強力なバランスを実現します。
- Task Alignment Learning (TAL): PP-YOLOE+は、トレーニング中に分類タスクと回帰タスクをアライメントする高度な動的ラベル割り当て戦略を採用し、トレーニングと推論のパフォーマンス間のギャップを縮小します。
- 効率的なタスクアラインドヘッド(ET-head): 空間解像度を犠牲にすることなく特徴を迅速に処理するように設計された合理化された検出ヘッドであり、高いmAPメトリクスを維持する上で非常に有益です。
PP-YOLOE+の詳細:
- 著者: PaddlePaddle Authors
- 組織:Baidu
- 日付: 2022-04-02
- Arxiv: 2203.16250
- GitHub:PaddlePaddle
- ドキュメント: PP-YOLOE+ ドキュメント
DAMO-YOLO: エッジにおけるニューラルアーキテクチャ探索
Alibaba DAMO Academyによって作成されたDAMO-YOLOは、明確に異なるアプローチを採用しています。研究チームは、バックボーンを手動で設計する代わりに、ニューラルアーキテクチャ探索(NAS)を利用して、厳密なレイテンシ制約に合わせた高効率なネットワークトポロジを発見しました。
主な機能とトレーニング・パイプライン
DAMO-YOLOは、自動化され、蒸留を多用する手法により、低レイテンシーと高精度を重視しています。
- MAE-NASバックボーン: 効率的なニューラルアーキテクチャ探索の自動化手法を利用することで、DAMO-YOLOは、パラメータと精度のトレードオフに特化して最適化されたバックボーンを構築します。
- 効率的なRepGFPN: 再パラメータ化された汎用特徴ピラミッドネットワークは、堅牢なマルチスケール特徴融合を可能にし、モデルが単一フレーム内で非常に異なるサイズのオブジェクトをdetectするのに役立ちます。
- ZeroHead設計: 推論フェーズ中の計算オーバーヘッドを劇的に削減する、高度に簡素化された検出ヘッド。
- 蒸留による性能向上: より小さなバリアントの性能を向上させるため、DAMO-YOLOは、より大きな教師モデルが学生モデルをガイドする複雑な知識蒸留プロセスに大きく依存しています。
DAMO-YOLOの詳細:
- 著者:徐賢哲、江一琪、陳偉華、黄一倫、張元、孫秀宇
- 組織:アリババグループ
- 日付: 2022年11月23日
- Arxiv:2211.15444v2
- GitHub:YOLO
- ドキュメント: DAMO-YOLO ドキュメント
フレームワークのロックイン
PP-YOLOE+とYOLO はいずれも堅牢な理論的革新YOLO ものの、それぞれのフレームワーク(PaddlePaddle )に強く依存している。このため、これらのモデルを標準化されたクラウドまたはエッジ環境へ移植しようとする際に摩擦が生じる可能性がある。
パフォーマンス分析
これらのモデルを評価する際、レイテンシ、計算複雑度(FLOPs)、平均精度(mAP)のトレードオフが、その理想的な展開環境を決定する。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
DAMO-YOLOは、ナノスケールおよびタイニースケールにおいて一般的に低いTensorRTレイテンシーを達成し、高スループットのビデオストリームにおいて非常に競争力があります。しかし、PP-YOLOE+はエクストララージスケール (x) バリアントであり、推論時間が二の次となる複雑な画像において最高レベルの精度を達成します。
Ultralytics :2022年以降のアーキテクチャを凌駕する進化
PP-YOLOE+YOLO 重要なYOLO 、現代の開発にはより高い汎用性、簡便なトレーニングパイプライン、低メモリ要件が求められる。Ultralytics は、従来のモデルで必要だった複雑な蒸留やフレームワーク固有の設定を大幅に凌駕する、摩擦のない体験を提供することでこれらのニーズに対応する。
今日、最高のパフォーマンスバランスを達成しようとしている開発者にとって、Ultralytics YOLO26は、実世界でのデプロイメント効率において革新的な飛躍をもたらします。
YOLO26が業界をリードする理由
2026年初頭にリリースされたYOLO26は、 YOLO11 の遺産を継承し、生産向けに特化した画期的な技術を導入しています:
- エンドツーエンドのNMSフリー設計: YOLO26はNon-Maximum Suppression (NMS)後処理を排除します。これにより、デプロイメントロジックが簡素化され、一貫性があり、予測可能性の高い推論レイテンシが実現されます。
- MuSGDオプティマイザ: 大規模言語モデルの学習技術に触発され、YOLO26はハイブリッドMuSGDオプティマイザを利用しています。これにより、非常に安定した学習と迅速な収束が保証され、貴重なGPU時間を節約できます。
- 優れたCPU推論: Distribution Focal Loss (DFL)を削除し、ネットワークグラフを最適化することで、YOLO26は最大43%高速なCPU推論を達成し、エッジAIデバイスにとって最高の選択肢となります。
- ProgLoss + STAL: これらの高度な損失関数は、ドローン運用とリモートセンシングにとって不可欠な小物体認識において、著しい改善をもたらします。
- 比類ない汎用性: detectに厳密に焦点を当てたPP-YOLOE+とは異なり、YOLO26は姿勢推定、インスタンスsegment、画像分類、oriented bounding boxes (obb)をシームレスにネイティブサポートしています。
使いやすさとトレーニング効率
YOLO トレーニングには、重い教師-生徒蒸留パイプラインの管理が必要です。これに対し、Ultralytics トレーニングにはわずか数行のPythonのみで済み、CUDA アーキテクチャと比較してCUDA 最小限です。
from ultralytics import YOLO
# Initialize the cutting-edge YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model with native MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run an end-to-end NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")
理想的な使用例と推奨事項
最適なコンピュータビジョンアーキテクチャの選択は、チームのエコシステム統合とデプロイメント目標に大きく依存します。
- PP-YOLOE+を選択してください(パイプライン全体がBaidu PaddlePaddleエコシステムに深く組み込まれている場合。精度を最大化することが主な目的である強力なサーバー上での静止画像分析には、依然として優れた選択肢です。)
- DAMO-YOLOを選択してください(ニューラルアーキテクチャ探索アルゴリズムに関する特定の研究を行っている場合、または積極的なTensorRTレイテンシ目標を達成するために複雑な蒸留パイプラインを維持するエンジニアリングリソースがある場合)。
- ほとんどすべての現代の生産シナリオにおいて、Ultralytics YOLO26を選択してください。Ultralyticsエコシステムは、比類のないドキュメント、低いメモリ要件、および合理化されたAPIを提供します。自動品質管理システムを構築する場合でも、Raspberry Piでリアルタイムtrackを実行する場合でも、YOLO26のNMS-freeアーキテクチャは、すぐに高速で安定した高精度な結果を保証します。
他の最先端ソリューションを検討している開発者向けに、Ultralyticsのドキュメントでは、広く採用されているYOLOv8と堅牢なYOLO11に関する豊富なリソースも提供しており、あらゆるコンピュータービジョンの課題に対応する適切なモデルを確実に選択できます。