PP-YOLOE+とYOLO-YOLOの技術比較
最適な物体検出モデルを選択することは、効率的なコンピュータビジョンアプリケーションの開発において極めて重要なステップである。これは、精度、推論レイテンシ、ハードウェア制約の間の複雑なトレードオフをナビゲートすることを含む。この技術比較では、アジアのハイテク大手による2つの著名なモデルを調査する:バイドゥのPaddlePaddle チームによって開発されたPP-YOLOE+と、アリババ・グループによって設計されたYOLO-YOLOである。両モデルとも、リアルタイム検出器の進化における重要な進歩を象徴するものであり、ユニークなアーキテクチャーの革新と性能プロファイルを提供している。
これらのモデルを分析する一方で、ビジョンAIの広い展望を考慮することは有益である。以下のようなソリューション Ultralytics YOLO11のようなソリューションは、ユーザビリティと堅牢でフレームワークにとらわれないエコシステムに重点を置いた最先端のパフォーマンスを提供し、魅力的な選択肢を提供します。
パフォーマンス指標の比較
次の表は、平均平均精度(mAP)、T4 GPUを使用した推論速度など、主要なパフォーマンス・メトリクスの直接比較を示しています。 TensorRTパラメータ数、計算複雑度(FLOPs)を含みます。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
PP-YOLOE+:パドルのエコシステムにおける洗練された精度
PP-YOLOE+はPP-YOLOEの進化版であり、バイドゥのフラッグシップ・シングルステージ・アンカーフリー検出器である。PaddleDetectionスイートの一部として2022年にリリースされ、高精度検出を重視し、PaddlePaddle ディープラーニングフレームワークに深く最適化されている。
技術詳細:
- 著者: PaddlePaddle Authors
- 組織百度
- Date: 2022-04-02
- Arxiv:https://arxiv.org/abs/2203.16250
- GitHub:https://github.com/PaddlePaddle/PaddleDetection/
- ドキュメントPP-YOLOE+ ドキュメンテーション
アーキテクチャとコア技術
PP-YOLOE+は、精度を高めながら検出パイプラインを合理化するために、いくつかの高度なコンポーネントを統合している。
- Anchor-Free Mechanism: 事前定義されたアンカーボックスを削除することにより、モデルはハイパーパラメータ調整の複雑さを軽減し、トレーニングの収束を加速します。これは、多くの最新アーキテクチャで見られる傾向です。
- CSPRepResNetバックボーン:このモデルはCSPRepResNetバックボーンを採用しており、CSP(Cross Stage Partial)ネットワークの勾配フローの利点と、再パラメータ化されたResNetブロックの推論効率を組み合わせている。
- タスクアライメント学習(TAL):分類の信頼性とローカライゼーションの品質との間の不一致を解決するために、PP-YOLOE+はTALを利用する。この動的なラベル割り当て戦略により、トレーニング中に最高品質の予測が優先されます。
- 効率的なタスク・アラインド・ヘッド(ET-Head):分離された検出ヘッドは、分類と回帰の特徴を分離し、干渉することなく各タスクを独立して最適化することができます。
生態系への依存
PP-YOLOE+はPaddlePaddleネイティブです。その環境では非常に効果的ですが、PyTorch 慣れ親しんだユーザーは、移行やツール(例えば paddle2onnx エクスポート用)は、ネイティブのPyTorch モデルと比較して、追加の学習が必要です。
長所と短所
長所: PP-YOLOE+は、生の精度を優先するシナリオで輝きを放つ。ミディアム」、「ラージ」、「エクストララージ」のバリエーションは、COCO データセットで強固なmAP スコアを示し、工業品質管理のような詳細な検査タスクに適しています。
弱点:
主な制限は、フレームワークのカップリングである。ツール、デプロイメントパス、コミュニティリソースは主にPaddlePaddle集中しており、PyTorch TensorFlow エコシステムで確立されたチームにとっては摩擦点となりうる。さらに、小さいモデル(例えば s)は驚くほど効率的だが、大きなモデルは計算が重くなることがある。
DAMO-YOLO:アリババによるスピード重視のイノベーション
アリババ・グループが2022年後半に発表したYOLO-YOLOは、低レイテンシーと高性能の間のスイートスポットをターゲットにしている。広範なニューラル・アーキテクチャー・サーチ(NAS)を活用し、効率的な構造を自動的に発見する。
技術詳細:
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織アリババグループ
- Date: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444
- GitHub:https://github.com/tinyvision/DAMO-YOLO
- ドキュメントDAMO-YOLO ドキュメンテーション
アーキテクチャと主な機能
DAMO-YOLO 特徴は、推論速度を積極的に最適化することである。
- MAE-NASバックボーン:特徴抽出器を手作りする代わりに、著者らはMethod-Aware Efficient NASを使って、深さと幅が異なるバックボーンを生成し、特定の計算予算に最適化した。
- 効率的なRepGFPN:ネックアーキテクチャである一般化特徴ピラミッドネットワーク(GFPN)は、ハードウェアの待ち時間を最小限に抑えながら、特徴融合の効率を最大化するために再パラメータ化を利用する。
- ZeroHeadテクノロジー:注目すべき機能は「ZeroHead」で、最終予測レイヤーを簡素化することでFLOPを大幅に削減し、重い仕事はバックボーンとネックに任せる。
- AlignedOTA: このラベル割り当て戦略は、分類と回帰の目的を調整し、トレーニング中に選択された「ポジティブ」サンプルが最終的な損失に最も効果的に貢献するようにします。
長所と短所
強み: DAMO-YOLO 非常に速い。その「tiny」と「small」モデルは、その速度に対して印象的なmAP 提供し、リアルタイム推論シナリオにおいて多くの競合他社を凌駕する。このため、自律型ドローンや交通監視など、ミリ秒単位のレイテンシーが重要なエッジAIアプリケーションに最適です。
弱点: 研究中心のリリースであるため、YOLO -YOLO には、より成熟したプロジェクトに見られる洗練されたデプロイツールや広範なドキュメントが欠けているかもしれない。また、特定のNAS構造に依存しているため、アーキテクチャを変更したいユーザーにとって、カスタマイズや微調整がより複雑になる可能性がある。
Ultralytics 優位性YOLO11 優れた選択肢である理由
PP-YOLOE+とYOLO -YOLOはそれぞれのニッチで競争力のある機能を提供している、 Ultralytics YOLO11は、現代のコンピュータ・ビジョンのための最もバランスの取れた、汎用的で開発者に優しいソリューションとして際立っています。
比類のない使いやすさとエコシステム
Ultralytics 、ユーザー体験を優先することで、AIの民主化を実現した。複雑なセットアップが必要な研究リポジトリとは異なり、YOLO11 シンプルなpipインストールと直感的なPython APIでアクセスできる。Ultralytics エコシステムは積極的にメンテナンスされており、最新のハードウェア(NVIDIA JetsonやApple Mシリーズチップなど)やソフトウェアライブラリとの互換性を確保しています。
最適なパフォーマンスバランス
YOLO11 11は、スピードを犠牲にすることなく、最先端の精度を実現するように設計されています。リアルタイム・アプリケーションに必要な推論効率を維持しながら、PP-YOLOE+のようなモデルの精度に匹敵するか、それを上回ることがよくあります。このバランスは、精度とスループットの両方が譲れない実世界での展開において非常に重要です。
効率性と多用途性
Ultralytics モデルの主な利点の1つは、その汎用性です。DAMO-YOLO PP-YOLOE+が主に物体検出に焦点を当てているのに対し、単一のYOLO11 モデル・アーキテクチャがサポートしています:
さらに、YOLO11 、多くのトランスフォーマーベースの代替品や旧バージョンのYOLO 比較して、学習と推論の両方で必要なメモリが少なくなるように最適化されている。この効率性により、開発者は標準的なGPUでより大きなバッチサイズを学習し、より制約の多いエッジデバイスに展開することができる。
トレーニング効率
すぐに利用可能な事前学習済みの重みと最適化された学習パイプラインにより、ユーザーは最小限の学習時間でカスタムデータセットで高いパフォーマンスを達成することができます。
例YOLO11実行
Ultralytics使えば、高度なビジョン機能を簡単に導入できる。
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Perform object detection on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
results[0].show()
結論
PP-YOLOE+とYOLO -YOLOはどちらも、コンピュータ・ビジョンの分野に多大な貢献をしている。PP-YOLOE+は、DAMO-YOLOに深く組み込まれたユーザーの有力な候補である。 PaddlePaddleエコシステムに深く組み込まれ、高い精度を必要とするユーザーにとって有力な候補となる。DAMO-YOLO、エッジデバイス上でスピードを最大化するための革新的なアーキテクチャの選択肢を提供します。
しかし、大多数の開発者や企業にとっては Ultralytics YOLO11をお勧めします。その組み合わせは PyTorchネイティブサポート、マルチタスクの汎用性、優れたドキュメント、活発なコミュニティサポートの組み合わせは、AIソリューションの市場投入までの時間を大幅に短縮します。セキュリティアラームシステムを構築する場合でも、製造品質管理パイプラインを構築する場合でも、YOLO11 11は成功に必要な信頼性とパフォーマンスを提供します。