コンテンツにスキップ

PP-YOLOE+ vsYOLOv5:高精度検出と生産準備のナビゲーション

最適な物体検出モデルの選択には、学術的な指標と実用的な配備能力とのトレードオフがしばしば伴います。この技術比較では、PaddlePaddle エコシステムの進化したアンカーフリー検出器であるPP-YOLOE+と、PaddlePaddle エコシステムの進化したアンカーフリー検出器であるPP-YOLOE+を検証します。 Ultralytics YOLOv5は、スピード、精度、使いやすさのバランスで有名な業界標準モデルです。PP-YOLOE+が平均平均精度mAP)の限界を押し広げる一方で、YOLOv5 、その比類ない開発者経験と展開の多様性により、リアルタイム推論アプリケーションにおいて圧倒的な強さを維持しています。

PP-YOLOE+:PaddlePaddle精密工学

PP-YOLOE+はPP-YOLOEのアップグレード版で、PaddleDetectionスイートの一部として度の研究者によって開発された。PP-YOLOE+は、高精度タスクに焦点を当てた、効率的で最先端の産業用物体検出器として設計されています。アンカーフリーアーキテクチャを活用することで、学習パイプラインを簡素化し、アンカーベースの手法にありがちなハイパーパラメータのチューニングを軽減します。

著者 PaddlePaddle Authors
組織Baidu
Date: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: PaddlePaddle
Docs: https:PaddlePaddle

建築とイノベーション

PP-YOLOE+のアーキテクチャは、特徴表現とローカリゼーションを改善するために、いくつかの高度なメカニズムを導入している:

  • バックボーンCSPRepResNetは、CSP(Cross Stage Partial)ネットワークの勾配フローの利点とRepVGGの再パラメータ化技術を組み合わせたバックボーンです。
  • アンカー・フリー・ヘッド:ET-ヘッド(Efficient Task-aligned Head)は、分類タスクと回帰タスクを切り離すために使用され、収束速度と精度を向上させます。
  • トレーニング戦略:Task Alignment Learning (TAL)を組み込んで、動的に正サンプルを割り当て、トレーニング中に最高品質の予測が優先されるようにします。
  • 損失関数:VariFocal Loss (VFL)とDistribution Focal Loss (DFL)を使用して、クラスの不均衡を処理し、バウンディングボックスの精度を向上させます。

長所と短所

PP-YOLOE+は、最大限の精度が要求される場面で威力を発揮します。アンカーを使用しない設計により、アンカーボックスをクラスタリングする必要がないため、オブジェクトの形状が様々なデータセットに適応できます。しかし PaddlePaddleフレームワークへの依存度が高いため PyTorchやTensorFlow標準化されているチームにとってはハードルとなる。モデルを変換するツールは存在するものの、ネイティブのエコシステムのサポートは、より普遍的に採用されているフレームワークのサポートに比べると、それほど広くはない。

生態系への配慮

PP-YOLOE+は理論的には素晴らしい性能を発揮するが、PaddlePaddle特有の構文やデプロイツールに精通する必要があり、標準的なPyTorch ワークフローとは大きく異なる場合がある。

PP-YOLOE+の詳細について。

Ultralytics YOLOv5:ビジョンAIのグローバルスタンダード

2020年、グレン・ジョーチャーがリリース、 Ultralytics YOLOv5は、あらゆるレベルの開発者が最先端の物体検出にアクセスできるようにすることで、コンピュータビジョンの状況を根本的に変えた。PyTorchネイティブに構築されたYOLOv5 5は、「トレーニングの効率性」と「使いやすさ」に重点を置き、データセットのキュレーションから実運用へのデプロイまでシームレスなパスを提供します。

著者Glenn Jocher
組織Ultralytics
Date: 2020-06-26
GitHub: yolov5
Docs: https:yolov5

アーキテクチャと主な機能

YOLOv5 、スループットを最大化するために深さと幅のバランスをとる高度に最適化されたアンカーベースのアーキテクチャを採用している:

  • CSPDarknetバックボーン:クロスステージ・パーシャルネットワークの設計により、冗長な勾配情報を最小限に抑え、パラメータを削減しながら学習能力を向上。
  • PANetネック:パス集約ネットワーク(PANet)は情報の流れを改善し、モデルが異なるスケールの物体を正確に位置特定するのに役立つ。
  • モザイク補強:4枚の学習画像を1枚に統合する高度なデータ補強技術で、モデルの小物体detect 能力と新しい環境への汎化能力を大幅に向上させる。
  • 遺伝的アルゴリズム:自動化されたハイパーパラメータの進化により、カスタムデータセットで最適なパフォーマンスを発揮するようにモデルを自己調整することができます。

強みとエコシステム

YOLOv5 5は、その使いやすさで高く評価されている。APIは直感的で、ユーザーはわずか数行のPython コードでモデルをロードし、推論を実行できる。

import torch

# Load a pretrained YOLOv5s model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Print results
results.print()

YOLOv5 際立たせているのは、コードだけではありませんユーザーは、頻繁なアップデート、大規模なコミュニティ・フォーラム、Comet ClearMLようなMLOpsツールとのシームレスな統合から恩恵を受けることができます。YOLOv5のモデルの多様性は、単純な検出だけにとどまらず、同じフレームワーク内でインスタンスのセグメンテーションと 画像の分類タスクをサポートします。さらに、YOLOv5 モデルは、一般的に、トランスフォーマーベースのアーキテクチャと比較して、学習時のメモリ要件が低く、コンシューマーグレードのGPUで利用可能です。

YOLOv5の詳細について。

技術性能の比較

この2つのモデルを比較する際には、mAPような標準的な精度の指標とともに、推論速度やパラメータ数のような実世界の実用性に影響を与える指標を見ることが不可欠である。

モデルサイズ
(ピクセル)
mAP
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

結果の分析

  • 精度とスピードの比較:PP-YOLOE+は、特に大きなバリアント(lとx)において、より高いmAP スコアを示しており、これはアンカーフリーのヘッドとTAL戦略の恩恵によるものです。しかし、YOLOv5 5は優れたパフォーマンスバランスを提供し、大幅に低いレイテンシ(TensorRT 速度を参照)で非常に競争力のある精度を実現します。このため、YOLOv5 、ミリ秒単位が重要なエッジAIアプリケーションに特に適しています。
  • 資源効率:YOLOv5n (Nano)は、わずか2.6Mパラメータと非常に軽量であるため、モバイル機器やIoT機器に最適です。PP-YOLOE+は効率的なバックボーンを備えていますが、アーキテクチャが複雑なため、YOLOv55の合理的な設計に比べ、トレーニング中のメモリ使用量が多くなる可能性があります。
  • トレーニングの効率化:YOLOv5 、AutoAnchorとハイパーパラメータの進化を利用して、最初からパフォーマンスを最大化します。高品質な事前学習済みの重みが利用できるため、迅速な転移学習が可能になり、開発時間が大幅に短縮されます。

実際のユースケース

これらのモデルの選択は、多くの場合、特定の展開環境に依存する。

PP-YOLOE+の用途

PP-YOLOE+は、特にバイドゥのインフラが普及しているアジア市場において、学術研究や産業シナリオでしばしば採用されている。

  • 自動欠陥検出:高精度で製造ラインの微細な傷の特定に役立ちます。
  • 交通監視:密集した交通流の中で、類似した車種を区別できる。

YOLOv5 アプリケーション

YOLOv55の多用途性により、幅広いグローバル産業で利用されている。

展開の柔軟性

YOLOv5 、ONNX、TensorRT、CoreML、TFLite 含む多くのフォーマットへシームレスにエクスポートします。 export モードで動作する。これにより、一度学習したモデルは、iPhoneからクラウドサーバーまで、ほとんどどこにでも展開できる。

結論

PP-YOLOE+は、COCOようなベンチマークで素晴らしい精度を持つアンカーなし検出の重要な成果を示している、 Ultralytics YOLOv5は、ほとんどの開発者や商用アプリケーションにとって、より優れた選択肢であり続けています。使いやすさ、堅牢でメンテナンスの行き届いたエコシステム、そして優れたパフォーマンス・バランスの勝利の組み合わせは、プロジェクトがコンセプトから本番へと迅速かつ確実に移行することを保証します。

最新のコンピュータ・ビジョン技術をお求めのユーザーには、Ultralytics 以下の製品も提供しています。 YOLO11を提供しています。これは、YOLOv5 遺産を基に、検出、セグメンテーション、ポーズ推定タスクの効率と機能をさらに向上させたものです。

もっと見る

強化されたパフォーマンス機能を提供する最新の選択肢を探すには、以下の見直しを検討してください:

  • Ultralytics YOLO11:最先端の精度とスピードを実現した最新モデル。
  • Ultralytics YOLOv8:検出、セグメンテーション、分類のための統一されたフレームワークを導入した汎用性の高いモデル。
  • RT-DETR:高精度が要求されるリアルタイムトランスフォーマー検出器。

次のプロジェクトで利用可能なビジョンAIソリューションの全製品については、モデルページをご覧ください。


コメント