PP-YOLOE+ vs. YOLOv7:オブジェクト検出に関する技術的比較
適切な物体検出モデルの選択は、あらゆるコンピュータビジョンプロジェクトにおいて重要なステップであり、精度、速度、計算リソースのバランスを慎重に考慮する必要があります。このページでは、影響力のある2つの物体検出モデルであるPP-YOLOE+とYOLOv7の詳細な技術比較を提供します。アーキテクチャ設計、パフォーマンスベンチマーク、トレーニング方法論、理想的なユースケースを掘り下げて、特定のニーズに合わせて情報に基づいた意思決定を行うのに役立ちます。
PP-YOLOE+: アンカーフリーで汎用
PP-YOLOE+は、BaiduのPaddlePaddle Authorsによって開発された、PaddleDetectionスイートの高性能なアンカーフリー検出器です。バックボーン、ネック、ヘッドを強化することで、前モデルの成功を基盤とし、精度と効率の優れたバランスを目指しています。
- 著者: PaddlePaddle Authors
- 組織: Baidu
- Date: 2022-04-02
- ArXiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Docs: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
アーキテクチャとトレーニング
PP-YOLOE+は、事前定義されたアンカーボックスとそれに関連するハイパーパラメータ調整の必要性を排除することにより、検出パイプラインを簡素化するアンカーフリーアーキテクチャによって際立っています。この設計選択により、トレーニングと推論が高速化されることがよくあります。このモデルは、分類タスクとローカリゼーションタスクのために分離されたヘッドを備えており、各ブランチがより特殊な特徴を学習できるようになっています。重要なコンポーネントは、トレーニング中に難しい例を優先する損失関数の一種であるVariFocal Lossと、分類とローカリゼーション間の特徴アライメントを改善するためのTask Alignment Learning(TAL)の使用です。
パフォーマンス
アンカーフリーモデルとして、PP-YOLOE+は、さまざまなモデルサイズ(t、s、m、l、x)で速度と精度の強力なトレードオフを提供します。このスケーラビリティにより、さまざまなハードウェアおよびパフォーマンス要件に適応できます。このモデルは、競争力のあるmAPスコアと高速な推論時間を示し、特にTensorRTのようなツールで高速化されると、幅広いアプリケーションに適しています。
ユースケース
バランスの取れたパフォーマンスとアンカーフリー設計により、PP-YOLOE+ は、速度を犠牲にすることなく堅牢な検出が必要なアプリケーションに最適です。生産ラインの欠陥を特定できる産業品質検査や、材料を正確に選別することでリサイクル効率を向上させるなどのシナリオで優れています。その効率性により、強力なサーバーからより制約のあるエッジデバイスまで、多様なハードウェアへの展開が可能です。
長所と短所
- 長所: アンカーフリー設計により、実装が簡素化され、ハイパーパラメータの調整が軽減されます。優れた精度と速度のトレードオフを提供し、PaddlePaddleフレームワークによく統合されています。
- 弱点: PaddlePaddleエコシステム向けに主に設計されているため、PyTorchのような他のフレームワークへの統合には追加の労力がかかる場合があります。コミュニティサポートは強力ですが、Ultralytics YOLOシリーズのようなグローバルに採用されているモデルほど広範囲ではない可能性があります。
YOLOv7:速度と効率のために最適化
YOLOv7は、定評あるYOLOファミリーの一員として、リリース時にリアルタイム物体検出器の新たな最先端を確立しました。アーキテクチャの最適化と高度なトレーニング戦略を通じて、卓越した速度と精度を提供することに重点を置いています。
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織: Institute of Information Science, Academia Sinica, Taiwan
- Date: 2022-07-06
- ArXiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- ドキュメント: https://docs.ultralytics.com/models/yolov7/
アーキテクチャとトレーニング
YOLOv7 は、いくつかのアーキテクチャの革新を導入しました。最も注目すべきは、バックボーンにある Extended Efficient Layer Aggregation Network (E-ELAN) です。E-ELAN は、勾配パスを中断することなくネットワークの学習能力を高め、特徴抽出の効率を向上させます。このモデルには、「trainable bag-of-freebies」も組み込まれています。これは、推論コストを増加させることなく精度を向上させる一連のトレーニング技術です。これらには、モデルの再パラメータ化や粗から密への誘導型トレーニングが含まれており、YOLOv7 の論文で詳しく説明されています。
パフォーマンス
YOLOv7は、速度と精度の優れたバランスで高く評価されています。ドキュメントで強調されているように、次のようなモデルがあります。 YOLOv7
V100 GPU 上で 161 FPS で 51.4% mAP を達成し、多くの同世代のモデルを大幅に上回っています。この高い効率性により、高い性能が要求されるアプリケーションにとって最適な選択肢となっています。 リアルタイム推論.
ユースケース
YOLOv7の高速性は、低遅延が重要なアプリケーションに最適です。これには、セキュリティアラームシステム、車両の速度推定、ロボティクスなどの自律システムが含まれます。その効率性により、NVIDIA Jetsonなどのエッジプラットフォームへの展開も容易になります。
長所と短所
- 長所: 最先端の速度と精度のトレードオフを実現します。非常に効率的なアーキテクチャは、リアルタイムおよびエッジアプリケーションに最適です。大規模なユーザーベースと豊富なコミュニティリソースがあります。
- 弱点: アンカーベースのモデルであるため、アンカーフリーの代替モデルと比較して、カスタムデータセットで最適なパフォーマンスを得るには、アンカー構成のより慎重な調整が必要になる場合があります。強力ですが、より統合されたエコシステムを備えた新しいモデルがその後登場しています。
性能分析:PP-YOLOE+ vs. YOLOv7
パフォーマンス指標を直接比較すると、各モデルの明確な利点が明らかになります。PP-YOLOE+は、より広範なモデルサイズを提供し、精度とリソース使用量の間でよりきめ細かいトレードオフを可能にします。一方、YOLOv7は、リアルタイムパフォーマンスの限界を押し広げています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
表から、PP-YOLOE+xは最高のmAPである54.7を達成していますが、レイテンシが高くなっています。YOLOv7xは、わずかに低いmAPである53.1ですが、より高速な推論速度で魅力的な代替手段を提供します。PP-YOLOE+のようなより小さなモデルは、 t
および s
は、非常に高速な推論を提供し、リソースが非常に限られた環境に最適です。
Ultralytics YOLOモデルを選ぶ理由
PP-YOLOE+とYOLOv7はいずれも強力なモデルですが、オブジェクト検出の状況は常に進化しています。最新の汎用性の高い、ユーザーフレンドリーなフレームワークを求める開発者や研究者にとって、YOLOv8やYOLO11のようなUltralytics YOLOモデルは、優れた選択肢となります。
- 使いやすさ: Ultralyticsモデルは、合理化されたユーザーエクスペリエンスを念頭に置いて設計されており、シンプルなPython API、充実したドキュメント、および簡単なCLIコマンドを備えています。
- 優れたメンテナンス体制: これらのモデルは、活発な開発、強力なオープンソースコミュニティ、そしてシームレスなMLOpsのためのUltralytics HUBのようなツールとの統合を備えた、包括的なエコシステムの一部です。
- パフォーマンスと効率性: Ultralyticsのモデルは、速度と精度の優れたバランスを実現しています。トレーニングおよび推論時の効率的なメモリ使用を考慮して設計されており、他のアーキテクチャと比較してCUDAメモリの使用量が少ないことがよくあります。
- 多様性: YOLOv8やYOLO11のようなモデルはマルチタスクソリューションであり、単一の統一されたフレームワーク内で、物体検出、セグメンテーション、分類、ポーズ推定、傾斜物体検出(OBB)をサポートします。
- 学習効率: 効率的な学習プロセス、COCOのようなデータセットですぐに利用できる事前学習済みの重み、およびより速い収束時間を活用できます。
結論
PP-YOLOE+とYOLOv7はどちらも、可能なことの限界を押し広げてきた、手ごわい物体検出モデルです。PP-YOLOE+は、スケーラブルで効率的なアンカーフリーソリューションを提供し、特にPaddlePaddleエコシステム内で価値があります。YOLOv7は、その生の速度と精度で際立っており、要求の厳しいリアルタイムアプリケーションに最適です。
しかし、完全で将来性のあるソリューションを求める開発者にとって、YOLOv8やYOLO11のようなUltralyticsモデルは、より魅力的なパッケージを提供します。最先端の性能、使いやすさ、マルチタスクの汎用性、そして堅牢でメンテナンスの行き届いたエコシステムの組み合わせにより、学術研究から本番環境への展開まで、幅広いコンピュータビジョンプロジェクトにとって理想的な選択肢となります。
その他のモデルを見る
さらに検討を深めるには、PP-YOLOE+、YOLOv7、およびその他の主要モデルを含むこれらの比較をご検討ください。
- YOLOv7 vs YOLOv8
- YOLOv7 vs YOLOv5
- RT-DETR vs. YOLOv7
- PP-YOLOE+ vs. YOLOv8
- YOLOX 対 YOLOv7
- YOLOv10やYOLO11のような最新モデルをご覧ください。