YOLOv7 対 PP-YOLOE+: リアルタイム検出器の包括的比較

実用的なパイプラインに向けて最先端のコンピュータビジョンモデルを評価する際、開発者は多くの場合、異なるアーキテクチャの利点を比較検討します。オブジェクト検出の分野における2つの注目すべきモデルは、YOLOv7PP-YOLOE+です。本ガイドでは、これら両者のアーキテクチャ、パフォーマンス指標、そして理想的なデプロイシナリオについて技術的な詳細を比較し、次回のコンピュータビジョンプロジェクトで情報に基づいた決定を下せるようサポートします。

アーキテクチャの革新

これらのモデル間の構造的なコアの違いを理解することは、トレーニングおよび推論時にそれらがどのように動作するかを予測する上で不可欠です。

YOLOv7 アーキテクチャのハイライト

YOLOv7は、推論コストを大幅に増加させることなく精度を向上させるよう設計されたいくつかの重要な進化を導入しました。

  • Extended Efficient Layer Aggregation Networks (E-ELAN): このアーキテクチャは、最短および最長の勾配パスを制御します。これにより、ネットワークはより多様な特徴を学習できるようになり、元の勾配パスを損なうことなく全体的な学習能力が向上します。
  • モデルスケーリング戦略: YOLOv7は複合モデルスケーリングを採用しており、深さと幅を同時に調整しながらレイヤーを連結することで、さまざまなサイズにわたって最適なアーキテクチャ構造を維持します。
  • Trainable Bag-of-Freebies: 著者らは、アイデンティティ接続を持たない再パラメータ化畳み込み手法(RepConv)を統合しました。これにより、モデルの予測能力を損なうことなく推論速度が大幅に向上します。

YOLOv7の詳細: 著者: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao 組織: Institute of Information Science, Academia Sinica, Taiwan 日付: 2022-07-06 Arxiv: https://arxiv.org/abs/2207.02696

YOLOv7の詳細はこちら

PP-YOLOE+ アーキテクチャのハイライト

PaddlePaddleエコシステム内でBaiduによって開発されたPP-YOLOE+は、前身であるPP-YOLOv2をベースにしており、アンカーフリーの手法と強化された特徴表現に重点を置いています。

  • アンカーフリー設計: アンカーベースのアプローチとは異なり、この設計は予測ヘッドを簡素化し、ハイパーパラメータの数を削減するため、カスタムデータセットに合わせてモデルを調整しやすくなります。
  • CSPRepResNet バックボーン: このバックボーンは、残差接続とCross Stage Partialネットワークを組み込むことで、計算効率を維持しながら特徴抽出能力を向上させています。
  • Task Alignment Learning (TAL): PP-YOLOE+は、分類タスクと位置特定タスクをより適切に調整するためにET-head (Efficient Task-aligned head)を活用しており、1ステージ検出器における一般的なボトルネックに対処しています。

PP-YOLOE+の詳細: 著者: PaddlePaddle Authors 組織: Baidu 日付: 2022-04-02 Arxiv: https://arxiv.org/abs/2203.16250

PP-YOLOE+の詳細はこちら

パフォーマンス指標とベンチマーク

適切なモデルを選択することは、多くの場合、ハードウェアの特定の制約とレイテンシの要件に左右されます。以下の表は、精度(mAP)、速度、モデルの複雑さのトレードオフを示しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

結果の分析

  • 高精度なシナリオ: YOLOv7xは強力なパフォーマンスを示し、複雑な検出タスクにおいて競争力のある高いmAPを達成します。PP-YOLOE+xはmAPの面でわずかに上回りますが、パラメータとFLOPsが大幅に増加します。
  • 効率性と速度: PP-YOLOE+のより小さいバリアント(tおよびs)は極めて低いTensorRT速度を提供するため、ハードウェアの制約が厳しいエッジデプロイメントに非常に適しています。
  • スイートスポット: YOLOv7lは説得力のあるバランスを提供し、T4 GPU上で7ms未満の推論時間を維持しながら51%を超えるmAPを実現するため、標準的なリアルタイムサーバーアプリケーションにとって堅牢な選択肢となります。
本番環境に向けた最適化

これらのモデルをデプロイする際、TensorRTONNXのようなエクスポート形式を活用することで、ネイティブなPyTorch推論と比較してレイテンシを大幅に削減できます。

Ultralyticsの利点

YOLOv7とPP-YOLOE+はいずれも強力なベンチマークパフォーマンスを提供しますが、プロジェクトを成功させるには、開発エクスペリエンスとエコシステムのサポートも同様に重要です。

効率化されたユーザーエクスペリエンス

Ultralyticsモデルは、統一されたPython APIを通じて使いやすさを優先しています。PaddlePaddleエコシステムとその特定の構成ファイルを操作する必要があるPP-YOLOE+とは異なり、Ultralyticsを使用すると、トレーニングからデプロイメントへの移行をシームレスに行うことができます。

from ultralytics import YOLO

# Load a pretrained model
model = YOLO("yolov7.pt")

# Train the model effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for optimized deployment
model.export(format="engine")  # TensorRT export

リソース効率

Ultralytics YOLOモデルの大きな強みは、トレーニングと推論の両方においてメモリ要件が低いことです。この効率性により、研究者や開発者はコンシューマーグレードのハードウェアでより大きなバッチサイズを使用できるため、より重いモデルやRT-DETRのような複雑なTransformerアーキテクチャと比較してトレーニングプロセスを高速化できます。

エコシステムと汎用性

Ultralyticsエコシステムは非常に適切に保守されており、頻繁なアップデート、広範なドキュメンテーション、そして標準的な検出を超えた多様なタスクへのネイティブサポートを備えています。Ultralyticsを使用すれば、単一のフレームワークでインスタンスセグメンテーション姿勢推定分類、および指向性バウンディングボックス (OBB)をサポートし、競合するモデルには欠けていることが多い比類のない汎用性を提供します。

Vision AIの未来: YOLO26

コンピュータビジョンが急速に進化する中、速度と効率の基準を再定義する新しいアーキテクチャが登場しています。2026年1月にリリースされたUltralytics YOLO26はこの進化の頂点に位置し、すべての新規プロジェクトにとって最も推奨される選択肢です。

YOLO26の主な革新:

  • エンドツーエンドのNMSフリー設計: YOLO26はNon-Maximum Suppression (NMS)のポストプロセッシングを排除しています。このネイティブなエンドツーエンドのアプローチにより、デプロイメントロジックが大幅に簡素化され、可変レイテンシが低減されます。これはYOLOv10で初めて導入された画期的な機能です。
  • 前例のないエッジパフォーマンス: Distribution Focal Loss (DFL)を削除することで、YOLO26は最大43%高速なCPU推論を達成しており、前世代と比較してIoTおよびエッジデバイスにおいて優れた性能を発揮します。
  • 高度なトレーニングダイナミクス: Moonshot AIのKimi K2のようなLLMの革新から着想を得たMuSGD Optimizerの統合により、より安定したトレーニングと高速な収束が保証されます。
  • 優れた小物体検出: より強化された損失関数、具体的にはProgLoss + STALが、航空画像のようなアプリケーションで不可欠な、小物体の認識における歴史的な弱点を克服しています。

実世界の応用例

これらのアーキテクチャから選択することは、多くの場合、特定のデプロイメント環境に依存します。

PP-YOLOE+を選択すべき時

  • PaddlePaddleの統合: インフラストラクチャがすでにBaiduのPaddlePaddleエコシステムと深く統合されている場合、PP-YOLOE+がネイティブにフィットします。
  • アジアにおける産業検査: ハードウェアおよびソフトウェアスタックがBaiduのツール用に事前構成されているアジアの製造拠点などでよく利用されています。

YOLOv7を選択すべき場面

  • GPUアクセラレーションシステム: 動画解析のような高スループットを必要とするタスクにおいて、サーバーグレードのGPU上で非常に優れたパフォーマンスを発揮します。
  • ロボット工学の統合: ロボット工学へのコンピュータビジョンの統合に最適であり、動的な環境での迅速な意思決定を可能にします。
  • 学術研究: 広くサポートされており、PyTorchベースの研究において信頼性の高いベースラインとして頻繁に使用されています。

While older models hold historical significance, transitioning to modern architectures like YOLO26 or YOLO11 via the Ultralytics Platform ensures access to the latest optimizations, the simplest training workflows, and the broadest multi-task support available today.

コメント