PP-YOLOE+ vsYOLOv7: リアルタイム物体検出アーキテクチャの比較検討

コンピュータビジョンパイプラインを構築する際、適切な物体検出モデルの選択は極めて重要です。2022年に登場した2つの主要なアーキテクチャであるYOLOv7、リアルタイム物体検出において強力な進歩をもたらしました。本技術比較では、それらのアーキテクチャ、トレーニング手法、実世界での性能を詳細に検証し、アプリケーションに適した判断を下すための知見を提供します。

モデルの概要

PP-YOLOE+とYOLOv7は両方とも精度と速度の限界を押し広げるように設計されましたが、異なる開発エコシステムと設計哲学から生まれています。

PP-YOLOE+

BaiduのPaddlePaddle Authorsによって開発されたPP-YOLOE+は、オリジナルのPP-YOLOv2を基盤として構築されています。PaddlePaddleエコシステム向けに最適化された、効率的で高精度な物体検出器を提供するために導入されました。

著者: PaddlePaddle Authors
組織:Baidu
日付: 2022-04-02
Arxiv:2203.16250
GitHub:PaddleDetection リポジトリ
ドキュメント:PP-YOLOE+ドキュメント

PP-YOLOE+の詳細について。

YOLOv7

Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liaoによって開発されたYOLOv7は、「trainable bag-of-freebies」を導入し、リリース当時、リアルタイム物体検出器の新たな最先端ベンチマークを確立しました。

著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
組織: Institute of Information Science, Academia Sinica, Taiwan
日付: 2022-07-06
Arxiv:2207.02696
GitHub:YOLOv7 リポジトリ
ドキュメント:Ultralytics YOLOv7 ドキュメント

YOLOv7について詳しくはこちら

アーキテクチャの革新

PP-YOLOE+アーキテクチャ

PP-YOLOE+はアンカーフリーパラダイムを多用し、カスタムデータセット向けにアンカーボックスを調整する必要性を排除することで展開プロセスを簡素化します。強力なRepResNetバックボーンとCSPNetスタイルのPAN（パスアグリゲーションネットワーク）を組み込み、効果的なマルチスケール特徴融合を実現。さらに、タスクアライメント学習（TAL）の概念を活用し、トレーニング中に分類と位置特定タスクを動的に調整することで、様々なコンピュータビジョンタスクにおいて高い精度を確保します。

YOLOv7アーキテクチャ

YOLOv7 拡張効率的層集約ネットワーク（E-ELAN）を導入することで異なるアプローチYOLOv7 。このアーキテクチャにより、ネットワークは元の勾配経路を損なうことなくより多様な特徴を学習でき、収束性の向上につながった。YOLOv7 モデル再パラメータ化（特に計画的再パラメータ化畳み込み）YOLOv7 多用しYOLOv7 推論時に畳み込み層を統合することで精度を損なわずに実行速度を向上させます。YOLOv7 、マルチオブジェクト追跡や複雑なセキュリティ警報システムといったタスクにおいてYOLOv7 優れた性能を発揮します。

エコシステムの違い

PP-YOLOE+は百度のPaddlePaddle と緊密に統合されている一方、YOLOv7 PyTorchで構築されており、歴史的に大規模なコミュニティを有し、ONNXなどのデプロイメントパイプラインとの幅広い互換性を備えています。 ONNX や TensorRTといったデプロイメントパイプラインとの互換性がより広範に標準装備されている。

パフォーマンス分析

速度、パラメータ、精度（mAP）のバランスを取る際、モデルは特定のバリエーションと対象ハードウェアに応じて互角の勝負を繰り広げる。以下にそれらの指標の包括的な比較を示す。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

PP-YOLOE+xモデルはわずかに高いmAPを達成する一方、YOLOv7 は非常に優れたパラメータ対精度比を提供する。YOLOv7 は、生データ処理において依然として好まれる選択肢である。 GPU 処理において依然として好まれる選択肢であり、TensorRT 極めて低いレイテンシを実現します。

Ultralyticsの利点

これらのモデルのトレーニングとデプロイにおいて、選択するフレームワークはモデル自体と同様に重要です。Ultralytics を利用することで、高度に統一Python 機械学習ライフサイクル全体が簡素化され、効率的なユーザー体験が Ultralytics 。

整備されたエコシステム: Ultralytics YOLOモデルは、継続的に更新されるエコシステム、堅牢なドキュメント、および活発なコミュニティから恩恵を受けています。
メモリ要件: Ultralyticsは、データローディングとトレーニングレジームを大幅に最適化しています。Ultralytics YOLOモデルのトレーニングは、重いTransformerベースのアーキテクチャと比較して、通常はるかに少ないCUDAメモリしか必要とせず、開発者はコンシューマーグレードのハードウェアでより大きなバッチサイズを利用できます。
訓練効率: 堅牢なデータ拡張戦略と組み込みのハイパーパラメータチューニングを活用することで、Ultralyticsは、すぐに利用可能な事前学習済み重みを用いてモデルが迅速に収束することを保証します。

シンプルなAPI実装

Ultralytics でYOLOv7 トレーニングするには、複雑なトレーニングスクリプトを完全に抽象化し、わずか数行のコードUltralytics ：

from ultralytics import YOLO

# Load a pretrained YOLOv7 model
model = YOLO("yolov7.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to TensorRT for deployment
model.export(format="engine", device=0)

新たな基準：YOLO26のご紹介

YOLOv7 物体検出における画期的なYOLOv7 、AIの分野は急速に進化しています。新たなコンピュータビジョンプロジェクトには、Ultralytics 強く推奨します。2026年1月にリリースされたYOLO26は、エッジファーストビジョンAIにおける飛躍的な進歩を体現しています。

YOLO26が従来のアーキテクチャを凌駕する理由：

エンドツーエンドのNMSフリー設計: YOLO26はネイティブにエンドツーエンドです。Non-Maximum Suppression (NMS) の後処理を排除することで、予測可能で決定論的な推論レイテンシを保証します。これはYOLOv10で初めて見られた画期的な技術です。
DFLの削除: Distribution Focal Lossの削除によりエクスポートプロセスが簡素化され、低消費電力エッジデバイスとの互換性が大幅に向上します。
CPU推論が最大43%高速化: 専用GPUを持たないシナリオ、例えばスマートシティのIoTセンサーなどにおいて、YOLO26はCPU上で直接効率的に動作するように大幅に最適化されています。
MuSGDオプティマイザ: 高度なLLMトレーニング技術（Moonshot AIのKimi K2など）に触発され、YOLO26はSGDとMuonのハイブリッドを使用しており、驚くほど安定したトレーニングと高速な収束を実現します。
ProgLoss + STAL: これらの改良された損失関数は、小さなオブジェクトのdetectにおいて顕著な向上をもたらし、ドローン航空画像や製造欠陥detectのようなユースケースにとって不可欠です。

YOLO26についてさらに詳しく

理想的な使用例と導入シナリオ

PP-YOLOE+の使用タイミング

PP-YOLOE+は、PaddlePaddle 深く組み込まれた環境で真価を発揮します。デプロイ先がPaddleモデル向けに特化した専用ハードウェア（例：特定のアジアの製造ライン）を利用している場合、PP-YOLOE+は優れた精度とシームレスな統合を実現します。産業用製造自動化において極めて効果的です。

YOLOv7をいつ使用するか

YOLOv7 汎用的な高性能推論において優れた選択肢YOLOv7 、特にNVIDIA 上でTensorRTを活用して展開する場合にその真価を発揮します。 TensorRTを実装したNVIDIAハードウェア上で展開する場合に特に優れています。PyTorch 統合により、学術研究やリアルタイム群衆管理、複雑な姿勢推定といったネットワークの構造的整合性が極めて重要なカスタム商用パイプラインなど、多様な用途に対応可能です。

検討すべきその他のモデル

お客様の具体的なニーズに応じて、幅広い本番環境対応の柔軟性を求める場合はYOLO11と、従来の畳み込みネットワークよりもビジョントランスフォーマーの特定の利点をプロジェクトが要求する場合はRT-DETRと、これらのアーキテクチャを比較検討することにもご興味があるかもしれません。

結論

PP-YOLOE+とYOLOv7は両方ともリアルタイム物体検出の世界に大きな改善をもたらしました。PP-YOLOE+がPaddlePaddleを中心に標準化された環境で優れている一方、YOLOv7はPyTorchおよびUltralyticsエコシステムを通じて驚異的な柔軟性とパフォーマンスを提供します。

しかし、コンピュータビジョンソリューションが進化を続ける中、最新のツールを活用することが不可欠です。Ultralytics YOLO26のような次世代アーキテクチャを採用することで、開発者はアプリケーションが速度、精度、使いやすさの面で最先端を維持できることを保証できます。