コンテンツにスキップ

YOLOv7 PP-YOLOE+:リアルタイム物体検出におけるアーキテクチャ対決

コンピュータビジョンの分野は絶え間ない革新によって形作られており、2022年は特に重要な年となった。この年には二つの極めて影響力のあるアーキテクチャが発表された: YOLOv7とPP-YOLOE+です。 YOLOv7 「bag-of-freebies」最適化に焦点をYOLO YOLOv7 、PaddlePaddle 高性能でアンカーフリーな検出技術への百度の取り組みを体現しました。

研究者やエンジニアにとって、これらのモデルを選択する際には、特定のフレームワーク要件(PyTorch PaddlePaddle)とデプロイメントハードウェアが重要な判断基準となる。本ガイドでは、それらのアーキテクチャ、性能指標、使いやすさについて詳細な技術比較を行うと同時に、YOLO26のような現代的な代替案も紹介する。YOLO26は、これらの先行モデルの優れた機能を統合し、シームレスNMSフレームワークを実現している。

パフォーマンス指標の比較

以下の表は、様々なモデル規模YOLOv7 性能を比較したものです。YOLOv7 堅牢な検出能力YOLOv7 、PP-YOLOE+はパラメータ数と推論速度のバランスにおいて非常に競争力のあるトレードオフを提供します。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

YOLOv7: 「Bag-of-Freebies」の高性能モデル

2022年半ばに発表されたYOLOv7 、推論コストを増加させないアーキテクチャ効率と学習最適化戦略に焦点を当てることで、物体検出の限界をYOLOv7 。

主要なアーキテクチャ機能

YOLOv7 、最短および最長の勾配経路を制御し、ネットワークがより多様な特徴を学習できるように設計された新規アーキテクチャ「E-ELAN(拡張効率的層集合ネットワーク)」YOLOv7 。また、モデルの再パラメータ化や動的ラベル割り当てを含む「学習可能なフリービーの集合」を多用している。

しかし、YOLOv7 としてアンカーベースの検出器YOLOv7 。この手法は実績があるものの、カスタムデータセットではアンカーボックスの慎重な調整が必要となることが多く、これにより、より新しいアンカーフリー実装( YOLOv8 やYOLO26に見られるような新しいアンカーフリー実装と比較すると、トレーニングプロセスを複雑にする可能性がある。

YOLOv7について詳しくはこちら

PP-YOLOE+: アンカーフリーの挑戦者

PP-YOLOE+は、百度がPaddleDetectionスイートの一部として開発したPP-YOLOEの進化版です。アンカーベース手法の限界に対処しつつ、多様なハードウェア上で推論速度を最大化するように設計されています。

主要なアーキテクチャ機能

PP-YOLOE+は アンカーなし パラダイムであり、ハイパーパラメータの数を大幅に削減する。その中核は RepResBlock (RepVGGに着想を得て)および タスク整合学習(TAL) 分類と位置特定タスクを動的に調整する戦略。これにより、特に x (超大型)規模において、それは印象的な成果を達成する 54.7%mAP.

エコシステムに関する考慮事項

PP-YOLOE+は優れた性能を発揮しますが、 PaddlePaddle フレームワークとPyTorch 。PyTorch に慣れた開発者は、これらのモデルをPyTorchMLOpsパイプラインに統合しようとする際、あるいは TorchScriptなどの標準的なデプロイメントツールを使用する際には、急な学習曲線や摩擦に直面する

比較:アーキテクチャとユーザビリティ

アンカーベース vs. アンカーフリー

最も顕著な違いは、バウンディングボックスへのアプローチにあります。 YOLOv7 は事前定義されたアンカーボックスを使用し、これは物体検出の参照テンプレートとして機能します。これは COCO などの標準データセットでは効果的ですが、DOTA-v2のようなデータセットで見られる不規則な形状の物体では、手動で返されない限り苦労する可能性があります。

PP-YOLOE+はアンカー不要で、物体の中心位置と境界線までの距離を直接予測します。これにより学習パイプラインが全体的に簡素化されます。Ultralytics 最新Ultralytics である YOLO11YOLO26などの最新のUltralyticsモデルも、柔軟性と速度を最大化するため、アンカーフリー、NMSのアーキテクチャを完全に採用しています。

メモリと効率性

Ultralytics トレーニング効率の高さで知られています。YOLOv7 E-ELANの複雑な連結経路により最大モデルで膨大なGPU YOLOv7 一方、PP-YOLOE+は再パラメータ化によってこれを最適化します。しかし、YOLO26のような新世代モデルは分布焦点損失(DFL)などの負荷の高いコンポーネントを排除することで両者を凌駕し、トレーニング時と推論時双方でメモリ要件を大幅に低減しています。

未来:なぜYOLO26に移るのか?

YOLOv7 、この分野は急速に進歩を遂げた。Ultralytics 発表したYOLO26は、こうした進歩の集大成であり、先行モデルの具体的な課題点を解決している。

エンドツーエンドNMSフリー設計

YOLOv7 最大のボトルネックの一つは、重複検出をフィルタリングするために必要な後処理ステップである非最大抑制(NMS)である。YOLOv2はネイティブにエンドツーエンドでNMS。これにより、混雑したシーンNMS に起因する遅延の変動が排除され、自動運転車や交通監視などのリアルタイムアプリケーションに理想的である。

エッジコンピューティング向けに最適化

YOLO26ではディストリビューション焦点損失(DFL)が削除されました。このアーキテクチャの簡素化により、 CoreMLTFLiteといったフォーマットへのエクスポートプロセスを合理化し、低電力デバイスとの互換性を向上させます。CPU 最適化と組み合わせることで、YOLO26は前世代と比較して最大43CPU を実現し、IoT展開において重要な優位性を提供します。

高度なトレーニング安定性

大規模言語モデル(LLM)のトレーニングにおける革新に着想を得て、YOLO26はMuSGDオプティマイザーを採用しています。SGD (Moonshot AIのKimi K2に着想を得た)のハイブリッド手法です。これにより収束が速くなり、トレーニングの実行がより安定するため、深層学習モデルのトレーニングにしばしば伴う「試行錯誤」が軽減されます。 さらに、ProgLossSTAL(Soft-Task Alignment Learning)の採用により、従来モデルが苦手としていた小物体検出性能が大幅に向上しました。

YOLO26についてさらに詳しく

Ultralyticsによる使いやすさ

Ultralytics の特徴の一つは、その使いやすさです。 YOLOv8YOLOv9、あるいは最先端のYOLO26のいずれを使用する場合でも、APIは一貫してシンプルです。

CUDA 整合や別途ライブラリのインストールが必要なPaddlePaddle とは対照的に、Ultralytics 標準的な pip install ultralytics.

from ultralytics import YOLO

# Load a pre-trained YOLO model (YOLO26n for maximum speed)
model = YOLO("yolo26n.pt")

# Train the model on a custom dataset with a single command
# The system handles data augmentation, logging, and plots automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Export to ONNX for deployment
model.export(format="onnx")

結論

両方 YOLOv7とPP-YOLOE+はどちらも優れたアーキテクチャです。YOLOv7 、従来のYOLO PyTorch YOLO 深く依存しているユーザーにとって、高い精度を提供する強力な選択肢YOLOv7 。一方、PP-YOLOE+は、Baiduエコシステム内のユーザーにとって、優れたパラメータ効率を提供する優れた選択肢です。

しかし、開発者が求めるのは、手入れの行き届いたエコシステム、比類のない汎用性(検出、セグメンテーション姿勢推定OBBを網羅)、そして最新の性能向上であるならば、Ultralytics 優れた選択肢となる。そのエンドツーエンド設計、低メモリ消費、タスク特化型改良(姿勢推定やセマンティックセグメンテーション損失に対するRLEなど)により、現実世界のAI課題に対して最も将来性のあるソリューションとなっている。

最先端のビジョンAIで旅を始めるには、シームレスなトレーニングとデプロイを実現Ultralytics をご活用ください。

その他のモデルを見る

他のモデルの比較に興味がありますか?YOLOv6 YOLOv7RT-DETR YOLOv8の比較をチェックして、プロジェクトの制約に最適なモデルを見つけてください。


コメント