YOLOv7 PP-YOLOE+:リアルタイム検出器の包括的比較
最先端のコンピュータビジョンモデルを生産パイプライン向けに評価する際、開発者は異なるアーキテクチャの利点をよく比較検討する。物体検出分野における二つの注目すべきモデルは YOLOv7とPP-YOLOE+です。本ガイドでは、両モデルのアーキテクチャ、性能指標、最適な導入シナリオについて詳細な技術比較を行い、次回のコンピュータビジョンプロジェクトにおける適切な選択を支援します。
アーキテクチャの革新
これらのモデル間の核心的な構造的差異を理解することは、学習時および推論時の挙動を予測する上で極めて重要である。
YOLOv7 主な特徴
YOLOv7 、推論コストを大幅に増加させることなく精度を向上させることを目的とした、いくつかの重要な改良YOLOv7 。
- 拡張効率的層集合ネットワーク(E-ELAN):このアーキテクチャは最短および最長の勾配経路を制御する。これにより、ネットワークはより多様な特徴を学習可能となり、元の勾配経路を破壊することなく全体的な学習能力を向上させる。
- モデルスケーリング戦略: YOLOv7 複合モデルスケーリングYOLOv7 、深さと幅を同時に調整しながら層を連結することで、異なるサイズ全体で最適なアーキテクチャ構造を維持する。
- 学習可能なフリービーの袋:著者らは同一接続を持たない再パラメータ化畳み込み手法(RepConv)を統合した。これによりモデルの予測能力を損なうことなく推論速度が大幅に向上した。
YOLOv7 :
著者: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
所属機関: 中央研究院 情報科学研究所, 台湾
日付: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
PP-YOLOE+ アーキテクチャの主な特徴
百度がPaddlePaddle 内で開発したPP-YOLOE+は、前身であるPP-YOLOv2を基盤とし、アンカーフリー手法と強化された特徴表現に重点を置いている。
- アンカーフリー設計:アンカーベースの手法とは異なり、この設計は予測ヘッドを簡素化し、ハイパーパラメータの数を削減するため、カスタムデータセット向けにモデルの調整が容易になります。
- CSPRepResNetバックボーン:このバックボーンは、計算効率を維持しつつ特徴抽出能力を向上させるため、残差接続とクロスステージ部分ネットワークを組み込んでいる。
- タスクアラインメント学習(TAL):PP-YOLOE+は、分類と位置特定タスクをより良く整合させるため、効率的なタスクアラインメントヘッド(ET-head)を採用し、ワンステージ検出器における一般的なボトルネックに対処する。
PP-YOLOE+ 詳細:
著者:PaddlePaddle
組織: Baidu
日付: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
性能指標とベンチマーク
適切なモデルの選択は、多くの場合、ハードウェアの制約やレイテンシ要件によって決まります。以下の表は、精度(mAP)、速度、モデルの複雑さにおけるトレードオフを示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
結果の分析
- 高精度シナリオ:YOLOv7xは複雑な検出タスクにおいて競争力mAP 高いmAP を達成し、優れた性能を発揮する。一方、PP-YOLOE+xはmAPわずかに高いスケーリングを示すが、その代償としてパラメータ数とFLOPsが大幅に増加する。
- 効率性と速度:PP-YOLOE+の小型バリエーション(tおよびs)は、TensorRT 極めて低いため、ハードウェア制約が厳しいエッジ展開に非常に適している。
- スイートスポット:YOLOv7lは優れたバランスを実現し、T4 GPU上で7ms未満の推論時間をmAP 51%を超えるmAP を達成。標準的なリアルタイムサーバーアプリケーションに堅牢な選択肢を提供する。
本番環境向け最適化
これらのモデルを展開する際には、 TensorRT や ONNX などのエクスポート形式を活用することで、ネイティブのPyTorch推PyTorch と比較してレイテンシを大幅に削減できます。
Ultralyticsの利点
YOLOv7 強力なベンチマーク性能を発揮しますが、プロジェクトの成功には開発体験とエコシステムサポートが同様に重要です。
合理化されたユーザーエクスペリエンス
Ultralytics 、Python 使いやすさを最優先します。PaddlePaddle 操作する必要があるPP-YOLOE+とは異なり、Ultralytics トレーニングからデプロイメントへUltralytics 。
from ultralytics import YOLO
# Load a pretrained model
model = YOLO("yolov7.pt")
# Train the model effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export for optimized deployment
model.export(format="engine") # TensorRT export
リソース効率
YOLO 大きな強みは、トレーニング時と推論時の両方でメモリ要件が低い点です。この効率性により、研究者や開発者はコンシューマー向けハードウェアでより大きなバッチサイズを使用でき、より重いモデルや複雑なTransformerアーキテクチャと比較してトレーニングプロセスを加速させることが可能です。 RT-DETRといった重厚なモデルや複雑なトランスフォーマーアーキテクチャと比較して、トレーニングプロセスを加速
生態系と汎用性
Ultralytics 極めてよく整備されており、頻繁なアップデート、充実したドキュメント、標準的な検出を超えた多様なタスクへのネイティブサポートを特徴としています。Ultralytics フレームワークでインスタンスセグメンテーション、姿勢推定、分類、オリエンテッドバウンディングボックス(OBB)をサポートし、競合モデルには往々にして欠けている比類のない汎用性を提供します。
ビジョンAIの未来:YOLO26
コンピュータビジョンが急速に進化する中、速度と効率の基準を再定義する新たなアーキテクチャが登場しています。2026年1月にリリースUltralytics はこの進化の頂点を示し、全ての新規プロジェクトにおいて強く推奨される選択肢です。
YOLO26の主な革新点:
- エンドツーエンドNMS設計:YOLO26は非最大抑制(NMS)後処理を排除します。このネイティブなエンドツーエンドアプローチは、デプロイメントロジックを大幅に簡素化し、変動レイテンシを低減します。この画期的な手法は YOLOv10で初めて導入された画期的な技術です。
- 前例のないエッジ性能:ディストリビューション焦点損失(DFL)を排除したYOLO26は、 CPU 最大43%高速化し、IoTおよびエッジデバイスにおいて従来世代を凌駕する性能を実現します。
- 高度なトレーニングダイナミクス:Moonshot AIのKimi K2のようなLLMイノベーションに着想を得たMuSGDオプティマイザーの統合により、より安定したトレーニングと高速な収束が保証されます。
- 優れた小物体検出:損失関数の強化(特にProgLoss + STAL)により、航空写真などの応用において重要な小物体認識における従来の弱点を解決。
現実世界のアプリケーション
これらのアーキテクチャの選択は、多くの場合、具体的な導入環境によって決まります。
PP-YOLOE+を選択するタイミング
- PaddlePaddle :インフラが既にPaddlePaddle 深く統合されている場合、PP-YOLOE+はネイティブな適合性を提供します。
- アジアにおける産業検査:ハードウェアとソフトウェアのスタックが百度のツール向けに事前設定されているアジアの製造拠点で頻繁に利用される。
YOLOv7を選択すべき時
- GPU:サーバーグレードのGPU上で、ビデオ分析など高スループットを必要とするタスクにおいて非常に優れた性能を発揮します。
- ロボティクス統合: ロボット工学におけるコンピュータビジョンの統合に最適であり、動的な環境下での迅速な意思決定を可能にします。
- 学術研究: PyTorch研究において広く支持され、信頼性の高い基盤として頻繁に利用されている。
古いモデルには歴史的意義があるものの、YOLO26や YOLO11Ultralytics により、最新の最適化、最もシンプルなトレーニングワークフロー、そして現在利用可能な最も広範なマルチタスクサポートへのアクセスが保証されます。