リアルタイム物体検出の深掘り: PP-YOLOE+ vs YOLO11

コンピュータビジョンの分野は、より高速で、より正確で、より効率的なモデルへの需要に後押しされ、絶えず進化を続けています。物体検出タスクに取り組む開発者や研究者にとって、適切なアーキテクチャの選択は極めて重要です。この包括的な比較では、二つの主要モデルであるPP-YOLOE+と Ultralytics YOLO11の微妙な違いを探ります。

これらのアーキテクチャ、パフォーマンス指標、理想的なユースケースを分析することで、このガイドは、次回の機械学習デプロイメントで情報に基づいた意思決定を行うために必要な洞察を提供することを目指しています。

モデルの起源と技術概要

両モデルは厳密な学術研究と広範なエンジニアリングから生まれましたが、それらは全く異なるエコシステムに由来しています。各モデルの基本的な詳細を見てみましょう。

PP-YOLOE+の概要

Baiduの研究者によって開発されたPP-YOLOE+は、以前のPP-YOLOEのイテレーションであり、PaddlePaddleエコシステム内でのリアルタイム検出の限界を押し広げるように設計されています。

著者: PaddlePaddle Authors
組織:Baidu
日付: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHub:PaddleDetection リポジトリ
ドキュメント:PP-YOLOE+ドキュメント

PP-YOLOE+の詳細について。

YOLO11

Ultralytics開発したYOLO11、使いやすさと精度において大きな飛躍を遂げています。これまでに高い実績を収めてきたアーキテクチャを基盤とし、開発者の体験を摩擦なく最適化するとともに、マルチタスクの汎用性を実現しています。

著者: Glenn Jocher、Jing Qiu
組織:Ultralytics
日付: 2024-09-27
GitHub:Ultralytics GitHubリポジトリ
ドキュメント:YOLO11 公式ドキュメント

YOLO11の詳細について。

ご存知でしたか？

Ultralytics YOLO11 単なる物体検出以上のYOLO11 。標準状態で、まったく同じAPIを使用してインスタンスセグメンテーション、姿勢推定、およびオリエンテッドバウンディングボックス（OBB）検出を実行できます。

アーキテクチャとパフォーマンスの比較

これら2つの検出器を比較する際には、単純な数値だけでなく、そのアーキテクチャ上の選択が実際のモデル展開にどのような影響を与えるかを理解する必要があります。

PP-YOLOE+アーキテクチャ

PP-YOLOE+PaddlePaddle に大きく依存している。RepResNetバックボーンと改良型パスアグリゲーションネットワーク（PAN）を活用し、強力なアンカーフリーパラダイムを導入する。「+」バージョンは、大規模データセット事前学習（Objects365など）と改良されたTaskAlignedAssignerの採用により前世代を改善しました。高い平均精度（mAP）を達成する一方で、PaddlePaddle 強い依存性は、TensorFlow 慣れたチームにとって障壁となるPaddlePaddle 。

YOLO11アーキテクチャ

Ultralytics YOLO11 ネイティブに PyTorchという現代の深層学習における業界標準技術でネイティブに構築されています。そのアーキテクチャはパフォーマンスバランスに重点を置き、多様な実世界の展開シナリオに適した速度と精度の良好なトレードオフを実現しています。YOLO11 より優れた勾配流れのための最適化されたC2fモジュールと、分類と回帰タスクを効率的に別々に処理する分離型ヘッドYOLO11 。さらに、YOLO11 メモリ要件の低減をYOLO11 、 RT-DETRなどの複雑なトランスフォーマーモデルと比較して大幅に低いメモリ使用量を誇ります。

パフォーマンス指標表

以下の表は、様々なモデルスケールにおける性能差を強調しています。YOLO11 パラメータ数とFLOPsを大幅にmAP 、YOLO11 同等かそれ以上のmAP を達成している点に注目してください。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

ユースケースと推奨事項

PP-YOLOE+とYOLO11の選択は、特定のプロジェクト要件、デプロイ制約、およびエコシステム設定に依存します。

PP-YOLOE+を選択するタイミング

PP-YOLOE+は以下に最適です：

PaddlePaddleエコシステム統合: BaiduのPaddlePaddleフレームワークとツールに基づいて既存のインフラストラクチャを構築している組織。
Paddle Lite Edgeデプロイメント: Paddle LiteまたはPaddle推論エンジン専用に高度に最適化された推論カーネルを備えたハードウェアへのデプロイ。
高精度サーバーサイドdetect: フレームワークの依存関係が問題とならない、強力なGPUサーバー上での最大限のdetect精度を優先するシナリオ。

YOLO11を選択すべき時

YOLO11 以下に推奨YOLO11 ：

本番エッジデプロイ: Raspberry PiやNVIDIA Jetsonのようなデバイス上での商用アプリケーションにおいて、信頼性と継続的なメンテナンスが最重要となります。
マルチタスクビジョンアプリケーション: 単一の統合フレームワーク内で、detect、segment、姿勢推定、およびOBBを必要とするプロジェクト。
迅速なプロトタイピングとデプロイ: 合理化されたUltralytics Python APIを使用して、データ収集から本番環境へ迅速に移行する必要があるチーム向け。

Ultralytics YOLO26）を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

Ultralyticsの利点

学術的なベンチマークは重要ではあるものの、AIプロジェクトの長期的な成功はモデルを取り巻くエコシステムに大きく依存します。Ultralytics 、開発者と企業双方に明確な優位性を提供します。

使いやすさ: Ultralyticsはディープラーニングの複雑さを抽象化します。合理化されたユーザーエクスペリエンスとシンプルなPython APIにより、開発者はわずか数行のコードでカスタムモデルをトレーニングできます。これは、PP-YOLOE+がしばしば必要とする複雑な設定ファイルとは対照的です。
整備されたエコシステム: 多くの研究専用リポジトリとは異なり、Ultralyticsエコシステムは活発に開発されています。強力なコミュニティサポート、頻繁な更新、およびWeights & BiasesやComet MLのようなツールとの広範な統合を誇ります。
汎用性: YOLO11は複数のコンピュータービジョンタスク向けに単一の統合フレームワークを提供し、分類、セグメンテーション、またはバウンディングボックス検出のために異なるライブラリを学習する必要性を排除します。
訓練効率: YOLOモデルの効率的な訓練プロセスは、時間と計算コストの両方を節約します。COCOデータセット上の事前学習済み重みを活用することで、民生用ハードウェアでもモデルは迅速に収束します。

トレーニングコード比較

使いやすさを示すため、YOLO11 トレーニング方法を以下に示します。データ拡張、ロギング、ハードウェアオーケストレーションをすべて自動的に処理します：

from ultralytics import YOLO

# Load a pre-trained YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model on your custom dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run a quick inference test on a public image
inference_results = model("https://ultralytics.com/images/bus.jpg")
inference_results[0].show()

PaddleDetectionで同等のパイプラインを設定するには、複雑なXML設定を手動で操作し、長いコマンドライン文字列を実行する必要があり、これによりアジャイル開発サイクルが遅延する可能性があります。

展望：YOLO26の登場

YOLO11 非常に強力なツールYOLO11 、AI分野は急速に進化しています。2026年1月にリリースされた YOLO26Ultralytics における絶対的な最先端技術であり、新規プロジェクト全てにおいて推奨されるモデルです。

YOLO26はいくつかの画期的な革新を導入しています：

エンドツーエンドNMSフリー設計: YOLOv10で初めて開拓された概念に基づいて構築されたYOLO26は、ネイティブにエンドツーエンドです。Non-Maximum Suppression (NMS)の後処理を完全に排除することで、デプロイメントを大幅に簡素化し、レイテンシのばらつきを著しく低減します。
最大43%高速なCPU推論: Distribution Focal Loss (DFL) を戦略的に削除することで、モデルは大幅に軽量化されます。この最適化により、エッジコンピューティングおよび低電力IoTデバイスにとって最高の選択肢となります。
MuSGDオプティマイザ: YOLO26は、LLMトレーニングの革新をコンピュータビジョンにもたらします。MuSGDオプティマイザ（SGDとMuonのハイブリッド）を使用することで、非常に安定したトレーニングダイナミクスと高速な収束を実現します。
ProgLoss + STAL: これらの高度な損失関数は、ドローン画像や航空監視にとって重要な機能である小物体認識において、顕著な改善をもたらします。

結論と実世界での応用

PP-YOLOE+とYOLO11 またはより新しいYOLO26）のどちらを選択するかは、導入環境によって決まります。

PP-YOLOE+は、特定の産業環境、特にハードウェアがBaiduのテクノロジースタックとPaddlePaddleライブラリに深く統合されているアジアの製造拠点において際立っています。最大のmAPが唯一の優先事項である静止画像分析に優れています。

YOLO11とYOLO26は、より汎用性が高く、開発者に優しいアプローチを提供します。その少ないパラメーター数と高速性により、以下の用途に最適です。

スマートリテール: リアルタイムのビデオフィードを処理し、自動チェックアウトおよび在庫管理に活用します。
自律型ロボット: リソースが限られた組み込みデバイスで、高速な障害物回避を可能にします。
セキュリティと監視: 単一の非常に効率的な推論パスで、堅牢なマルチタスク分析（trackや姿勢推定など）を提供します。

信頼性、広範なコミュニティサポート、およびONNXやTensorRTのような形式へのシンプルなデプロイメントパイプラインを求める現代のAIエンジニアにとって、Ultralyticsエコシステムは依然として揺るぎない選択肢です。