コンテンツにスキップ

YOLO11 PP-YOLOE+の比較:詳細な技術比較

最適な物体検出アーキテクチャを選択することは、コンピュータビジョンプロジェクトの速度、精度、展開の可能性を左右する極めて重要な決定です。このガイドでは Ultralytics YOLO11と、BaiduのPaddlePaddle エコシステムの堅牢な検出器であるPP-YOLOE+の徹底的な技術比較を行います。どちらのモデルも高いパフォーマンスを提供しますが、YOLO11 その卓越した計算効率、PyTorch シームレスな統合、研究者やエンジニアの開発を加速させるために設計された包括的なエコシステムによって差別化を図っています。

Ultralytics YOLO11:効率性と多用途性の融合

YOLO11 、リアルタイム物体検出の限界を押し広げるためにUltralytics リリースした、名高いYOLO (You Only Look Once)シリーズの最新の進化形です。Glenn JocherとJing Qiuによって設計されたこのモデルは、アンカーフリーアーキテクチャを改良し、計算オーバーヘッドを大幅に削減しながら優れた精度を実現しています。

著者Glenn Jocher, Jing Qiu
組織:Ultralytics
日付:2024-09-27
GitHubultralytics
Docsyolo11

アーキテクチャーとコア・ストレングス

YOLO11 、特徴抽出と融合を最適化する合理的なネットワーク設計を採用しています。あらかじめ定義されたボックスに依存する従来のアンカーベースの検出器とは異なり、YOLO11 オブジェクトの中心とスケールを直接予測する。このアプローチにより、モデルヘッドが単純化され、チューニングに必要なハイパーパラメータの数が減少します。

このモデルのアーキテクチャは汎用性が高く、単純な検出だけでなく、幅広いコンピュータビジョンタスクをサポートする。インスタンスのセグメンテーションポーズ推定画像分類オリエンテッドバウンディングボックス(OBB)をネイティブに処理し、これらはすべて単一の統一されたフレームワーク内で行われる。

デベロッパー経験

YOLO11最も大きな利点のひとつは、以下のような統合にある。 ultralytics Python パッケージ。これにより、トレーニング、検証、デプロイメントのための一貫したAPIが提供され、開発者はタスクを切り替えたり、モデルを次のような形式にエクスポートしたりできる。 ONNX および TensorRT たった1行のコードで。

主な利点

  • 優れたパフォーマンスバランス: YOLO11 、以下の間で業界トップクラスのトレードオフを実現しています。 mAPと推論レイテンシのトレードオフを実現し、エッジデバイスのリアルタイムアプリケーションに適しています。
  • 計算効率:このモデルは、PP-YOLOE+のような競合製品に比べて、必要なパラメータとFLOP(浮動小数点演算)の数が少ないため、実行速度が速く、エネルギー消費量も少なくなります。
  • 低メモリーフットプリント:効率的なメモリ使用のために最適化されたYOLO11 、リソースの多いトランスフォーマーモデルとは異なり、VRAMが限られたハードウェア上でも高速に動作します。
  • 堅牢なエコシステム:積極的なメンテナンス、広範なドキュメント、コミュニティサポートにより、企業プロジェクトの長期的な実行可能性が保証されます。

YOLO11の詳細について。

PP-YOLOE+:PaddlePaddle 高精度

PP-YOLOE+は百度の研究者が開発したPPYOLO YOLOシリーズの進化版である。2022年にリリースされ、PaddleDetectionツールキットの一部であり、PaddlePaddle ディープラーニングフレームワーク内で効率的に動作するように設計されている。

著者 PaddlePaddle Authors
Organization:Baidu
Date:2022-04-02
ArXiv:https://arxiv.org/abs/2203.16250
GitHubPaddlePaddle
Docs:PaddleDetection ドキュメンテーション

アーキテクチャと機能

PP-YOLOE+は、CSPRepResNetバックボーンと効率的なタスクアラインメントヘッド(ET-Head)を利用している。タスクアライメント学習(TAL)による動的なラベル割り当てを組み込み、バリフォーカルロス(Varifocal Loss)を使用してオブジェクト分類の品質を向上させる。このモデルはPaddlePaddle 推論エンジン専用に最適化されており、TensorRT 統合を活用して展開される。

強みと限界

PP-YOLOE+は、以下のようなベンチマークで競争力のある精度を実現している。 COCOのようなベンチマークでは競争力のある精度を実現していますが、そのフレームワーク依存性のために採用のハードルに直面しています。世界の研究コミュニティのほとんどは PyTorchに依存しているため、PaddlePaddle への移行は摩擦の原因となります。さらに、PP-YOLOE+モデルは一般的に、YOLO11ような新しいアーキテクチャの精度に匹敵する高いパラメータ数を必要とするため、学習と推論の両方で計算コストが増加します。

PP-YOLOE+の詳細について。

パフォーマンス分析:効率とスピード

性能指標を直接比較した結果、YOLO11 、最先端の精度を維持しながら、効率と速度の点で一貫してPP-YOLOE+を上回ることが明らかになった。

モデルサイズ
(ピクセル)
mAP
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

批判的観察

  1. 効率の優位性: YOLO11 パラメータ効率は際立っている。例えば、YOLO11xは、PP-YOLOE+xと比較して54.7mAP 達成していますが、98.42Mのパラメータに対して56.9Mのパラメータしか使用していません。これは、YOLO11xが約42%小さく、ストレージに制約のあるデバイスへの展開が容易であることを意味する。
  2. 推論スピード:実際の展開シナリオでは、スピードが重要です。YOLO11nは、T4GPU 1.5ミリ秒という驚異的な推論時間を実現し、同等のPP-YOLOE+tの2.84ミリ秒を大幅に上回ります。このスピードアドバンテージにより、自律走行車やロボット工学などのアプリケーションで、より高いフレームレート処理が可能になります。
  3. CPU パフォーマンス: YOLO11 用に最適化されたCPU ベンチマークが利用可能であることが、その柔軟性を際立たせている。YOLO11nでCPU 上で56.1ミリ秒を達成することで、専用のGPU アクセラレーションがなくても実行可能なリアルタイム・アプリケーションが可能になる。

実際のユースケース

YOLO11 アーキテクチャー上の利点は、多様な産業にとってのメリットに直結する。

  • スマートシティのインフラ YOLO11 高いスループットは、少ないサーバーで複数のカメラストリームにわたるリアルタイムの交通監視と渋滞解析をサポートします。
  • 工業生産:低レイテンシーで優れた精度を誇るYOLO11 、高速組立ラインでの品質管理や欠陥検出に優れています。
  • 小売分析: オブジェクトカウントとヒートマップ生成を効率的に処理できるこのモデルは、小売業者が店舗レイアウトと在庫管理を最適化するのに役立ちます。
  • ヘルスケアイメージング:セグメンテーションを実行する汎用性は、腫瘍の特定や細胞構造の分析など、精密な医療画像解析を支援する。

トレーニングとエコシステムの統合

大きな差別化要因は、開発者が簡単にモデルをトレーニングし、デプロイできることです。Ultralytics エコシステムは、ユーザー・ジャーニーの簡素化を中心に構築されている。

合理化されたワークフロー

カスタムデータセット上でYOLO11 モデルをトレーニングするのに必要なコードは最小限です。このフレームワークは、データの増強、ハイパーパラメータの進化、マルチGPU トレーニングのような複雑なタスクを自動的に処理します。

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

対照的に、PP-YOLOE+を利用する場合、元のデータパイプラインがPyTorch場合、PaddlePaddle エコシステム、設定ファイル、変換スクリプトの可能性などの複雑なナビゲーションを伴うことが多い。

展開の柔軟性

Ultralytics 、ONNX、OpenVINO、CoreML、TFLite含む膨大なフォーマットのエクスポートモードを内蔵しています。これにより、NVIDIA JetsonエッジデバイスからiOS スマートフォンやクラウドAPIまで、一度学習したモデルをどこにでも展開することができます。

結論

PP-YOLOE+は、バイドゥのエコシステムの中では、依然として有能なモデルである、 Ultralytics YOLO11は、より広範なコンピュータビジョンコミュニティにとって、より優れた選択肢として際立っている。パラメータ数の大幅な削減、推論速度の高速化、PyTorch使いやすさの組み合わせは、参入障壁を取り除き、市場投入までの時間を短縮します。

YOLO11 、最先端の性能と使いやすさのバランスが取れた将来性のあるソリューションを求める開発者に、次世代のAIアプリケーションを構築するための堅牢で汎用性の高い、非常に効率的なプラットフォームを提供します。

その他のモデルを見る

Ultralytics エコシステム内の他のアーキテクチャを調べることに興味がある場合は、これらの比較を検討してください:


コメント