DAMO-YOLOとPP-YOLOE+:詳細な技術比較
競争の激しいリアルタイム・コンピュータビジョンにおいて、特定のデプロイメントのニーズに最適なアーキテクチャを選択することは極めて重要です。本ガイドでは、DAMO-YOLOと**PP-YOLOE+**の包括的な技術比較を行い、それぞれのアーキテクチャ設計、トレーニング手法、およびパフォーマンス指標を詳しく掘り下げます。また、これらのモデルがリリースされたばかりのUltralytics YOLO26のような最先端ソリューションとどのように比較されるかも検討します。
モデルの概要
両フレームワークは2022年に、産業用途向けの強力な代替手段として登場し、高度な技術を活用して精度と推論速度の限界を押し広げました。
DAMO-YOLO
Alibaba Groupによって開発されたDAMO-YOLOは、自動探索技術と高度な特徴融合(feature fusion)を駆使して、レイテンシと精度のトレードオフを最適化するいくつかの新しい手法を導入しました。
- 著者:Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- 組織:Alibaba Group
- 日付:2022-11-23
- Arxiv: DAMO-YOLO: A Report on Real-Time Object Detection Design
- GitHub: tinyvision/DAMO-YOLO
- ドキュメント: DAMO-YOLO README
DAMO-YOLOはMulti-Scale Architecture Search (MAE-NAS)を採用し、ハードウェア効率を最適化したバックボーンを自動的に設計します。また、ネック部分の特徴融合には効率的なRepGFPN (Re-parameterized Generalized Feature Pyramid Network) を、ヘッド部分には軽量な「ZeroHead」設計を採用しています。さらに、トレーニング中に蒸留(distillation)技術を多用することで、生徒モデルの表現能力を向上させています。
PP-YOLOE+
BaiduのPaddlePaddleチームによるPP-YOLOE+は、PP-YOLOEアーキテクチャの段階的なアップグレード版です。大規模な事前学習と洗練された損失関数に重点を置いており、特にネイティブのディープラーニングフレームワーク内で高いmAPを実現します。
- 作成者:PaddlePaddle作成者
- 組織:Baidu
- 日付:2022年4月2日
- Arxiv: PP-YOLOE: An evolved version of YOLO
- GitHub: PaddlePaddle/PaddleDetection
- ドキュメント: PP-YOLOE+ Configs
PP-YOLOE+はCSPRepResNetバックボーンとET-head (Efficient Task-aligned head) を利用しています。「plus」バージョンでは、Objects365データセットでの強力な事前学習戦略が導入されており、多様な現実世界環境に対する汎化性能が大幅に向上しています。
アーキテクチャの比較
これら2つのモデル間の設計思想の違いは、理想的なユースケースやハードウェア互換性に大きな影響を与えます。
特徴融合とバックボーン
DAMO-YOLOのMAE-NASで生成されたバックボーンはエッジデバイスに高度に適合しており、多くの場合、速度とパラメータの比率で優れた結果をもたらします。しかし、こうしたカスタムアーキテクチャは固定的な場合が多く、インスタンスセグメンテーションのような新しいタスクへの適応が困難になることがあります。RepGFPNネックはマルチスケール特徴融合を改善しますが、再パラメータ化のエクスポートフェーズで複雑さが増します。
PP-YOLOE+は、より伝統的でありながら非常に効果的なCSPRepResNetに依存しています。このバックボーンは同等の精度に対してDAMO-YOLOよりも大きなパラメータフットプリントを必要としますが、トレーニングの安定性が高く、既存のパイプラインへの統合が容易です。そのET-headは分類と回帰を効率的に処理しますが、依然としてNMS (Non-Maximum Suppression) のような後処理ステップを必要とします。
DAMO-YOLOとPP-YOLOE+の双方は、バウンディングボックスの後処理にNMSを必要とします。推論レイテンシが重要な場合は、ネイティブのEnd-to-End NMS-Free Designを備えたUltralytics YOLO26の利用を検討してください。この画期的なアプローチにより、NMS後処理が不要となり、より高速でシンプルなデプロイメントパイプラインを実現します。
パフォーマンスと指標の分析
これらのモデルを本番環境で評価する際には、精度(mAP)、推論速度、パラメータサイズのバランスが不可欠です。主要なバリアントの直接比較を以下に示します。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
表が示すように、DAMO-YOLOはNASで最適化されたバックボーンのおかげで、一般的にスモール(s)およびタイニー(t)スケールで低いレイテンシを実現します。しかし、PP-YOLOE+はミディアム(m)およびラージ(l)ティアで非常にうまくスケールし、T4 TensorRTの速度にはわずかな犠牲を伴うものの、大幅に高いmAPスコアを誇ります。
メモリ要件と学習効率
DAMO-YOLOが蒸留に依存しているということは、多くの場合、小さな生徒モデルをトレーニングする前に、はるかに大きな教師モデルをトレーニングする必要があることを意味します。これはCUDAメモリ要件と全体的な計算コストを大幅に増加させます。PP-YOLOE+は標準的な一段階トレーニングでこれを簡素化していますが、依然としてPaddlePaddleフレームワークに密結合しており、PyTorchに慣れたチームにとっては柔軟性が制限される可能性があります。
対照的に、モダンなUltralytics YOLO26モデルは、これらのボトルネックを解決します。LLMトレーニングの革新技術に着想を得たSGDとMuonのハイブリッドである新しいMuSGD Optimizerを活用することで、YOLO26は複雑な蒸留パイプラインを必要とせずに、より高速な収束と非常に安定したトレーニングを実現します。さらに、YOLOモデルは通常、RT-DETRのようなTransformerベースの検出器と比較して、トレーニング中のCUDAメモリ消費量が大幅に少なくなります。
実世界でのアプリケーションと理想的な使用例
DAMO-YOLO の使用時期
DAMO-YOLOは、レイテンシが最大のボトルネックとなる高スループットのエッジ推論に最適です。エンジニアリングチームに複雑な蒸留および再パラメータ化プロセスを管理する余力があれば、そのスモールバリアントは交通管理システムや基本的なドローン監視などの環境で非常に優れた性能を発揮します。
PP-YOLOE+の使用時期
PP-YOLOE+は、すでにBaiduエコシステムに深く関与している場合や、大規模なサーバー展開を行う場合に真価を発揮します。その印象的なmAPは、複雑な医療画像解析や高密度な製造欠陥検出に適しています。
Ultralyticsの利点
DAMO-YOLOとPP-YOLOE+はそれぞれ特定の局所的な利点を提供しますが、最大限の汎用性、速度、そして使いやすさを求める開発者は、一貫してUltralytics Platformを選択しています。
コンピュータビジョンパイプラインをアップグレードする際、Ultralytics YOLO26は比類のない開発者体験を提供します:
- CPU推論が最大43%高速化: Distribution Focal Loss (DFL) の完全な削除により、YOLO26はエッジCPUや低電力IoTデバイス上で驚異的な速度で動作します。
- 小物体検出の改善: ProgLossおよびSTAL損失関数の統合により、小物体認識において劇的な改善がもたらされており、これは航空画像において極めて重要です。
- 広範な汎用性: 検出に特化したPP-YOLOE+とは異なり、YOLO26は姿勢推定、指向性バウンディングボックス (OBB)、およびセマンティックセグメンテーションを、タスク固有のアーキテクチャ改善によりシームレスに処理します。
結論
DAMO-YOLOとPP-YOLOE+は、アンカーフリーのオブジェクト検出の進化における重要なマイルストーンです。DAMO-YOLOはエッジレイテンシのためのニューラルアーキテクチャ探索の限界を押し広げ、PP-YOLOE+は大規模事前学習の力を実証しました。
しかし、速度、精度、デプロイの簡便さの最適なバランスを求める開発者にとって、Ultralytics YOLO26モデルが決定的な選択肢となります。そのNMSフリーのアーキテクチャ、堅牢なPython API、そしてWeights & BiasesやTensorRTなどのツールとのシームレスな統合により、プロジェクトをプロトタイプから本番環境へスムーズに移行できます。
準備はよろしいですか?Ultralytics Quickstart Guideを確認するか、私たちのYOLO11 vs DAMO-YOLOの概要で他のモデルと比較してみてください。