DAMO-YOLO 対YOLOv8:テクニカル・ディープ・ダイブ
物体検出の状況は常に進化しており、研究者やエンジニアは、速度、精度、計算効率という相反する要求のバランスを取ろうと努力している。アリババ・グループが開発したDAMO-YOLO、アリババ・グループが開発したYOLOv8の2つのアーキテクチャは、コンピュータ・ビジョンの世界で大きな波紋を呼んでいる。 YOLOv8である。 Ultralytics.
この技術比較では、両モデルのアーキテクチャ上の革新性、パフォーマンス指標、実用的な使いやすさを探ります。YOLO -YOLOがニューラル・アーキテクチャ・サーチ(NAS)のような新しい研究コンセプトを導入しているのに対し、Ultralytics YOLOv8 、トレーニングからデプロイまでのワークフローを合理化する、堅牢でユーザーフレンドリーなエコシステムの提供に重点を置いています。
性能分析:速度と精度
実世界のシナリオにおいてこれらのモデルがどのように比較されるかを理解するために、標準的なCOCO データセットにおける性能を分析する。以下の指標は、平均平均精度mAP)、異なるハードウェア上での推論速度、モデルの複雑さの間のトレードオフを強調している。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
主なポイント
このデータから、配備対象によって明確な利点があることがわかる:
- エッジパフォーマンス:エッジの性能 YOLOv8n(Nano)モデルは、リソースに制約のある環境において、誰もが認めるリーダーです。わずか3.2Mのパラメータと 8.7B FLOPsで、CPU GPU両方で最速の推論速度を達成します。そのため、メモリと電力が乏しいモバイル・アプリケーションやIoTデバイスに最適です。
- ピーク精度:精度が最優先される用途向け YOLOv8xは53.9%という最高のmAP 達成した。DAMO-YOLO モデルが優れた性能を発揮する一方で、最大のYOLOv8 バリアントは検出精度の限界をさらに押し上げる。
- レイテンシーのトレードオフ YOLO -YOLOは、NASに最適化されたバックボーンによって、(T4のような)専用GPU上で印象的なスループットを示します。しかし、Ultralytics YOLOv8 、CPUを含むより多様なハードウェアにわたって優れたバランスを維持し、より幅広い展開の柔軟性を保証します。
DAMO-YOLO:研究主導型イノベーション
DAMO-YOLO 、アリババ・グループの研究イニシアティブの成果である。この名前は「発見、冒険、勢い、展望」の頭文字をとったもので、新しい建築のフロンティアを探求することに重点を置いていることを反映している。
著者Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organization:Alibaba Group
Date:2022-11-23
Arxiv:2211.15444v2
GitHub:YOLO
建築ハイライト
DAMO-YOLO 、レイテンシーと精度のトレードオフを最適化するために、いくつかの先進技術を統合している:
- MAE-NASバックボーン:ニューラル・アーキテクチャ・サーチ(NAS)を利用して、効率的なネットワーク構造を自動的に発見するもので、具体的にはMAE-NASと呼ばれる手法を利用する。
- RepGFPNネック:パラメータ化された一般化特徴ピラミッドネットワーク(GFPN)は、異なるスケールレベル間の情報フローを最大化し、様々な距離にある物体の検出を改善するために使用される。
- ZeroHead:重いネックに対抗するため、モデルは軽量な「ZeroHead」を採用し、最終検出段階での計算負荷を軽減している。
- AlignedOTA:学習中に分類タスクと回帰タスクを整列させる動的なラベル割り当て戦略で、モデルがより効果的に収束するのを助ける。
Ultralytics YOLOv8:エコシステム・スタンダード
YOLOv8 、使いやすさ、多用途性、最先端の性能に重点を置いたYOLO アーキテクチャーの改良版である。純粋な研究モデルとは異なり、YOLOv8 開発者のための製品として設計されており、整備されたエコシステムと統合の容易さを重視している。
著者Glenn Jocher、Ayush Chaurasia、Jing Qiu
組織:Ultralytics
Date:2023-01-10
Docs:Ultralytics YOLOv8
建築の強み
- アンカー・フリー検出: YOLOv8 アンカーボックスを排除し、開発者がチューニングする必要のあるハイパーパラメータの数を減らし、学習プロセスを簡素化します。
- C2fモジュール:このアーキテクチャは、C3モジュールをC2fに置き換えるもので、軽量なフットプリントを維持しながら、より豊富なグラディエントフロー情報を提供する。
- 頭部分離:分類と回帰のタスクを頭部に分離することで、より高い定位精度を実現。
- 統一されたフレームワーク:おそらく最も強力なアーキテクチャ上の特徴は、インスタンスのセグメンテーション、ポーズ推定、分類、および指向性オブジェクト検出(OBB)といった複数のビジョンタスクをネイティブにサポートしていることです。
ご存知でしたか?
Ultralytics 、以下のような最適化されたフォーマットにモデルをエクスポートするシームレスなパスを提供します。 ONNX, TensorRT, CoreMLおよび OpenVINO.このエクスポート機能により、学習したモデルをほとんどすべてのハードウェアプラットフォームで効率的に実行できます。
ユーザビリティとデベロッパー・エクスペリエンス
この2つのモデルの最も大きな違いは、使いやすさと周囲のエコシステムにある。
Ultralytics YOLOモデルは、「ゼロからヒーローになる」体験で有名です。PIPをインストールするだけで、開発者は強力なCLI Python APIにアクセスできる。これは、しばしば複雑な環境設定を必要とする研究リポジトリと比較して、参入障壁を大幅に引き下げます。
トレーニング効率
Ultralytics モデルは、トレーニングの効率化のために設計されています。CUDA メモリを効率的に利用するため、バッチサイズを大きくしたり、コンシューマーグレードのGPUでトレーニングすることができます。さらに、高品質な事前訓練済みの重みを利用できるため、収束が加速し、貴重な計算時間とエネルギーを節約できます。
ここでは、たった3行のPython YOLOv8 モデルをロードし、予測する方法の完全で実行可能な例を示します:
from ultralytics import YOLO
# Load a pre-trained YOLOv8n model
model = YOLO("yolov8n.pt")
# Run inference on an image (automatically downloads image if needed)
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
for result in results:
result.show()
対照的に、DAMO-YOLO 強力なパフォーマンスを提供する一方で、一般的に、より手作業での設定と研究指向のフレームワークへの習熟を必要とするため、迅速なプロトタイピングや商業的な統合には利用しにくい。
結論正しいツールの選択
DAMO-YOLO YOLOv8 どちらも、コンピューター・ビジョンにおける類まれな功績である。
DAMO-YOLO、ニューラル・アーキテクチャ・サーチに興味を持つ研究者や、カスタム・バックボーンが完全に最適化されたハードウェアに特化して展開する研究者にとって、優れた選択肢である。
しかし、ほとんどの開発者、研究者、企業にとっては Ultralytics YOLOv8(と新しい YOLO11)は優れた価値を提供している:
- 汎用性:検出、セグメンテーション、ポーズ、OBBを1つのフレームワークで処理できる。
- 使いやすさ:比類のないドキュメント、シンプルなAPI、強力なコミュニティサポート。
- 展開:携帯電話からクラウドサーバーまで、幅広いエクスポートモードをサポート。
- パフォーマンス・バランス:特にCPU Edgeデバイスにおいて、優れた精度対速度比を実現。
常に最先端を走り続けたい方には、以下のチェックもお勧めします。 YOLO11YOLOv8 8の長所をベースに、さらに効率と精度を高めたものです。
その他のモデル比較
あなたのコンピュータビジョンプロジェクトに最適な決断を下すために、詳細な比較をご覧ください: