YOLOv8 vs DAMO-YOLO:技術比較
適切な物体検出モデルの選択には、精度、速度、および使いやすさのトレードオフが伴います。このページでは、Ultralyticsの最先端モデルであるUltralytics YOLOv8と、Alibaba Groupの高パフォーマンスモデルであるDAMO-YOLOという、2つの強力なモデルの詳細な技術的比較を提供します。どちらのモデルも優れたパフォーマンスを提供しますが、異なる設計哲学に基づいて構築されており、異なる開発ニーズに対応しています。アーキテクチャ、パフォーマンス指標、および理想的なユースケースを検討して、情報に基づいた意思決定を支援します。
Ultralytics YOLOv8
著者: Glenn Jocher, Ayush Chaurasia, and Jing Qiu
所属: Ultralytics
日付: 2023-01-10
GitHub: https://github.com/ultralytics/ultralytics
ドキュメント: https://docs.ultralytics.com/models/yolov8/
Ultralytics YOLOv8は、最先端のモデルであり、従来のYOLOバージョンの成功を基盤としています。高速、高精度、使いやすさを追求して設計されており、幅広い物体検出およびビジョンAIタスクに最適です。YOLOv8は単なるモデルではなく、トレーニングや検証から実際のアプリケーションへのデプロイまで、AIモデル開発のライフサイクル全体をサポートする包括的なフレームワークです。
主な機能と強み
-
高度なアーキテクチャ: YOLOv8は、アンカーフリーでデカップリングされたヘッド設計を導入し、精度を向上させ、場合によってはNon-Maximum Suppression (NMS)の必要性を排除することで、後処理を高速化します。洗練されたCSPDarknetバックボーンと、機能融合を強化する新しいC2fネックモジュールを使用しています。
-
卓越した汎用性: YOLOv8の主な利点は、単一の統合フレームワーク内で複数のビジョンタスクをネイティブにサポートすることです。物体検出、インスタンスセグメンテーション、画像分類、ポーズ推定、および傾斜物体検出(OBB)をシームレスに処理します。この汎用性により、複雑なコンピュータビジョンプロジェクトに対応できる、頼りになるソリューションとなっています。
-
使いやすさ: Ultralyticsは、開発者のエクスペリエンスを重視しています。YOLOv8には、シンプルで直感的なPython APIと強力なCLIが付属しており、豊富なドキュメントとチュートリアルによってサポートされています。これにより、初心者から専門家まで、モデルのトレーニング、検証、デプロイが非常に簡単になります。
-
充実したエコシステム: YOLOv8は、活発な開発、頻繁なアップデート、および強力なコミュニティサポートを備えた、活気のあるオープンソースエコシステムの一部です。ノーコードトレーニングとデプロイメントのためのUltralytics HUB、およびWeights & BiasesやCometのような多数のMLOpsプラットフォームと統合されています。
-
パフォーマンスと効率性: YOLOv8は、幅広いモデルサイズ(NanoからExtra-Largeまで)において、速度と精度の優れたバランスを提供します。CPUとGPUの両方の推論に高度に最適化されており、エッジデバイスからクラウドサーバーまで、多様なハードウェア上での効率的なデプロイメントを保証します。さらに、メモリ効率を考慮して設計されており、他の多くのアーキテクチャと比較して、トレーニングに必要なCUDAメモリが少なくなっています。
弱点
- ワンステージ検出器として、一部の特殊なツーステージ検出器と比較して、極端に小さいオブジェクトや大きく遮られたオブジェクトの検出に課題が生じる可能性がありますが、ほとんどの汎用シナリオでは非常に優れたパフォーマンスを発揮します。
DAMO-YOLO
著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
組織: Alibaba Group
日付: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
DAMO-YOLOは、Alibaba Groupによって開発された高速かつ高精度な物体検出モデルです。YOLOスタイルの検出器のパフォーマンスを向上させるために、いくつかの新しい技術を導入しています。「DAMO」という名前は、「Discovery, Adventure, Momentum, and Outlook」の略で、プロジェクトの研究主導の性質を反映しています。
主な機能と強み
- Neural Architecture Search (NAS): DAMO-YOLOは、NASを活用して最適なバックボーンアーキテクチャ(MAE-NAS)を見つけ、精度とレイテンシのより良いトレードオフを実現します。
- 高度なネック設計: 効率的なRepGFPN(Generalized Feature Pyramid Network)ネックを組み込んでおり、バックボーンのさまざまなレベルからの特徴融合を強化するように設計されています。
- ZeroHead: DAMO-YOLOは、高いパフォーマンスを維持しながら、計算オーバーヘッドを削減するために、軽量の結合ヘッドを使用する「ZeroHead」アプローチを提案します。
- AlignedOTA ラベル割り当て: AlignedOTAと呼ばれる動的ラベル割り当て戦略を使用します。これは、トレーニング中に分類タスクと回帰タスクを整合させることで、モデルの学習を改善するのに役立ちます。
- 高いGPUパフォーマンス: このモデルはGPU推論に最適化されており、公式ベンチマークで示されているように、ハイエンドハードウェアで非常に低い遅延を実現します。
弱点
- 複雑さ: NASやカスタムモジュール(RepGFPN、ZeroHead)のような高度な技術を使用すると、アーキテクチャがより複雑になり、モデルの内部動作をカスタマイズまたは理解する必要がある開発者にとっては直感的でなくなります。
- 汎用性の制限: DAMO-YOLOは主に物体検出用に設計されています。Ultralytics YOLOv8フレームワークに標準搭載されている、セグメンテーション、分類、ポーズ推定に対する組み込みのマルチタスクサポートがありません。
- エコシステムとサポート: オープンソースプロジェクトではありますが、そのエコシステムはUltralyticsほど包括的または十分にメンテナンスされていません。ドキュメントが不足している場合があり、コミュニティサポートもそれほど充実していないため、開発者が採用およびトラブルシューティングを行うのがより困難になっています。
- CPUパフォーマンス: このモデルは GPU 向けに高度に最適化されています。CPU パフォーマンスに関する情報とベンチマークはあまり入手できないため、GPU 以外のハードウェアでのデプロイメントには制限となる可能性があります。
性能分析:YOLOv8 vs. DAMO-YOLO
パフォーマンスを比較する場合、異なるハードウェアでの精度(mAP)と推論速度の両方を確認することが重要です。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
表から、いくつかの結論を導き出すことができます。
- 精度: YOLOv8モデルは、同様のスケールでDAMO-YOLOモデルを一貫して上回っています。たとえば、YOLOv8mは50.2 mAPを達成し、DAMO-YOLOmの49.2 mAPを上回っています。より大型のYOLOv8lおよびYOLOv8xモデルは、この差を大幅に広げています。
- 速度: DAMO-YOLOは非常に競争力のあるGPU速度を示していますが、YOLOv8nはGPU上で全体的に最速のモデルです。重要なことに、Ultralyticsは透過的なCPUベンチマークを提供しており、これはGPUリソースが利用できない多くの現実世界のアプリケーションにとって不可欠です。YOLOv8は、CPU上で優れた、十分に文書化されたパフォーマンスを示します。
- 効率性: YOLOv8モデルは、一般的に、与えられた精度に対して、パラメータとFLOPsのより良いバランスを提供します。例えば、YOLOv8sはわずか11.2Mのパラメータで44.9 mAPを達成していますが、DAMO-YOLOsは同様の46.0 mAPに到達するために16.3Mのパラメータを必要とします。
結論
DAMO-YOLOは、NASのような高度な研究技術の力を示し、GPUハードウェア上で高いパフォーマンスを実現する優れたモデルです。GPUの生の速度が主要な指標であり、開発チームがより複雑なアーキテクチャを管理する専門知識を持っているアプリケーションにとって、強力な候補となります。
しかし、圧倒的多数の開発者、研究者、企業にとって、Ultralytics YOLOv8が明確で優れた選択肢です。より優れた全体的なパッケージを提供します。より高い精度、CPU と GPU の両方での優れたパフォーマンス、マルチタスクサポートによる比類のない汎用性です。
使いやすさ、広範なドキュメント、活発なコミュニティサポート、シームレスな統合など、Ultralyticsエコシステムの主な利点により、YOLOv8は単なる強力なモデルではなく、堅牢な現実世界のコンピュータビジョンソリューションを構築するための実用的で生産的なツールとなっています。最初のプロジェクトを開始する初心者でも、複雑なシステムをデプロイする専門家でも、YOLOv8はより信頼性が高く、効率的で、ユーザーフレンドリーな成功への道を提供します。
その他のモデルを見る
他のモデルの比較にご興味があれば、以下のページでYOLOv8と他の最先端アーキテクチャとの比較をご覧ください。