DAMO-YOLOとYOLOv7:詳細な技術比較
適切な物体検出モデルの選択は、あらゆるコンピュータビジョンプロジェクトにおいて非常に重要なステップであり、パフォーマンス、速度、およびデプロイの実現可能性に直接影響します。このページでは、2022年にこの分野に大きく貢献した2つの強力なモデルであるDAMO-YOLOとYOLOv7の詳細な技術比較を提供します。アーキテクチャの違い、パフォーマンス指標、および特定のニーズに合わせて情報に基づいた意思決定を行うのに役立つ理想的なユースケースについて説明します。
DAMO-YOLO:高度な技術による高速かつ高精度な検出
DAMO-YOLOは、Alibaba Groupが開発した物体検出モデルであり、最先端技術の組み合わせにより、高いパフォーマンスを実現することに重点を置いています。特に、実際の展開シナリオにおいて、速度と精度の優れたバランスを提供することを目指しています。
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織: Alibaba Group
- Date: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- Docs: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
アーキテクチャと主な機能
DAMO-YOLOのアーキテクチャは、パフォーマンスと効率を最適化するために設計された、いくつかの重要な技術革新に基づいて構築されています。
- NAS搭載バックボーン: Neural Architecture Search (NAS)を活用して、最適なバックボーンネットワークを生成します。この自動化されたアプローチは、手動で設計されたものよりも優れた速度と精度のトレードオフを提供するアーキテクチャを発見するのに役立ちます。
- Efficient RepGFPN Neck: このモデルは、Generalized Feature Pyramid Network(GFPN)と呼ばれる新しいネック構造を導入します。これは、再パラメータ化技術で強化されています。この設計により、さまざまなサイズのオブジェクトを検出するために重要な、効率的なマルチスケール特徴融合が可能になります。
- ZeroHead: DAMO-YOLOは、分類タスクと回帰タスクを分離する、簡素化されたゼロパラメータヘッドを組み込んでいます。これにより、パフォーマンスを犠牲にすることなく、計算の複雑さとモデルサイズが削減されます。
- AlignedOTA ラベル割り当て: AlignedOTAと呼ばれる高度なラベル割り当て戦略を使用します。これは、分類スコアとローカリゼーション精度間のずれの問題を解決し、より正確な検出につながります。
長所と短所
長所:
- 高速な推論速度: 小型バリアント(DAMO-YOLO-t/s)は非常に高速で、エッジAIデバイスなど、低遅延を必要とするアプリケーションに最適です。
- 革新的な技術: NASや効率的なネック設計のような最先端技術を統合し、パフォーマンスの限界を押し広げています。
弱点:
- エコシステムの統合: Ultralyticsのようなフレームワークにある包括的なエコシステム、広範なドキュメント、および合理化されたユーザーエクスペリエンスが不足している可能性があります。
- コミュニティサポート: 単一の企業からの研究主導型モデルであるため、より広く採用されているモデルと比較して、オープンソースコミュニティが小さい可能性があります。
YOLOv7:リアルタイム精度の限界を押し広げる
Chien-Yao Wangらによって発表されたYOLOv7は、リリース時にリアルタイム物体検出器の新たな最先端を確立しました。推論コストを増加させることなく精度を向上させるために、トレーニングプロセスの最適化に重点を置いていました。
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織: 台湾 Academia Sinica 情報科学研究所
- Date: 2022-07-06
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- ドキュメント: https://docs.ultralytics.com/models/yolov7/
アーキテクチャと主な機能
YOLOv7 は、パフォーマンスを大幅に向上させるいくつかのアーキテクチャおよびトレーニングの強化を導入しました。
- E-ELAN (Extended Efficient Layer Aggregation Network): この高度なネットワーク構造は、元の勾配パスを中断することなく、より多様な特徴を学習できるようにすることで、モデルの学習能力を向上させます。
- 複合モデルのスケーリング: YOLOv7は、連結ベースのアーキテクチャに合わせてモデルの深さと幅を適切に調整するモデルスケーリング戦略を採用し、さまざまなモデルサイズで最適なパフォーマンスを保証します。
- 学習可能なBag-of-Freebies: YOLOv7の重要な貢献は、推論中の計算オーバーヘッドを追加することなく、最終的なモデル精度を向上させる補助ヘッドや粗から細への誘導損失などのトレーニング時の最適化の使用です。
長所と短所
長所:
- 優れた精度と速度のバランス: YOLOv7は、高いmAPと高速な推論速度の優れた組み合わせを提供し、リアルタイム推論に非常に適しています。
- 効率的な学習: "bag-of-freebies"アプローチにより、最終的なモデルを遅くすることなく、学習プロセスからより高い精度を達成できます。
- 確立されたパフォーマンス: MS COCOのような標準的なデータセットで徹底的にベンチマークされており、実績のある結果が出ています。
弱点:
- 複雑さ: アーキテクチャとトレーニング戦略は、ゼロから理解し実装することが複雑になる可能性があります。
- 汎用性の制限: YOLOv7は主に物体検出モデルです。他のタスク向けにコミュニティ版が存在しますが、Ultralytics YOLOv8のようなフレームワークの組み込みのマルチタスクの汎用性がありません。
- リソース集約的な学習: 大規模なYOLOv7モデルの学習は、かなりのGPUリソースを必要とする場合があります。
性能分析:速度 vs. 精度
DAMO-YOLOとYOLOv7を比較すると、速度と精度のトレードオフが明らかです。DAMO-YOLOの小型モデル(DAMO-YOLO-tなど)は、最速の推論時間を提供し、リソースが限られたハードウェア上での遅延が重要なアプリケーションに最適です。一方、YOLOv7、特にYOLOv7xバリアントは、より高いmAPを達成し、最大の精度が優先されるシナリオに適しています。両方のファミリーの中型モデル(DAMO-YOLO-lとYOLOv7-l)は、競争力のあるパフォーマンスを提供し、YOLOv7-lはわずかな遅延の増加と引き換えに、わずかに高いmAPを達成しています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Ultralytics YOLOモデルを選ぶ理由
DAMO-YOLOとYOLOv7は強力なモデルですが、開発者や研究者は、YOLOv8や最新のUltralytics YOLO11のようなUltralyticsエコシステムに、より優れた価値を見出すことがよくあります。Ultralyticsモデルは、生の指標を超える大きな利点を提供します。
- 使いやすさ: Ultralyticsのモデルは、効率化されたpython APIとシンプルなCLIコマンドを備え、豊富なドキュメントによってサポートされており、モデルのトレーニング、検証、デプロイが容易です。
- 充実したエコシステム: 活発な開発、強力なオープンソースコミュニティ、頻繁なアップデート、エンドツーエンドのMLOpsのためのUltralytics HUBのようなツールとのシームレスな統合が利用できます。
- パフォーマンスのバランス:Ultralyticsのモデルは、速度と精度の間で優れたトレードオフを提供するように設計されており、エッジデバイスからクラウドサーバーまで、幅広いアプリケーションに適しています。
- メモリ効率: Ultralytics YOLOモデルは、トレーニングと推論の両方で効率的なメモリ使用のために設計されており、多くの場合、他のアーキテクチャよりも必要なCUDAメモリが少なくなります。
- 多様性: YOLOv8やYOLO11のようなモデルは、検出に限定されません。インスタンスセグメンテーション、画像分類、ポーズ推定、傾斜物体検出(OBB)など、複数のタスクをすぐにサポートし、多様なコンピュータビジョンのニーズに対応する統一されたソリューションを提供します。
- 学習効率: 効率的な学習プロセス、COCOのようなデータセットですぐに利用できる事前学習済みの重み、およびより速い収束時間を活用できます。
結論
DAMO-YOLOとYOLOv7はどちらも、物体検出における重要な進歩を表しています。DAMO-YOLOは、特に小型のバリアントで推論速度に優れており、エッジデバイスや低遅延を優先するアプリケーションに最適です。YOLOv7は、可能な限り最高のmAPを達成することが重要なシナリオに特に適しており、優れたリアルタイムパフォーマンスを維持しながら、精度の限界を押し広げています。
ただし、開発者は、Ultralytics エコシステム内のモデル(YOLOv8 や最新の YOLO11 など)も検討するかもしれません。これらのモデルは、多くの場合、パフォーマンス、使いやすさ、広範なドキュメント、効率的なトレーニング、より少ないメモリ要件、および適切にメンテナンスされたエコシステムと Ultralytics HUB を介した活発なコミュニティサポートによって支えられた、複数のビジョンタスクにわたる汎用性の優れたバランスを提供します。
その他のモデル
DAMO-YOLOおよびYOLOv7に関心のあるユーザーは、以下のモデルも参考になるかもしれません。
- Ultralytics YOLOv5: その速度とデプロイの容易さで知られる、非常に人気があり効率的なモデル。YOLOv5のドキュメントを見る。
- Ultralytics YOLOv8: 検出、セグメンテーション、ポーズ、および分類タスクにわたって優れたパフォーマンスを提供する、汎用性の高い最先端のモデル。YOLOv8のドキュメントを見る。
- YOLOv9: 精度と効率を向上させるために、PGIやGELANなどのイノベーションを導入します。YOLOv9のドキュメントを見る。
- YOLOv10: レイテンシ削減のため、NMSフリーのエンドツーエンド検出に重点を置いています。YOLOv10とDAMO-YOLOの比較。
- Ultralytics YOLO11: Ultralyticsの最新の最先端モデルであり、アンカーフリー設計で速度、効率、および使いやすさを重視しています。YOLO11の詳細はこちら。
- RT-DETR: Transformerベースのリアルタイム検出モデル。RT-DETRとDAMO-YOLOの比較。