コンテンツにスキップ

DAMO-YOLOとYOLOv6-3.0:技術比較

最適な物体検出モデルの選択は、コンピュータビジョンプロジェクトにおいて非常に重要な決定事項です。このページでは、Alibaba Groupの高精度モデルであるDAMO-YOLOと、Meituanの効率重視モデルであるYOLOv6-3.0との詳細な技術比較を提供します。お客様の選択を支援するために、アーキテクチャのニュアンス、パフォーマンスベンチマーク、およびさまざまなアプリケーションへの適合性について解説します。

DAMO-YOLO の概要

DAMO-YOLOは、Alibaba Groupによって開発された高速かつ高精度な物体検出モデルです。速度と精度のトレードオフにおいて、最先端技術を推進するために、いくつかの新しい技術を導入しています。このモデルは高度にスケーラブルになるように設計されており、さまざまな計算予算に合わせてさまざまなサイズを提供しています。

著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
所属: Alibaba Group
日付: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO
ドキュメント: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

アーキテクチャと主な機能

DAMO-YOLOのアーキテクチャは、「ワンステージ」検出器のパラダイムに基づいて構築されていますが、パフォーマンスを向上させるために、いくつかの高度なコンポーネントが組み込まれています。

  • NASバックボーン: Neural Architecture Search (NAS)を活用して、特徴抽出に最適なバックボーン(具体的にはMazeNet)を見つけ、パフォーマンスを向上させます。
  • Efficient RepGFPN: 推論時に効率的なマルチスケール特徴融合を可能にする、再パラメータ化を用いた汎用 Feature Pyramid Network (FPN) を実装しています。
  • ZeroHead: 検出ヘッドの計算オーバーヘッドと複雑さを軽減する、簡素化されたゼロパラメータヘッド設計。
  • AlignedOTA ラベル割り当て: 分類タスクと回帰タスクの整合性を高める改善されたラベル割り当て戦略により、予測精度が向上します。
  • Distillation Enhancement: ナレッジ蒸留を採用して、より大きな教師モデルからより小さな生徒モデルに知識を伝達し、より小さなバリアントのパフォーマンスを向上させます。

長所

  • 高精度: 特にミディアムおよびラージ構成において、非常に競争力の高いmAPスコアを達成しています。
  • アーキテクチャの革新性: ZeroHeadや効率的なRepGFPNなどの斬新なコンセプトを導入し、検出器設計の限界を押し広げています。
  • スケーラビリティ: 広範囲のモデルサイズ(Tiny、Small、Medium、Large)を提供し、さまざまなハードウェア制約に適応可能です。

弱点

  • 統合の複雑さ: スタンドアロンの研究プロジェクトとして、DAMO-YOLOを本番パイプラインに統合するには、包括的なエコシステム内のモデルと比較して、より多くの労力がかかる場合があります。
  • 汎用性の制限: 主に物体検出に重点を置いており、Ultralytics YOLOのようなフレームワークにあるネイティブなマルチタスクサポート(セグメンテーション、姿勢推定など)がありません。
  • コミュニティとサポート: Ultralytics YOLOv8 のような、より広く採用されているモデルと比較して、コミュニティが小さく、すぐに利用できるリソースが少ない場合があります。

パフォーマンスとユースケース

DAMO-YOLOは、高い精度とスケーラビリティが要求されるシナリオで優れた性能を発揮します。モデルサイズが異なるため、多様なハードウェアへの実装が可能であり、以下のような様々なアプリケーションに適用できます。

  • 自動運転: より大型のDAMO-YOLOモデルの高い精度は、自動運転車で必要とされる高精度な検出に役立ちます。
  • ハイエンドセキュリティシステム: スマートシティなど、潜在的な脅威を特定するために高い精度が不可欠なアプリケーション向け。
  • 産業検査: 製造業において、DAMO-YOLOは精度が最も重要な品質管理および欠陥検出に使用できます。

DAMO-YOLOの詳細

YOLOv6-3.0の概要

Meituanが開発したYOLOv6-3.0は、産業用アプリケーション向けに設計されており、効率と精度のバランスの取れたパフォーマンスを重視しています。バージョン3.0は、実際のデプロイメントにおけるパフォーマンスと堅牢性の向上に重点を置いた改良版です。

著者: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, and Xiangxiang Chu
所属: Meituan
日付: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
ドキュメント: https://docs.ultralytics.com/models/yolov6/

アーキテクチャと主な機能

YOLOv6-3.0は、ハードウェアを意識した、速度と効率のために合理化されたアーキテクチャを重視しています。主な機能は次のとおりです。

  • EfficientRep Backbone: 再パラメータ化可能なバックボーンで、推論のために、よりシンプルで高速な構造に変換できます。
  • Rep-PAN Neck: 特徴融合能力と効率のバランスを取るために、再パラメータ化可能なブロックを使用するパス集約ネットワーク(PAN)トポロジ。
  • Decoupled Head: 分類ヘッドと回帰ヘッドを分離することは、最新のYOLOモデルでパフォーマンスを向上させるための一般的な手法です。
  • 自己蒸留: モデルが外部の教師なしで、自身のより深い層から学習するトレーニング戦略で、より小さなモデルの性能を向上させます。

長所

  • 産業用への注力: 推論速度を重視し、現実世界の産業展開における課題に対応するように調整されています。
  • Balanced Performance:: 特に小型モデルにおいて、速度と精度の間で強力なトレードオフを提供します。
  • ハードウェアの最適化: さまざまなハードウェアプラットフォームで効率的なパフォーマンスを実現し、GPUで優れた推論速度を発揮します。

弱点

  • 精度に関するトレードオフ: より専門的なモデルと比較して、絶対的な最高精度を達成することよりも、速度と効率を優先する場合があります。
  • エコシステムとの統合: オープンソースですが、トレーニング、デプロイメント、および管理を簡素化するUltralytics HUBのような統合プラットフォームに、シームレスに統合されない場合があります。
  • タスクの特異性: DAMO-YOLOと同様に、主に物体検出器であり、マルチタスクモデルのような組み込みの汎用性がありません。

パフォーマンスとユースケース

YOLOv6-3.0は、速度と精度の組み合わせを必要とする産業シナリオに特に適しています。最適化された設計により、以下に効果的です。

  • 産業オートメーション: 製造業における品質管理とプロセス監視。
  • スマートリテール: リアルタイムの在庫管理と自動チェックアウトシステム。
  • エッジデプロイメント: スマートカメラやNVIDIA Jetsonのようなリソースが限られたデバイスでのアプリケーション。高いFPSが大きな利点となります。

YOLOv6の詳細について。

性能比較:DAMO-YOLO vs. YOLOv6-3.0

COCO val2017データセットでのDAMO-YOLOとYOLOv6-3.0の性能は、それぞれの明確な強みを明らかにしています。YOLOv6-3.0は一般的に、推論速度と計算効率(FLOPs/パラメータ)に優れており、特に利用可能な最速モデルの1つであるナノ('n')バージョンで優れています。そのラージ('l')バージョンは、この比較で最高のmAPも達成しています。

逆に、DAMO-YOLO は優れたバランスを示し、小~中規模範囲では、同様またはより小さいモデルサイズで YOLOv6-3.0 よりも高い精度を達成することがよくあります。たとえば、DAMO-YOLOs は、パラメータと FLOP がより少ないにもかかわらず、YOLOv6-3.0s よりも高い mAP を達成していますが、推論速度はわずかに遅くなっています。

モデル サイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLOv6-3.0n 640 37.5 - 1.17 4.7 11.4
YOLOv6-3.0s 640 45.0 - 2.66 18.5 45.3
YOLOv6-3.0m 640 50.0 - 5.28 34.9 85.8
YOLOv6-3.0l 640 52.8 - 8.95 59.6 150.7

結論

DAMO-YOLOとYOLOv6-3.0はどちらも、明確な利点を持つ強力な物体検出モデルです。DAMO-YOLOは、革新的なアーキテクチャコンポーネントのおかげで、可能な限り最高の精度を達成することが主な目標であるアプリケーションに最適です。YOLOv6-3.0は、卓越した推論速度と効率で際立っており、リアルタイムの産業アプリケーションやエッジデバイスへのデプロイに最適です。

ただし、より全体的なソリューションを求めている開発者および研究者にとって、Ultralytics YOLO11 は魅力的な代替手段を提供します。YOLO11 は、堅牢で適切にメンテナンスされたエコシステムの一部でありながら、速度と精度の優れたバランスを提供します。主な利点は次のとおりです。

  • 使いやすさ: シンプルなAPI、充実したドキュメント、すぐに利用できる学習済みの重みによる合理化されたユーザーエクスペリエンス。
  • 多様性: 物体検出インスタンスセグメンテーションポーズ推定、分類など、複数のタスクを単一のフレームワーク内でネイティブにサポートします。
  • 充実したエコシステム: 活発な開発、強力なコミュニティサポート、そしてエンドツーエンドのモデル開発とデプロイメントのためのUltralytics HUBとのシームレスな統合。
  • 学習効率: 最適化された学習プロセスとより低いメモリ要件により、カスタムモデルの学習がより速く、よりアクセスしやすくなります。

DAMO-YOLOとYOLOv6-3.0は物体検出の分野で強力な候補ですが、YOLO11のようなUltralyticsモデルの汎用性、使いやすさ、包括的なサポートにより、幅広い現実世界のアプリケーションにとって、より実用的で強力な選択肢となります。

その他のモデルを見る

これらのモデルにご興味があれば、ドキュメントにある他の比較もご覧ください。



📅 1年前に作成 ✏️ 1か月前に更新

コメント