コンテンツにスキップ

DAMO-YOLO YOLOv6.0の比較:技術的な比較

理想的な物体検出アーキテクチャを選択することは、コンピュータビジョンエンジニアにとって極めて重要な決定であり、多くの場合、精度、推論レイテンシ、ハードウェア制約の間で慎重なバランスを取る必要がある。このガイドでは、アリババグループの高精度モデルであるYOLO-YOLOと、Meituanの効率重視フレームワークであるYOLOv6.0を比較した包括的な技術分析を提供します。

そのアーキテクチャの革新性、標準的なデータセットでのベンチマーク性能、実世界への展開への適合性を検証する。さらに Ultralytics YOLO11が、統一されたソリューションを求める開発者に、モダンで汎用性の高い選択肢を提供することを探ります。

DAMO-YOLO の概要

DAMO-YOLO アリババ・グループによって開発された最先端の物体検出手法である。ニューラル・アーキテクチャ・サーチ(NAS)と、計算のボトルネックを排除するために設計されたいくつかの新しいモジュールを組み込むことで、速度と精度のトレードオフを優先している。

著者Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organization:Alibaba Group
Date:2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHubYOLO
DocsYOLO

アーキテクチャと主な機能

DAMO-YOLO 、ユニークなアーキテクチャ設計に支えられた「Tiny-to-Large」スケーリング戦略を導入している。主なコンポーネントは以下の通り:

  • MAE-NASバックボーン: ニューラル・アーキテクチャ・サーチ(NAS)を利用し、異なる計算予算下で特徴抽出効率を最大化するために、構造的に変化させたメイズネット・バックボーンを採用している。
  • 効率的なRepGFPN:再パラメータ化(Rep)で強化された一般化特徴ピラミッドネットワーク(GFPN)は、優れたマルチスケール特徴フュージョンを可能にする。この設計により、低レベルの空間情報と高レベルの意味情報が、大きな待ち時間コストを発生させることなく効果的に結合される。
  • ZeroHead:パラメータ数を大幅に削減する最小限の検出ヘッド設計(「ZeroHead」)。分類タスクと回帰タスクを効率的に切り離すことで、最終予測層を効率化しながら高いパフォーマンスを維持します。
  • AlignedOTA: 分類スコアと回帰IoU(Intersection over Union)間のずれを解消し、モデルがトレーニング中に高品質のアンカーに焦点を当てるようにする高度なラベル割り当て戦略。

長所と短所

YOLO -YOLOは、次のようなシナリオで輝きを放つ。 mAPが重要な場面で威力を発揮する。

  • 長所だ:

    • 高精度:NASに最適化されたバックボーンにより、中小規模ではmAP 同等モデルを上回ることが多い。
    • 革新的なデザイン:ZeroHeadコンセプトは、一般的な検出ヘッドに見られる重い計算負荷を軽減します。
    • 強力な蒸留:ロバストな蒸留メカニズム(Knowledge Distillation)を搭載し、より大きな教師ネットワークを使用して、より小さな生徒モデルのパフォーマンスを向上させます。
  • 短所だ:

    • 複雑なアーキテクチャ:NASが生成したバックボーンを使用するため、標準的なCSPベースの設計と比較して、アーキテクチャのカスタマイズやデバッグが困難になる可能性があります。
    • 限られたエコシステム:研究に特化したリリースであるため、より広範なエコシステムに見られるようなサードパーティ製ツールの広範な統合がない。
    • レイテンシのばらつき:最適化されているとはいえ、NAS構造は、標準的なCNNのように特定のハードウェア・アクセラレータに完全に対応するとは限らない。

理想的なユースケース

  • スマートシティの監視歩行者や車両などの小さな物体を遠距離から高精度でdetect する必要がある場合。
  • 自動品質検査:精度が最重要視される製造ラインにおける微妙な欠陥を特定。

DAMO-YOLOの詳細

YOLOv6.0の概要

YOLOv6-3.0は、Meituanによって開発されたYOLOv6フレームワークの3番目のイテレーションです。これは、GPUでの高いスループットとデプロイの容易さを重視して、産業用アプリケーション向けに特別に設計されています。

著者Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, and Xiangxiang Chu
Organization:Meituan
Date:2023-01-13
Arxiv:https://arxiv.org/abs/2301.05586
GitHubYOLOv6
Docsultralytics

アーキテクチャと主な機能

YOLOv6.0は、GPUの性能を最大限に引き出すハードウェアフレンドリーな設計に重点を置いています。 GPUを最大限に活用する、ハードウェアに優しい設計に重点を置いています:

  • EfficientRepバックボーン:バックボーンは、リパラメータ化可能なブロックを使用し、複雑な学習時間構造を推論用のシンプルな3x3の畳み込みに凝縮することで、NVIDIA TensorRTようなハードウェアでの速度を向上させます。
  • Rep-PANネック:ネック・アーキテクチャは、機能融合能力とハードウェア効率のバランスをとり、データがボトルネックなくスムーズにネットワークを流れることを保証します。
  • 双方向連結(BiC):異なるスケール間で特徴を集約する方法を改善することで、ローカライズの精度を向上させる。
  • アンカー支援トレーニング(AAT): 収束を安定させ、最終的な精度を向上させるために、トレーニングフェーズ中にアンカーベースとアンカーフリーパラダイムの利点を組み合わせたハイブリッド戦略。

長所と短所

YOLOv6.0は、標準的なGPU 導入を必要とする産業環境向けの強力な製品です。

  • 長所だ:

    • 推論スピード: The nano バリアントは非常に高速で、高FPSの要件に最適です。
    • ハードウェアの最適化: GPU スループットのために明示的に設計されており、TensorRT 量子化との相性が良い。
    • 展開の簡素化:再パラメータ化により、最終的なグラフが単純化され、エクスポート時の互換性の問題が軽減されます。
  • 短所だ:

    • シングルタスク中心:マルチタスクフレームワークに比べ、コアリポジトリにセグメンテーションやポーズ推定のネイティブサポートがない
    • パラメータ効率:大きなバリエーションは、同様の精度を得るために、いくつかの競合他社に比べてパラメータを重くすることができます。

理想的なユースケース

  • 産業オートメーション:生産ラインでの高速仕分けと組立検証。
  • リテール・アナリティクス:リアルタイム推論による棚モニタリングと顧客行動分析。
  • エッジコンピューティング: YOLOv6ような軽量モデルをモバイル機器や組み込み機器に展開する。

YOLOv6もっと知る

パフォーマンス分析

以下の比較は、COCO データセットにおける両モデルの性能を強調しています。メトリクスの焦点は、IoU 0.5-0.95での検証mAP (平均平均精度)、TensorRT使用したT4 GPUでの推論速度、およびモデルの複雑さ(パラメータとFLOPs)です。

パフォーマンス・インサイト

YOLOv6.0nは、速度チャンピオンとして際立っており、2ms以下の推論を提供し、レイテンシに非常に敏感なアプリケーションに最適である。しかし、YOLO-YOLOモデル(特にSmallとMedium)は、YOLOv6 モデルよりも高いmAP スコアを達成することが多く、NASバックボーンに由来する強力なアーキテクチャ効率を実証している。

モデルサイズ
(ピクセル)
mAP
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv6.0n64037.5-1.174.711.4
YOLOv6.0s64045.0-2.6618.545.3
YOLOv6.0m64050.0-5.2834.985.8
YOLOv6.0l64052.8-8.9559.6150.7

Ultralytics 優位性

DAMO-YOLO YOLOv6.0は特定のニッチ向けに魅力的な機能を提供している、 Ultralytics YOLO11は、コンピュータ・ビジョンAIの全体的な進化を象徴しています。単なる検出モデル以上のものを必要とする開発者のために設計されたYOLO11 、最先端のパフォーマンスと比類ないユーザー体験を統合しています。

なぜUltralytics YOLO選ぶのか?

  • 統一されたエコシステム:独立した研究リポジトリとは異なり、Ultralytics 包括的なプラットフォームを提供します。データのアノテーションからモデルのトレーニング、デプロイまで、ワークフローはシームレスです。GitHubと Discordの活発なコミュニティにより、孤立して開発することはありません。
  • 比類のない汎用性:単一のYOLO11 モデル・アーキテクチャは、物体検出、インスタンス・セグメンテーションポーズ推定OBB(Oriented Bounding Box)分類など、幅広いコンピュータ・ビジョン・タスクをサポートします。この柔軟性により、フレームワークを切り替えることなく、複雑なプロジェクトに取り組むことができます。
  • トレーニング効率: Ultralytics モデルはトレーニング効率に最適化されており、多くの場合、トランスフォーマーベースの代替製品よりもGPU メモリが大幅に少なくて済みます。バッチサイズの自動決定や混合精度トレーニング(AMP)などの機能がデフォルトで有効になっており、データから展開までのパスを効率化します。
  • 使いやすさ: Python APIはシンプルに設計されています。事前にトレーニングされたモデルをロードし、画像上で推論を実行し、次のようなフォーマットでエクスポートすることができます。 ONNXTensorRTなどの形式にエクスポートできます。
from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on your custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

# Export the model to ONNX format for deployment
model.export(format="onnx")

結論

産業用GPUで最高のスループットを厳密に必要とするプロジェクトでは、YOLOv6.0が強力な候補となる。NASを使用して特定のパラメータ予算内で精度を最大化することに重点を置く場合、YOLO-YOLOは優れた研究グレードの選択肢となる。

しかし、商業用や研究用のアプリケーションの大半は、このようなものである、 Ultralytics YOLO11は、性能、使いやすさ、長期的な保守性のバランスが最も優れています。複数のタスクを処理するその能力は、堅牢でメンテナンスの行き届いたエコシステムと相まって、スケーラブルなコンピュータ・ビジョン・ソリューションの構築にお勧めの選択肢となっています。

その他のモデルを見る

その他の詳細な比較もご覧いただき、物体検出に関する理解を深めてください:


コメント