コンテンツにスキップ

YOLOv5 vs. DAMO-YOLO:詳細な技術比較

急速に進化するコンピュータ・ビジョンにおいて、適切な物体検出アーキテクチャを選択することは、プロジェクトの成功にとって極めて重要である。この比較では、2つの重要なモデルを探ります: Ultralytics YOLOv5この比較では、信頼性とスピードで知られる世界的に採用されている業界標準のUltralyticsYOLOv5と、斬新なアーキテクチャ検索技術を導入したAlibaba Groupの研究に特化したモデルであるYOLO-YOLOの2つの重要なモデルを検討します。

どちらのモデルも物体検出タスクを解決することを目的としているが、異なるニーズに対応している。YOLOv5 、使いやすさ、展開の多様性、実世界での性能バランスを優先しているのに対し、DAMO-YOLO 、ニューラル・アーキテクチャ・サーチ(NAS)と重い特徴フュージョン・メカニズムにより、学術的な限界を押し広げることに重点を置いている。

パフォーマンス指標とベンチマーク

推論速度と検出精度のトレードオフを理解することは、生産用のモデルを選択する際に不可欠です。以下のデータは、物体検出の標準的なベンチマークであるCOCO データセットで、これらのモデルがどのように動作するかを示しています。

モデルサイズ
(ピクセル)
mAP
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

結果の分析

このデータは、設計思想の明確な二分化を明らかにしている。YOLOv5n(Nano)は、スピードと効率性において文句なしのチャンピオンであり、GPU 1.12ミリ秒という驚異的な推論時間を提供し、CPU 広く利用可能なパフォーマンスを発揮する。このため、低レイテンシーが譲れないエッジAIアプリケーションに最適である。

のようなDAMO-YOLO モデル。 DAMO-YOLOlをわずかに上回った。 平均平均精度mAPでピークに達する。 50.8DAMO-YOLOのCPU速度が報告されていないことは、主にハイエンドGPU環境向けに最適化されていることを示唆している。DAMO-YOLO CPU 速度が報告されていないことから、DAMO-YOLOが主にハイエンドGPU 環境向けに最適化されていることが示唆され、モバイルアプリや組み込みシステムのような広範な展開シナリオに対する柔軟性が制限されている。

Ultralytics YOLOv5:多目的な業界標準

著者Glenn Jocher
組織:Ultralytics
Date:2020-06-26
GitHubyolov5
Documentationyolov5

リリース以来、YOLOv5 5はコンピュータ・ビジョン・コミュニティの礎石としての地位を確立している。ネイティブに PyTorchでネイティブに構築され、複雑さと使いやすさのバランスを取り、「バッテリー込み」の体験を提供している。そのアーキテクチャは、CSPDarknetバックボーンとPANetネックを利用しており、異なるスケールの特徴を効率的に集約し、様々なサイズのオブジェクトをdetect 。

主な強み

  • 使いやすさ: Ultralytics 開発者のエクスペリエンス(DX)を優先しています。シンプルなPython APIと直感的なCLI コマンドにより、ユーザーは数分でモデルをトレーニングし、デプロイすることができます。
  • 整備されたエコシステム:活発なコミュニティと頻繁なアップデートに支えられたYOLOv5 5は、シームレスなモデル管理のためのUltralytics HUBを含む最新のツールとの互換性を保証します。
  • 汎用性:標準的な検出機能だけでなく、YOLOv5 5はインスタンス分割と 画像分類をサポートしており、開発者は1つのフレームワークで複数のビジョンタスクに取り組むことができます。
  • 展開の柔軟性: ONNX TensorRT エクスポートから iOS Android実行まで、YOLOv5 5はどこでも実行できるように設計されています。

YOLOv5の詳細について。

合理化されたワークフロー

YOLOv5 、一般的なMLOpsツールとシームレスに統合されています。以下を使用して実験をtrack できる Weights & Biasesまたは Cometを使用した実験を1つのコマンドで追跡することができ、トレーニング実行の再現性と分析のしやすさを保証します。

DAMO-YOLO:研究主導の精度

著者Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
組織:Alibaba Group
Date:2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHubYOLO

DAMO-YOLO 、アリババのDAMOアカデミーが開発した手法である。効率的なバックボーンを自動的に設計するためのニューラル・アーキテクチャ・サーチ(NAS)(MAE-NAS)、RepGFPN(Reparameterized Generalized Feature Pyramid Network)と呼ばれる重いネック構造、ZeroHeadと呼ばれる軽量ヘッドなど、一連の先進技術を導入している。

主な特徴

  • MAE-NASバックボーン:MAE-NASと呼ばれる手法を用いて、特定のレイテンシ制約の下で最適なネットワーク構造を見つける。
  • AlignedOTAラベル割り当て:分類タスクと回帰タスク間の不整合を解決するために、AlignedOTAと呼ばれる動的ラベル割り当て戦略を採用している。
  • 精度の重視:DAMO-YOLO 主な目標は、COCO データセットのmAP 最大化することであり、コンペティションや1パーセントの端数が重要な学術研究の強力な候補となる。

DAMO-YOLOの詳細

アーキテクチャと運用の違い

YOLOv5 YOLO -YOLOの乖離は、単純なメトリクスの違いにとどまらず、両者の核となる設計哲学と運用要件にまで及んでいる。

アーキテクチャー単純さと複雑さ

YOLOv5 5は、手作りの直感的なアーキテクチャを採用している。そのアンカーベースのアプローチはよく理解されており、デバッグも容易だ。これとは対照的に、YOLO -YOLOは、激しい再パラメータ化と自動探索(NAS)に依存している。NASは効率的な構造を得ることができるが、開発者にとってカスタマイズや解釈が難しい「ブラックボックス」モデルになることが多い。さらに、YOLO -YOLOのヘビーネック(RepGFPN)は、YOLOv55の効率的なCSP設計と比較して、トレーニング中の計算負荷を増加させ、より多くのGPU メモリを必要とします。

トレーニングの効率と記憶力

Ultralytics モデルは、そのトレーニング効率で有名です。YOLOv5 、一般的にCUDA メモリが少なくて済むため、コンシューマーグレードのGPUでトレーニングできる。YOLO-YOLOは、複雑な再パラメーター化と蒸留処理を行うため、効果的な学習を行うにはハイエンドのハードウェアが必要になることが多い。さらに、Ultralytics 、収束へのパスを加速するために、事前に訓練された重みの膨大なライブラリーと自動化されたハイパーパラメーターチューニングを提供します。

エコシステムと使いやすさ

おそらく最も大きな違いはエコシステムにある。YOLOv5 5は単なるモデルではなく、包括的なツール群の一部なのだ。

  • ドキュメント Ultralytics 、データ収集からデプロイまでユーザーをガイドする広範な多言語ドキュメントを維持しています。
  • コミュニティ:大規模なグローバル・コミュニティにより、問題は迅速に解決され、チュートリアルもすぐに利用できる。
  • 統合:以下のネイティブサポート RoboflowデータセットとNVIDIA Jetsonのようなデプロイメントターゲットのネイティブサポートにより、パイプライン全体が簡素化されます。

主に研究用リポジトリであるYOLO-YOLOには、このレベルの洗練されたサポートがないため、商用製品への統合はかなり困難である。

実際のユースケース

これらのモデルの選択は、多くの場合、特定の展開環境に依存する。

YOLOv5 いる点

  • スマート農業:必要なリソースが少ないため、ドローンや自律走行型トラクターでの作物病害検知に最適。
  • 製造業 産業オートメーションでは、YOLOv55の高速性により、高速で移動するコンベヤーベルトの欠陥をリアルタイムで検出することができます。
  • リテール・アナリティクス YOLOv5 CPU 性能は、オブジェクト・カウントとキュー管理において、既存の店舗ハードウェアへのコスト効率の高い導入を可能にします。

DAMO-YOLO いる点

  • 学術研究:RepGFPNやNAS技術の有効性を研究している研究者は、YOLO -YOLOが貴重なベースラインであることに気づくだろう。
  • ハイエンド監視:レイテンシーよりも精度が優先されるサーバーグレードの専用GPUを使用するシナリオでは、DAMO-YOLO 複雑なシーンで正確な検出を行うことができます。

コード例YOLOv5始める

YOLOv5 実行は、Ultralytics Python パッケージのおかげで簡単です。以下の例では、事前に訓練されたモデルをロードし、画像に対して推論を実行する方法を示します。

import torch

# Load a pre-trained YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)

# Define an image URL or local path
img = "https://ultralytics.com/images/zidane.jpg"

# Run inference
results = model(img)

# Print results to the console
results.print()

# Show the image with bounding boxes
results.show()

結論

YOLOv5 YOLO -YOLOはともに、物体検出の分野に大きく貢献している。YOLO -YOLOは、高精度のベンチマークを達成するためのニューラル・アーキテクチャ・サーチと高度な特徴フュージョンの可能性を示している。

しかし、大半の開発者、エンジニア、企業にとっては Ultralytics YOLOv5が優れた選択肢であることに変わりはありません。比類のない使いやすさ、堅牢なパフォーマンスバランス、そして整備されたエコシステムの安全性により、プロジェクトは最小限の摩擦でプロトタイプから本番へと移行することができます。YOLOv5 、CPUとGPUを効率的にデプロイする能力と、トレーニングに必要なメモリ要件が低いことから、実世界のアプリケーションにとって非常に実用的なソリューションとなっています。

最新のコンピュータ・ビジョン技術を活用したいと考えている人たちのために、Ultralytics 次のような革新を続けています。 YOLOv8と最先端の YOLO11.これらの新しいモデルは、YOLOv55の強固な基礎の上に構築され、さらに優れたスピード、精度、タスクの多様性を提供します。

その他の比較

これらのモデルがより広範なエコシステムにどのように適合するかをさらに理解するには、これらの詳細な比較をご覧ください:


コメント