DAMO-YOLO 対YOLOv5：包括的な技術比較

最適な物体検出アーキテクチャを選択することは、コンピュータビジョン開発における極めて重要なステップであり、精度、推論速度、統合の複雑性を慎重に評価する必要がある。この分析では、アリババ・グループが開発した高精度モデルであるYOLO-YOLOをUltralytics YOLOv5UltralyticsのYOLOv5は、パフォーマンス、スピード、開発者に優しいエコシステムのバランスが評価された業界標準のアーキテクチャです。両社のアーキテクチャの革新性、ベンチマーク指標、理想的なアプリケーションシナリオを調査し、十分な情報に基づいた意思決定を支援します。

DAMO-YOLO：精度主導型アーキテクチャ

著者Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organization:Alibaba Group
Date:2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHubYOLO
Docs:YOLO README

DAMO-YOLO 、合理的なレイテンシを維持しながら検出精度の限界を押し広げるという、アリババ・グループによる重要な取り組みである。DAMO-YOLOは、先進的なニューラル・アーキテクチャ・サーチ（NAS）技術と新しい特徴フュージョン戦略を統合し、静的ベンチマークにおいて多くの競合製品を凌駕しています。

建築イノベーション

DAMOYOLO YOLOは、ネットワークから最大限のパフォーマンスを引き出すために設計された、技術的に複雑ないくつかのコンポーネントによって、その存在を際立たせている：

MAE-NASバックボーン：手動でバックボーンを設計したモデルとは異なり、YOLO -YOLOは、最大エントロピー原理に導かれたニューラル・アーキテクチャ・サーチ（NAS）を採用している。その結果、さまざまな制約のもとで、特徴抽出の効率に特化して最適化されたバックボーン構造が得られます。
効率的なRepGFPN：このモデルは、再パラメータ化された一般化特徴ピラミッドネットワーク（RepGFPN）を利用しています。この先進的なネックモジュールは、異なるスケールにわたる特徴融合を最適化し、再パラメータ化を活用することで、精度を犠牲にすることなく推論の待ち時間を短縮し、標準的なFPNを改善します。
ZeroHead：検出ヘッドの計算コストを最小化するため、DAMO-YOLO 、分類と回帰タスクを効率的に処理する軽量な分離ヘッド、ZeroHeadを導入する。
AlignedOTA: トレーニングの安定性と精度は、静的マッチングルールよりも予測アンカーをグラウンドトゥルースオブジェクトとより効果的に調整する動的ラベル割り当て戦略であるAligned Optimal Transport Assignment (AlignedOTA)によって強化されます。
蒸留の強化：学習プロセスには、知識の蒸留が含まれることが多く、より大きな「教師」モデルが、より小さな「生徒」モデルの学習を導き、より豊かな特徴表現を与えます。

研究指向のデザイン

DAMO-YOLO 、COCOようなベンチマークで高いmAP 達成するために最適化されています。NASと蒸留を使用することで、たとえトレーニングの複雑さが犠牲になったとしても、何パーセントの精度が重要な学術研究やシナリオにとって強力なツールとなる。

長所と短所

DAMO-YOLO 主な利点は、生の検出精度である。NASと高度なネック設計を活用することで、同世代の同等モデルよりも高い平均平均精度（mAP）スコアを達成することが多い。DAMO-YOLOは、きめ細かな特徴の識別が重要な複雑なシーンでの物体識別に優れています。

しかし、これらの利益はトレードオフを伴う。NASバックボーンと蒸留パイプラインへの依存は、トレーニングと統合の複雑さを増大させる。DAMO-YOLO カスタム・トレーニング・パイプラインのセットアップは、いくつかの代替製品のプラグアンドプレイの性質とは異なり、リソースを必要とする可能性がある。さらに、DAMO-YOLOのエコシステムは比較的小さく、コミュニティリソース、チュートリアル、サードパーティの統合は、より確立されたフレームワークと比較して少ない。

DAMO-YOLOの詳細

Ultralytics YOLOv5：実用的AIのスタンダード

Author: Glenn Jocher
Organization:Ultralytics
Date: 2020-06-26
GitHub:https://github.com/ultralytics/yolov5
Docs:https://docs.ultralytics.com/models/yolov5/

リリース以来 Ultralytics YOLOv5は、実世界のコンピュータビジョンアプリケーションに最適なソリューションとしての地位を確立しています。データセットのキュレーションからデプロイまで、機械学習ライフサイクルのあらゆる段階を簡素化するエコシステムに支えられ、スピード、精度、使いやすさの間で伝説的なバランスを取っています。

アーキテクチャとユーザビリティ

YOLOv5 CSPDarknet53バックボーンと PANetネックを組み合わせたアーキテクチャを採用しており、GPU CPU ハードウェア上での堅牢性と効率性の高さから選ばれている。YOLOv5はアンカーベースの検出を採用しており、これは実証済みの方法論だが、その真の威力はエンジニアリングとエコシステムにある：

合理化されたユーザー体験： YOLOv5 5は "Zero to Hero "哲学で有名である。開発者は、わずか数行のコードで、環境のセットアップ、カスタムデータセットでのトレーニング、推論の実行が可能です。
汎用性：標準的な物体検出だけでなく、YOLOv5 5はインスタンスセグメンテーションと 画像分類をサポートしており、ユーザーは1つのフレームワークで複数のビジョンタスクに取り組むことができます。
エクスポート可能：このモデルは、以下を含む多くのフォーマットへのシームレスなエクスポートをサポートしています。 ONNX, TensorRTCoreML、TFLite、多数のフォーマットへのシームレスなエクスポートをサポートしており、クラウドサーバからエッジデバイスまで、あらゆるものへの容易なデプロイを保証します。
メモリ効率： Ultralytics モデルは、複雑な変換器ベースのアーキテクチャやNASを多用するモデルと比較して、トレーニング中のメモリ使用量が少ないことが一般的であり、より幅広いハードウェアでアクセスできるようになります。

エコシステムの優位性

Ultralytics エコシステムは、開発のための大規模なアクセラレーターです。広範なドキュメント、活発なコミュニティフォーラム、頻繁なアップデートにより、開発者はデバッグに費やす時間を減らし、イノベーションに費やす時間を増やすことができます。Ultralytics HUBのようなツールとの統合は、モデル管理とトレーニングをさらに効率化します。

開発者がYOLOv5選ぶ理由

YOLOv5 、「使いやすさ」と「トレーニングの効率性」を最優先しているため、トップ・チョイスであり続けています。事前に訓練された重みはすぐに利用でき、堅牢であるため、迅速な転移学習が可能です。その推論速度は卓越しており、ビデオ分析、自律航法、工業検査などのリアルタイム・アプリケーションに最適です。

のような新しいモデルが登場した。 YOLO11のような新しいモデルは、アンカー・フリー・アーキテクチャとさらなる性能向上を導入しているが、YOLOv5 5は依然として信頼性が高く、十分にサポートされ、数え切れないほどの生産システムで高い能力を発揮する主力製品である。

YOLOv5の詳細について。

パフォーマンス比較

DAMO-YOLO 検証精度mAP）を最大化することに重点を置いているのに対し、YOLOv5 推論速度と展開の実用性を最適化しています。以下の表は、YOLO -YOLOモデルが同様のパラメータ数でより高いmAP スコアを達成することが多い一方で、YOLOv5 モデル（特にNanoとSmallのバリエーション）はCPU GPU優れたスピードを提供することを強調しています。

モデル	サイズ ^{(ピクセル)}	mAP^値 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

実際のアプリケーション・コード

Ultralytics モデルの最も強力な主張の一つは、統合のシンプルさです。以下は、YOLOv5 モデルをPyTorch Hubを使っていかに簡単にロードし、推論に使用できるかを検証した例で、エコシステムの開発者に優しい性質を示しています。

import torch

# Load YOLOv5s from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)

# Define an image source (URL or local path)
img = "https://ultralytics.com/images/zidane.jpg"

# Run inference
results = model(img)

# Print results to console
results.print()

# Show the results
results.show()

結論

DAMO-YOLOとDAMO-YOLOは、コンピュータビジョンにおいて異なる役割を果たします。DAMO-YOLO、最先端の精度を達成することが唯一の目的であり、NASベースのトレーニングパイプラインの複雑さを許容できるような、学術研究やコンペティションにとって手強い選択肢です。

しかし、大半の開発者、研究者、企業にとっては、Ultralyticsを使うことはできません、 Ultralytics YOLOv5(とその後継の YOLO11をお勧めします。シンプルなAPI、包括的なドキュメント、シームレスなエクスポートオプションは、市場投入までの時間を大幅に短縮します。リアルタイムの制約を効果的に処理するパフォーマンスバランスと、セグメンテーションや分類などのタスクにわたる多様性により、Ultralytics モデルは、実用的なAIソリューションを構築するための堅牢で将来性のある基盤を提供します。

最新のパフォーマンスと機能をお求めの方には、ぜひYOLO11をお勧めします。 YOLO11は、YOLOv5 5の遺産を基に、さらに精度と効率性を高めたものです。

その他の比較

あなたのニーズに最適なモデルをさらに評価するために、これらの詳細な比較をご覧ください：