DAMO-YOLO vs. YOLOv5: リアルタイム物体検出の詳細な分析

コンピュータビジョンの進化は、リアルタイム物体検出における絶え間ないイノベーションによって特徴付けられてきました。今日、開発者や研究者は、ビジョンパイプラインを設計する際に膨大なアーキテクチャの選択肢に直面しています。この包括的な技術比較では、DAMO-YOLOUltralytics YOLOv5のニュアンスを深く掘り下げ、それぞれのアーキテクチャ、トレーニング手法、性能指標、そして理想的なデプロイシナリオに焦点を当てます。

DAMO-YOLOの紹介

Alibaba GroupによってリリースされたDAMO-YOLOは、検出速度と精度の境界を押し広げることを目的としたいくつかの新しい手法を導入しました。

DAMO-YOLOの詳細はこちら

アーキテクチャの革新

DAMO-YOLOは、ニューラルアーキテクチャ探索(NAS)の基盤の上に構築されています。著者らはMAE-NASを活用して、レイテンシと精度のバランスが取れたバックボーンを自動設計しました。このモデルは、異なるスケール間での特徴融合を改善する効率的なRepGFPN(再パラメータ化された一般化特徴ピラミッドネットワーク)を導入しています。さらに、DAMO-YOLOは「ZeroHead」設計を採用しており、複雑なマルチブランチ予測ヘッドを排除し、推論時の再パラメータ化に大きく依存する、よりシンプルで効率的な構造を採用しています。

トレーニングを改善するために、このモデルはラベル割り当てにAlignedOTAを使用し、より大きな「教師」モデルがより小さな「生徒」モデルをガイドしてより高い精度を達成する、重厚な蒸留強化プロセスを使用しています。

Ultralytics YOLOv5の紹介

Ultralytics YOLOv5は世界で最も広く採用されているビジョンアーキテクチャの一つであり、その安定性、使いやすさ、そして広範なデプロイエコシステムで高く評価されています。

YOLOv5の詳細はこちら

エコシステムの標準

YOLOv5はユーザビリティの業界標準を再定義しました。PyTorchでネイティブに構築されており、堅牢な特徴集約のために高度に最適化されたCSPNetバックボーンとPANetネックを利用しています。後のモデルで見られるアンカーフリーのトレンドに先行していましたが、その高度に洗練されたアンカーベースのアプローチと自動アンカー学習の組み合わせにより、導入直後から優れたパフォーマンスを保証します。

YOLOv5の真の強みは、その十分に保守されたエコシステムにあります。CometWeights & Biasesのようなトラッキングツールとシームレスに統合し、ONNXTensorRTCoreMLなどのフォーマットへのワンクリックエクスポートをサポートしています。

YOLOv5を始める

YOLOv5はカスタムデータセットでのトレーニングが非常に簡単です。合理化されたAPIはプロトタイプから本番環境への移行の摩擦を減らし、アジャイルなエンジニアリングチームの間で人気があります。

パフォーマンスとメトリクスの比較

これらのモデルを比較する際は、平均精度(mAP)、推論速度、パラメータ数のバランスを見ることが不可欠です。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

トレードオフの分析

DAMO-YOLOは、そのパラメータサイズに対して印象的なmAPスコアを達成しており、蒸留トレーニングフェーズから大きな恩恵を受けています。しかし、これはトレーニング効率の犠牲の上に成り立っています。多段階の蒸留プロセスにはまず重い教師モデルをトレーニングする必要があり、それによって必要なGPUコンピューティング時間とVRAMが大幅に増加します。

対照的に、YOLOv5は優れたメモリ要件を提供します。Ultralytics YOLOモデルは、複雑な蒸留パイプラインやRT-DETRのようなTransformerベースのモデルと比較して、トレーニングと推論の両方でメモリ使用量が少ないことで知られています。これにより、YOLOv5は民生用ハードウェアやGoogle Colabのようなアクセスしやすいクラウド環境で効率的にトレーニングできます。

実世界のアプリケーションと汎用性

適切なアーキテクチャを選択することは、多くの場合、デプロイ環境に依存します。

DAMO-YOLOが優れている点

DAMO-YOLOは純粋な物体検出モデルです。学術研究、特にニューラルアーキテクチャ探索を研究しているチームや、論文で詳述されている再パラメータ化手法を再現しようとしているチームにとって素晴らしい選択肢です。プロジェクトに蒸留トレーニングフェーズを実行するための広範な計算リソースがあり、2Dバウンディングボックスの精度を極限まで引き出すことのみに焦点を当てている場合、DAMO-YOLOは強力な候補となります。

Ultralyticsの利点

実社会の本番環境においては、Ultralyticsモデルの使いやすさ汎用性が好まれる理由です。YOLOv5は検出や画像分類の定番であり続けていますが、より広範なUltralyticsエコシステムにより、開発者はタスク間を簡単に切り替えることができます。

例えば、Ultralyticsファミリーの新しいイテレーションは、インスタンスセグメンテーション姿勢推定、および指向性バウンディングボックス(OBB)検出をネイティブにサポートしています。このマルチタスク機能により、チームは自動ナンバープレート認識と車両セグメンテーションを組み合わせるような複雑なパイプラインのために、単一の統一されたPython APIを活用できます。

ユースケースと推奨事項

DAMO-YOLOとYOLOv5の選択は、具体的なプロジェクト要件、デプロイの制約、エコシステムの好みによって決まります。

DAMO-YOLOを選択すべきとき

DAMO-YOLOが推奨されるケースは以下の通りです:

  • 高スループットビデオ分析: バッチ1のスループットが主要な指標となる、固定されたNVIDIA GPUインフラストラクチャ上で高FPSビデオストリームを処理する場合。
  • 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェア上で厳しいGPUレイテンシ制約があるシナリオ。
  • ニューラルアーキテクチャ探索の研究: 検出性能に対する自動アーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化バックボーンの影響を研究する場合。

YOLOv5を選択すべき場合

YOLOv5は以下の場合に推奨されます:

  • 実績のある本番システム: YOLOv5の安定性、広範なドキュメント、および膨大なコミュニティサポートという長い実績が重視される既存のデプロイメント。
  • リソース制約のあるトレーニング: YOLOv5の効率的なトレーニングパイプラインと低いメモリ要件が有利となる、GPUリソースが限られた環境。
  • 広範なエクスポートフォーマットのサポート: ONNXTensorRTCoreML、およびTFLiteを含む多くのフォーマット全体でのデプロイメントが必要なプロジェクト。

Ultralytics (YOLO26) を選択すべき場合

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:

  • NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
  • 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。

未来: YOLO26への移行

YOLOv5は伝説的な存在であり、DAMO-YOLOは興味深い学術的洞察を提供しますが、最先端技術は進化しています。2026年1月にリリースされたUltralytics YOLO26は、ビジョンコミュニティにとって大きな飛躍を遂げました。

YOLO26の詳細はこちら

YOLO26は、エッジデプロイとトレーニングの不安定さという従来のボトルネックに対処しています:

  • エンドツーエンドのNMSフリー設計: YOLO26は、Non-Maximum Suppression(NMS)の後処理をネイティブに排除します。このブレークスルーにより、デプロイロジックが簡素化され、レイテンシの変動が大幅に削減されるため、高速なロボティクスや自律システムに最適です。
  • MuSGDオプティマイザ: LLMトレーニングのイノベーション(Moonshot AIのKimi K2など)に触発され、YOLO26はMuSGDオプティマイザ(SGDとMuonのハイブリッド)を採用しています。これにより、非常に安定したトレーニングの実行と驚くほど速い収束が保証されます。
  • CPU推論が最大43%高速化: Distribution Focal Loss(DFL)を戦略的に削除することで、YOLO26はYOLO11YOLOv8などの前世代と比較して、CPUおよびエッジデバイスで圧倒的に優れた速度を達成しています。
  • ProgLoss + STAL: これらの高度な損失関数は、航空ドローン画像やIoTセンサーフィードの分析に不可欠な、小物体認識において顕著な改善をもたらします。

コード例:シンプルさの実践

Ultralyticsパッケージを使用すると、わずか数行のコードでモデルをトレーニングおよびデプロイできます。YOLOv5を使用していても、推奨されるYOLO26にアップグレードする場合でも、インターフェースは一貫しており直感的です。

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Export the model for edge deployment
model.export(format="onnx")

結論

DAMO-YOLOとYOLOv5はどちらも、コンピュータビジョンの風景に大きく貢献してきました。DAMO-YOLOはニューラルアーキテクチャ探索と蒸留の力を示しており、研究者にとって興味深い研究対象となっています。しかし、YOLOv5は、そのパフォーマンスのバランス、低いメモリ要件、そして比類のない使いやすさにより、実用的なパワーハウスであり続けています。

今日新しいプロジェクトを開始する開発者には、Ultralytics Platformを活用し、YOLO26を採用することを推奨します。これは、YOLOv5の愛されるユーザーフレンドリーなエコシステムと画期的なアーキテクチャの進歩を組み合わせており、クラウドおよびエッジAIアプリケーションの両方で最高レベルの精度と驚異的な推論速度を保証します。開発者は、特定のレガシーハードウェアの制約に応じて、YOLOv6YOLOXのような他の効率的なモデルを探索することもできます。

コメント