YOLOv5 vs. DAMO-YOLO: 包括的な技術比較
リアルタイムコンピュータビジョンの領域は絶えず進化しており、研究者やエンジニアは精度、速度、使いやすさの完璧なバランスを追求しています。この歩みを形作ってきた2つの著名なモデルが、Ultralytics YOLOv5とAlibabaのDAMO-YOLOです。
本ガイドでは、アーキテクチャ、パフォーマンス指標、トレーニング手法についての詳細な技術分析を提供し、次回のデプロイメントに最適なモデルを選択できるようにします。
モデルの背景
技術的な詳細に入る前に、これら影響力のある各ビジョンモデルの背景にある起源と主要な設計思想を理解することが重要です。
Ultralytics YOLOv5
Glenn JocherとUltralyticsのチームによって開発されたYOLOv5は、リリース以来、業界標準となっています。PyTorchフレームワーク上でネイティブに構築されており、開発者がすぐに使える合理的な体験と堅牢なデプロイメント能力を優先しています。
- 作成者: Glenn Jocher
- 組織: Ultralytics
- 日付: 2020-06-26
- GitHub: https://github.com/ultralytics/yolov5
- ドキュメント: Ultralytics YOLOv5 ドキュメント
DAMO-YOLO
Alibaba Groupの研究者によって作成されたDAMO-YOLOは、ニューラルアーキテクチャ探索(NAS)と高度な蒸留技術に重点を置いています。これはハードウェア特有のパフォーマンスの理論的限界を押し広げ、極限のチューニングを必要とする研究やエッジ環境に強く対応しています。
- 著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- 組織: Alibaba Group
- 日付: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
アーキテクチャの革新
両モデルとも独自の構造的概念を活用してリアルタイム性能を実現していますが、そのアプローチは大きく異なります。
YOLOv5: 安定性と汎用性
YOLOv5は、改良されたCSP(Cross Stage Partial)バックボーンとPANet(Path Aggregation Network)ネックを組み合わせて利用しています。この構造は非常に効率的で、トレーニング中および推論中のCUDAメモリ使用量を最小限に抑えます。
YOLOv5の最大の強みの1つは、タスク全般における汎用性です。バウンディングボックス予測だけでなく、画像セグメンテーションや画像分類向けの専用アーキテクチャを提供しており、開発者は単一の包括的なフレームワークを中心にビジョンパイプラインを標準化できます。
DAMO-YOLO: 自動アーキテクチャ探索
DAMO-YOLOの核となる革新は、MAE-NAS バックボーンです。多目的進化型探索を使用することで、Alibabaチームは検出精度と推論速度を動的にバランスさせるバックボーンを発見しました。
さらに、特徴融合を改善するEfficient RepGFPNネックを搭載しており、衛星画像解析で頻繁に見られる複雑なスケール変化に対して非常に有効です。そのZeroHead設計は最終予測層を簡素化してレイテンシを低減しますが、この複雑な構造生成により、アーキテクチャが硬直化し、カスタムアプリケーション向けに修正するのが難しくなる可能性があります。
Transformerベースのアーキテクチャは、高いVRAM消費量に悩まされることがよくあります。YOLOv5とDAMO-YOLOはどちらも効率的な畳み込み設計を利用してメモリフットプリントを低く抑えていますが、Ultralyticsのモデルは特にコンシューマーグレードのGPU向けに最適化されており、独立した研究者やスタートアップにとってよりアクセスしやすいものとなっています。
パフォーマンスとメトリクス
リアルタイム物体検出器を評価するには、mAP(平均適合率)、推論速度、モデルサイズの各パラメータの行列を見る必要があります。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
DAMO-YOLOは特定のパラメータ数で非常に競争力のあるmAPスコアを達成しますが、YOLOv5はTensorRT速度において一貫して優れた結果を示し、nanoおよびsmall構成において信じられないほど低いパラメータ数を維持しています。このパフォーマンスのバランスにより、YOLOv5は多様なエッジデプロイメントシナリオで効率的に動作します。
学習効率とエコシステム
モデルの理論的精度は、その実用性があってこそです。ここでモデルは大きく分岐します。
蒸留の複雑さ
DAMO-YOLOは多段階のトレーニング手法に大きく依存しています。これはAlignedOTAとして知られる教師・生徒モデルの知識蒸留技術を実装しています。これは生徒モデルから最大限のパフォーマンスを引き出しますが、最初に巨大な教師モデルをトレーニングする必要があります。これにより計算時間、エネルギーコスト、必要なハードウェアが大幅に増加し、アジャイルなMLチームにとってボトルネックとなります。
Ultralyticsの利点: 使いやすさ
対照的に、Ultralyticsエコシステムは、直感的なAPIとトレーニングの効率性で世界的に有名です。活発な開発と膨大なオープンソースコミュニティに支えられ、開発者はモデルのトレーニング、検証、デプロイをシームレスに行うことができます。
from ultralytics import YOLO
# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX format for deployment
model.export(format="onnx")Ultralyticsはまた、Weights & BiasesやComet MLなどのツールを介した実験追跡の組み込みサポートを提供しており、摩擦のないワークフローを実現しています。
実際のユースケース
- YOLOv5は、ペースの速い本番環境で優れた性能を発揮します。その直接的なエクスポート性は、スマートリテール分析、高速製造欠陥検出、およびCoreMLを介したモバイルアプリケーションへの統合にとって最適な選択肢となります。
- DAMO-YOLOは、厳格な学術的ベンチマークや、特定の固定ハードウェアターゲットに対してわずかなmAPの改善を絞り出すために長い蒸留トレーニング実行を行うための膨大な計算リソースが利用可能なシナリオに非常に適しています。
ユースケースと推奨事項
YOLOv5とDAMO-YOLOのどちらを選択するかは、プロジェクトの具体的な要件、デプロイメントの制約、エコシステムの好みによって異なります。
YOLOv5を選択すべき場合
YOLOv5が適しているケース:
- 実績のある本番システム: YOLOv5の安定性、広範なドキュメント、および膨大なコミュニティサポートという長い実績が重視される既存のデプロイメント。
- リソース制約のあるトレーニング: YOLOv5の効率的なトレーニングパイプラインと低いメモリ要件が有利となる、GPUリソースが限られた環境。
- 広範なエクスポートフォーマットのサポート: ONNX、TensorRT、CoreML、およびTFLiteを含む多くのフォーマット全体でのデプロイメントが必要なプロジェクト。
DAMO-YOLOを選択すべきとき
DAMO-YOLOは以下の場合に推奨されます。
- 高スループットビデオ分析: バッチ1のスループットが主要な指標となる、固定されたNVIDIA GPUインフラストラクチャ上で高FPSビデオストリームを処理する場合。
- 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェア上で厳しいGPUレイテンシ制約があるシナリオ。
- ニューラルアーキテクチャ探索の研究: 検出性能に対する自動アーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化バックボーンの影響を研究する場合。
Ultralytics (YOLO26) を選択すべき場合
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:
- NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
- 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。
次の進化: YOLO26
新しいプロジェクトを開始する場合は、未来を見据えることを強くお勧めします。Ultralytics YOLO26は、YOLOv5の驚異的な基盤の上に構築されており、最先端のビジョンAIを再定義する革新的な進歩を組み込んでいます。
世界的な評価を得てリリースされたYOLO26は、ネイティブなエンドツーエンドモデルです。End-to-End NMS-Free設計を特徴としており、Non-Maximum Suppressionのポストプロセッシングを完全に排除することで、大幅に高速でシンプルなデプロイメントを実現しています。
YOLO26の主な革新は以下の通りです。
- MuSGD Optimizer: LLMトレーニングの革新に触発されたこのSGDとMuonのハイブリッドは、非常に安定したトレーニングと高速な収束を保証します。
- 最大43%高速なCPU推論: エッジコンピューティング向けに高度に最適化されており、専用GPUなしで動作するIoTデバイスに最適です。
- ProgLoss + STAL: 空撮ドローン画像やロボット工学において極めて重要な、小さな物体の認識を劇的に改善する高度な損失関数です。
- タスク固有の改善: 指向性バウンディングボックス (OBB)のための特殊な角度損失から、正確な姿勢推定のためのResidual Log-Likelihood Estimation (RLE)まで、YOLO26は複雑な領域を容易に処理します。
結論
YOLOv5とDAMO-YOLOはどちらも、物体検出の歴史にその名を刻みました。DAMO-YOLOは、ニューラルアーキテクチャ探索と蒸留の研究において魅力的な存在であり続けています。しかし、十分にメンテナンスされたエコシステム、使いやすさ、そして本番環境への迅速な道のりを優先する組織にとって、Ultralyticsのモデルは比類のない存在です。
Ultralytics Platformを活用してYOLO26のような次世代モデルのアノテーション、トレーニング、デプロイを行うことを強く推奨します。これにより、コンピュータビジョンパイプラインが将来にわたって活用可能であり、高速かつ驚異的に正確であることを保証できます。