Link to this sectionYOLOv5 と DAMO-YOLO の比較#
リアルタイムコンピュータビジョンの分野は絶えず進化しており、研究者やエンジニアは精度、速度、使いやすさの完璧なバランスを追求しています。この歩みを形作ってきた2つの著名なモデルが、Ultralytics YOLOv5とAlibabaのDAMO-YOLOです。
本ガイドでは、次期プロジェクトに最適なモデルを選択するために、それぞれのアーキテクチャ、パフォーマンス指標、トレーニング手法について詳細な技術分析を提供します。
Link to this sectionモデルの背景#
技術的な詳細を掘り下げる前に、これらの影響力のあるビジョンモデルそれぞれの起源と、根底にある主要な設計哲学を理解することが重要です。
Link to this sectionUltralytics YOLOv5#
Glenn JocherとUltralyticsのチームによって開発されたYOLOv5は、リリース以来、業界標準となっています。PyTorchフレームワークをベースにネイティブ構築されており、すぐに使える洗練された開発者エクスペリエンスと堅牢なデプロイ機能が優先されました。
- 作成者: Glenn Jocher
- 組織: Ultralytics
- 日付: 2020-06-26
- GitHub: https://github.com/ultralytics/yolov5
- ドキュメント: Ultralytics YOLOv5 ドキュメント
Link to this sectionDAMO-YOLO#
Alibaba Groupの研究者によって作成されたDAMO-YOLOは、ニューラルアーキテクチャ探索(NAS)と高度な蒸留手法に重点を置いています。ハードウェア固有のパフォーマンスの理論的限界を押し広げ、極限のチューニングを必要とする研究環境やエッジ環境に強力に適応します。
- 著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
- 組織: Alibaba Group
- 日付: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
Link to this sectionアーキテクチャの革新#
両モデルとも独自の構造概念を活用してリアルタイム性能を達成していますが、そのアプローチは大きく異なります。
Link to this sectionYOLOv5:安定性と汎用性#
YOLOv5は、改良型CSP(Cross Stage Partial)バックボーンとPANet(Path Aggregation Network)ネックを組み合わせて利用しています。この構造は非常に効率的で、トレーニング時および推論時のCUDAメモリ使用量を最小限に抑えます。
YOLOv5の最大の強みの1つは、タスク全般における汎用性です。バウンディングボックス予測だけでなく、画像セグメンテーションや画像分類向けの専用アーキテクチャも提供しており、開発者は単一の一貫したフレームワークを中心にビジョンパイプラインを標準化できます。
Link to this sectionDAMO-YOLO:自動アーキテクチャ探索#
DAMO-YOLOの核となる革新は、MAE-NASバックボーンです。マルチオブジェクティブ進化的探索を用いることで、Alibabaチームは検出精度と推論速度のバランスを動的にとるバックボーンを発見しました。
さらに、特徴融合を改善するためのEfficient RepGFPNネックを備えており、これは衛星画像解析で頻繁に見られる複雑なスケール変動に非常に有益です。そのZeroHead設計は最終的な予測レイヤーを単純化してレイテンシを削減しますが、この複雑な構造生成により、アーキテクチャが硬直的になり、カスタムアプリケーション向けに変更することが難しくなる可能性があります。
Transformerベースのアーキテクチャは、高いVRAM消費量に悩まされることがよくあります。YOLOv5とDAMO-YOLOはどちらも効率的な畳み込み設計を利用してメモリフットプリントを低く抑えていますが、Ultralyticsモデルは民生用GPU向けに特に最適化されており、独立した研究者やスタートアップにとって非常にアクセスしやすくなっています。
Link to this sectionパフォーマンスとメトリクス#
リアルタイム物体検出器を評価するには、mAP(平均適合率)、推論速度、およびモデルサイズパラメータのマトリックスを確認する必要があります。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
DAMO-YOLOは特定のパラメータ数で非常に競争力のあるmAPスコアを達成しますが、YOLOv5はTensorRTにおいて一貫して優れた速度と、nanoおよびsmall構成での非常に低いパラメータ数を示します。このパフォーマンスのバランスにより、YOLOv5は多様なエッジデプロイシナリオで効率的に動作します。
Link to this section学習効率とエコシステム#
モデルの理論上の精度は、実用的な実装可能性があって初めて価値を持ちます。ここで両モデルは大きく分岐します。
Link to this section蒸留の複雑さ#
DAMO-YOLOは、マルチステージのトレーニング手法に大きく依存しています。AlignedOTAと呼ばれる教師・生徒知識蒸留手法を実装しています。これは生徒モデルから最大のパフォーマンスを引き出しますが、最初に大規模な教師モデルをトレーニングする必要があります。これにより、計算時間、エネルギーコスト、必要なハードウェアが大幅に増加し、機敏なMLチームにとってのボトルネックとなります。
Link to this sectionUltralyticsの利点:使いやすさ#
対照的に、Ultralyticsエコシステムは、直感的なAPIとトレーニング効率で世界的に有名です。活発な開発と膨大なオープンソースコミュニティに支えられており、開発者はモデルをシームレスにトレーニング、検証、デプロイできます。
from ultralytics import YOLO
# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX format for deployment
model.export(format="onnx")また、UltralyticsはWeights & BiasesやComet MLのようなツールを介した実験追跡の組み込みサポートも提供しており、摩擦のないワークフローを実現します。
Link to this section実際のユースケース#
- YOLOv5は、ペースの速い生産環境で優れています。その直接的なエクスポート可能性により、スマートリテール分析、高速製造欠陥検出、およびCoreMLを介したモバイルアプリケーションへの統合に最適な選択肢となっています。
- DAMO-YOLOは、厳格な学術的ベンチマークや、特定の固定ハードウェアターゲットに向けてわずかなmAP改善を引き出すことを目的とした、長時間の蒸留トレーニングを実行するための膨大な計算リソースが利用可能なシナリオに非常に適しています。
Link to this sectionユースケースと推奨事項#
YOLOv5とDAMO-YOLOのどちらを選択するかは、特定のプロジェクト要件、デプロイ制約、およびエコシステムの優先事項によって決まります。
Link to this sectionYOLOv5を選択すべき場合#
YOLOv5は次の場合に強力な選択肢となります:
- 実証済みの本番システム: YOLOv5の長期にわたる安定性の実績、広範なドキュメント、および膨大なコミュニティサポートが重視される既存のデプロイ環境。
- リソースが制限されたトレーニング: GPUリソースが限られており、YOLOv5の効率的なトレーニングパイプラインと低いメモリ要件が有利に働く環境。
- 広範なエクスポート形式のサポート: ONNX、TensorRT、CoreML、TFLiteを含む多くのフォーマット全体でのデプロイが必要なプロジェクト。
Link to this sectionDAMO-YOLOを選択すべきケース#
DAMO-YOLOは以下の場合に推奨されます:
- 高スループットビデオ解析: バッチサイズ1でのスループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
- 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェア上での厳格なGPUレイテンシ制約があるシナリオ。
- Neural Architecture Searchの研究: 自動化されたアーキテクチャ探索 (MAE-NAS) や効率的な再パラメータ化バックボーンが検出パフォーマンスに与える影響の研究。
Link to this sectionUltralytics (YOLO26) を選択すべき時#
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。
- NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
- 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。
Link to this section次の進化:YOLO26#
新しいプロジェクトを開始する場合は、未来に目を向けることを強くお勧めします。Ultralytics YOLO26は、YOLOv5の驚異的な基盤の上に構築されており、最先端のビジョンAIを再定義する革命的な進歩を取り入れています。
広く評価されてリリースされたYOLO26は、ネイティブなエンドツーエンドモデルです。エンドツーエンドNMSフリー設計を採用しており、Non-Maximum Suppressionの後処理を完全に排除することで、大幅に高速でシンプルなデプロイを実現します。
YOLO26の主な革新は以下の通りです:
- MuSGDオプティマイザー: LLMトレーニングの革新に触発されたこのSGDとMuonのハイブリッドは、非常に安定したトレーニングと迅速な収束を保証します。
- 最大43%高速なCPU推論: エッジコンピューティング向けに大幅に最適化されており、専用GPUなしで動作するIoTデバイスに最適です。
- ProgLoss + STAL: 航空ドローン画像やロボティクスにとって重要な、小さな物体の認識を劇的に改善する高度な損失関数です。
- タスク固有の改善: 指向性バウンディングボックス(OBB)用の特殊な角度損失から、正確な姿勢推定用のResidual Log-Likelihood Estimation (RLE)まで、YOLO26は複雑な領域を容易に処理します。
Link to this section結論#
YOLOv5とDAMO-YOLOはどちらも、物体検出の歴史にその名を刻んでいます。DAMO-YOLOは、ニューラルアーキテクチャ探索と蒸留に関する興味深い研究対象であり続けています。しかし、十分に維持されたエコシステム、使いやすさ、そして迅速な生産への道のりを優先する組織にとって、Ultralyticsのモデルは比類のない存在です。
Ultralyticsプラットフォームを利用して、YOLO26のような次世代モデルのアノテーション、トレーニング、デプロイを行うことを強くお勧めします。これにより、コンピュータビジョンパイプラインが将来にわたって活用可能で、高速かつ極めて正確であることを保証できます。