YOLOv5 vs. DAMO-YOLO: 包括的な技術比較
リアルタイムコンピュータビジョンの分野は絶えず進化を続けており、研究者やエンジニアは精度、速度、使いやすさの完璧なバランスを追求している。この進化を形作ってきた二つの主要なモデルは Ultralytics YOLOv5 とアリババのYOLOである。
このガイドでは、各モデルのアーキテクチャ、性能指標、およびトレーニング手法について詳細な技術分析を提供し、次回の導入に最適なモデルを選択するお手伝いをします。
モデル背景
技術的なニュアンスに深く踏み込む前に、これら影響力のある各ビジョンモデルの起源と主要な設計思想を理解することが重要です。
Ultralytics YOLOv5
Glenn JocherとUltralyticsのチームによって開発されたYOLOv5は、リリース以来、業界標準となっています。PyTorchフレームワーク上にネイティブに構築されており、開発者の合理化されたエクスペリエンスと、すぐに使える堅牢なデプロイメント機能を優先しました。
- Author: Glenn Jocher
- 組織:Ultralytics
- 日付: 2020-06-26
- GitHub:https://github.com/ultralytics/yolov5
- ドキュメント:Ultralytics YOLOv5
DAMO-YOLO
Alibaba Groupの研究者によって作成されたDAMO-YOLOは、ニューラルアーキテクチャ探索(NAS)と高度な蒸留技術に重点を置いています。これは、ハードウェア固有のパフォーマンスの理論的限界を押し広げ、極端なチューニングを必要とする研究およびエッジ環境に強く対応しています。
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織:Alibaba Group
- 日付: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
アーキテクチャの革新
両モデルは独自の構造概念を活用してリアルタイム性能を達成していますが、そのアプローチは大きく異なります。
YOLOv5:安定性と汎用性
YOLOv5 、修正CSP(Cross Stage Partial)バックボーンとPANet(Path Aggregation Network)ネックを組み合わせたYOLOv5 。この構造は極めて効率的で、 CUDA メモリ使用量を最小限に抑えます。
YOLOv5最大の強みのひとつは、タスクを横断した汎用性である。バウンディングボックス予測に加え、画像セグメンテーションと画像分類に特化したアーキテクチャを提供し、開発者が単一の統合フレームワークを中心にビジョンパイプラインを標準化することを可能にする。
DAMO-YOLO: 自動化されたアーキテクチャ探索
DAMO-YOLOの核となるイノベーションは、そのMAE-NASバックボーンです。多目的進化的探索を用いて、Alibabaチームは検出精度と推論速度を動的にバランスさせるバックボーンを発見しました。
さらに、Efficient RepGFPNネックを特徴とし、特徴融合を改善します。これは衛星画像解析でよく見られる複雑なスケール変動に非常に有効です。そのZeroHead設計は、最終予測層を簡素化してレイテンシを削減しますが、この複雑な構造生成は、アーキテクチャを硬直させ、カスタムアプリケーション向けに修正することを困難にする可能性があります。
メモリ要件
トランスフォーマーベースのアーキテクチャは、高いVRAM消費量に悩まされることが多い。YOLOv5 YOLO YOLOv5 効率的な畳み込み設計YOLO メモリ使用量を抑えているが、Ultralytics 特にコンシューマー向けGPU向けに最適化されており、独立研究者やスタートアップにとってはるかに利用しやすい。
パフォーマンスとメトリクス
リアルタイム物体detect器を評価するには、mAP(平均精度)、推論速度、およびモデルサイズパラメータの組み合わせを考慮する必要があります。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLO 特定のパラメータ数において非常に競争力mAP YOLO 一方、YOLOv5 卓越した性能を示している。 TensorRT 速度と、nanoおよびsmall構成における驚異的に低いパラメータ数を一貫して実現しています。この性能バランスにより、YOLOv5 多様なエッジ展開シナリオにおいて効率的にYOLOv5 。
トレーニング効率とエコシステム
モデルの理論的な精度は、その実用的な実装可能性と同程度にしか価値がありません。ここでモデルは大きく分岐します。
蒸留の複雑性
DAMO-YOLOは多段階トレーニング手法に大きく依存しています。AlignedOTAとして知られる教師-学生知識蒸留技術を実装しています。これにより学生モデルから最大の性能が引き出されますが、最初に大規模な教師モデルをトレーニングする必要があります。これは計算時間、エネルギーコスト、および必要なハードウェアを劇的に増加させ、アジャイルなMLチームにとってボトルネックとなります。
Ultralytics :使いやすさ
対照的に、Ultralyticsエコシステムは、直感的なAPIとトレーニング効率で世界的に有名です。活発な開発と膨大なオープンソースコミュニティに支えられ、開発者はモデルをシームレスにトレーニング、検証、デプロイできます。
from ultralytics import YOLO
# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX format for deployment
model.export(format="onnx")
Ultralytics Weights & Biases Comet などのツールを介した実験追跡の組み込みUltralytics 提供し、摩擦のないワークフローを実現します。
実際のユースケース
- YOLOv5は、ペースの速い生産環境で優れた性能を発揮します。そのシンプルなエクスポート性により、スマートリテール分析、高速製造欠陥detect、およびCoreMLを介したモバイルアプリケーションへの統合に最適な選択肢となります。
- DAMO-YOLOは、厳密な学術ベンチマークや、特定の固定ハードウェアターゲット向けにわずかなmAP改善を絞り出すことを目的とした長時間の蒸留訓練を実行するために、膨大な計算リソースが利用可能なシナリオに非常に適しています。
ユースケースと推奨事項
YOLOv5とDAMO-YOLOのどちらを選択するかは、特定のプロジェクト要件、デプロイメントの制約、およびエコシステムの好みに依存します。
YOLOv5を選択すべき時
YOLOv5 以下に最適YOLOv5 :
- 実績のある本番システム: YOLOv5の長年にわたる安定性、広範なドキュメント、および大規模なコミュニティサポートが評価されている既存のデプロイメント。
- Resource-Constrained Training: 限られたGPUリソースを持つ環境において、YOLOv5の効率的なトレーニングパイプラインと低いメモリ要件が有利です。
- 豊富なエクスポート形式のサポート: ONNX、TensorRT、CoreML、およびTFLiteを含む多くの形式でのデプロイを必要とするプロジェクト。
DAMO-YOLOを選択するタイミング
DAMO-YOLOは以下のような用途に推奨されます。
- 高スループットビデオ分析: バッチ1スループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
- 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェアにおける厳格なGPUレイテンシー制約があるシナリオです。
- ニューラルアーキテクチャ探索研究: 自動化されたアーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化されたバックボーンがdetect性能に与える影響を研究しています。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。
- NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
- 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。
次の進化:YOLO26
新規プロジェクトを開始する際には、将来を見据えることが強く推奨されます。Ultralytics 、YOLOv5驚異的な基盤をさらに発展させ、最先端のビジョンAIを再定義する革新的な進歩を組み込んでいます。
YOLO26にアップグレードする理由
YOLO26は、広く称賛を受けてリリースされました。ネイティブのエンドツーエンド設計を採用し、エンドツーエンドNMS設計を実現。これにより、非最大抑制(NMS)の後処理を完全に排除し、大幅に高速かつ簡素化された展開を可能にします。
YOLO26の主な革新点には以下が含まれます:
- MuSGD オプティマイザ: LLMトレーニングイノベーションから着想を得たSGDとMuonのこのハイブリッドは、非常に安定したトレーニングと迅速な収束を保証します。
- CPU推論が最大43%高速化: エッジコンピューティング向けに大幅に最適化されており、専用GPUなしで動作するIoTデバイスに最適です。
- ProgLoss + STAL: 小さな物体認識を劇的に改善する高度な損失関数は、航空ドローン画像やロボティクスにとって不可欠です。
- タスク固有の改善: Oriented Bounding Boxes (OBB)のための特化した角度損失から、正確なPose estimationのためのResidual Log-Likelihood Estimation (RLE) まで、YOLO26は複雑なドメインを容易に処理します。
結論
YOLOv5とDAMO-YOLOは両方とも物体検出の歴史にその地位を確立しています。DAMO-YOLOは、ニューラルアーキテクチャ探索と蒸留における興味深い研究対象であり続けています。しかし、十分にメンテナンスされたエコシステム、使いやすさ、および迅速な生産への移行を優先する組織にとって、Ultralyticsモデルは比類のないものです。
次世代モデル(YOLO26など)の注釈付与、トレーニング、デプロイにはUltralytics の利用を強く推奨します。これにより、コンピュータビジョンパイプラインが将来性があり、高速かつ驚くほど正確であることを保証します。
参考資料
- 高精度アプリケーション向けに、トランスフォーマーベースのRT-DETRを探ってみましょう。
- 前世代について学ぶ YOLO11 モデルについて学びましょう。
- OpenVINOを使用してデプロイを最適化する方法をご覧ください。