DAMO-YOLO 対 YOLOv5: リアルタイム物体検出の詳細分析
コンピュータビジョンの進化は、リアルタイム物体検出における継続的な革新によって特徴づけられてきた。今日、開発者や研究者はビジョンパイプラインを設計する際に無数のアーキテクチャ選択肢に直面している。この包括的な技術比較では、YOLOと Ultralytics YOLOv5の微妙な差異を明らかにし、それぞれのアーキテクチャ、トレーニング手法、性能指標、および理想的な導入シナリオを重点的に解説します。
YOLO入門
アリババグループが発表したYOLO 、検出速度と精度の限界を押し広げることを目的とした複数の新規技術をYOLO 。
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織:Alibaba Group
- 日付: 2022年11月23日
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
- ドキュメント:README.md
アーキテクチャの革新
DAMO-YOLOは、ニューラルアーキテクチャ探索 (NAS) を基盤として構築されています。著者らは、レイテンシーと精度のバランスを取るバックボーンを自動的に設計するためにMAE-NASを利用しました。このモデルは、異なるスケール間での特徴融合を改善する効率的なRepGFPN (Reparameterized Generalized Feature Pyramid Network) を導入しています。さらに、DAMO-YOLOは「ZeroHead」設計を組み込んでおり、複雑なマルチブランチ予測ヘッドを排除し、推論時に再パラメータ化に大きく依存する、よりシンプルで効率的な構造を採用しています。
トレーニングを改善するため、本モデルはラベル割り当てにAlignedOTAを採用し、大規模な「教師」モデルが小規模な「生徒」モデルを導くことで精度向上を図る重度の蒸留強化プロセスを採用している。
Ultralytics YOLOv5YOLOv5
Ultralytics YOLOv5 世界で最も広く採用されているビジョンアーキテクチャYOLOv5 、その安定性、使いやすさ、そして広範なデプロイメントエコシステムで知られています。
- 著者: Glenn Jocher
- 組織:Ultralytics
- 日付: 2020年6月26日
- GitHub:ultralytics/yolov5
- ドキュメント:YOLOv5 ドキュメント
エコシステム基準
YOLOv5 使いやすさの業界標準をYOLOv5 。 PyTorchにネイティブ実装され、高度に最適化されたCSPNetバックボーンとPANetネックを活用して堅牢な特徴量集約を実現します。後続モデルに見られるアンカーフリーの潮流に先駆ける存在でありながら、自動アンカー学習と組み合わせた高度に洗練されたアンカーベースのアプローチにより、優れた性能を即座に発揮します。
YOLOv5 真の強みは、そのよく整備されたエコシステム YOLOv5 。 Comet や Weights & Biasesなどのトラッキングツールとシームレスに連携し、 ONNX、 TensorRT、 CoreML。
YOLOv5入門
YOLOv5 カスタムデータセットでのトレーニングが驚くほどYOLOv5 。合理化されたAPIがプロトタイプから本番環境への移行障壁を低減し、アジャイルエンジニアリングチームの間で高い人気を博しています。
パフォーマンスとメトリクスの比較
これらのモデルを比較する際には、平均精度(mAP)、推論速度、パラメータ数のバランスを検討することが極めて重要である。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
トレードオフの分析
DAMO-YOLOは、そのパラメータサイズに対して印象的なmAPスコアを達成しており、蒸留トレーニングフェーズから大きな恩恵を受けています。しかし、これはトレーニング効率を犠牲にします。多段階蒸留プロセスでは、まず重い教師モデルをトレーニングする必要があり、これにより必要なGPU計算時間とVRAMが大幅に増加します。
対照的に、YOLOv5は優れたメモリ要件を提供します。Ultralytics YOLOモデルは、複雑な蒸留パイプラインやRT-DETRのようなTransformerベースのモデルと比較して、トレーニングと推論の両方でメモリ使用量が少ないことで知られています。これにより、YOLOv5は民生用ハードウェアやGoogle Colabのようなアクセスしやすいクラウド環境で効率的にトレーニングできます。
実世界での応用と汎用性
適切なアーキテクチャの選択は、多くの場合、デプロイ環境に依存します。
DAMO-YOLOが優れている点
DAMO-YOLOは厳密にはobject detectionモデルです。特にニューラルアーキテクチャ探索を研究するチームや、論文で詳述されている再パラメータ化技術を再現しようとするチームにとって、学術研究に優れた選択肢です。プロジェクトが蒸留トレーニングフェーズを実行するための豊富な計算リソースを持ち、2Dバウンディングボックスの最後のわずかな精度を絞り出すことのみに焦点を当てている場合、DAMO-YOLOは強力な候補となります。
Ultralyticsの利点
実世界のプロダクションにおいて、Ultralyticsモデルの使いやすさと汎用性は、それらを最適な選択肢としています。YOLOv5はdetectと画像分類の主要なツールであり続けていますが、より広範なUltralyticsエコシステムにより、開発者はタスク間を容易に切り替えることができます。
例えば、Ultralyticsファミリーの新しいイテレーションは、インスタンスセグメンテーション、姿勢推定、およびOriented Bounding Box (OBB)検出をネイティブにサポートしています。このマルチタスク機能により、チームは、自動ナンバープレート認識と車両セグメンテーションを組み合わせるような複雑なパイプラインのために、単一の統合されたPython APIを利用できます。
ユースケースと推奨事項
DAMO-YOLOとYOLOv5のどちらを選択するかは、特定のプロジェクト要件、デプロイ制約、およびエコシステムの好みに依存します。
DAMO-YOLOを選択するタイミング
DAMO-YOLOは以下のような場合に強力な選択肢となります。
- 高スループットビデオ分析: バッチ1スループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
- 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェアにおける厳格なGPUレイテンシー制約があるシナリオです。
- ニューラルアーキテクチャ探索研究: 自動化されたアーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化されたバックボーンがdetect性能に与える影響を研究しています。
YOLOv5を選択すべき時
YOLOv5 以下に推奨YOLOv5 :
- 実績のある本番システム: YOLOv5の長年にわたる安定性、広範なドキュメント、および大規模なコミュニティサポートが評価されている既存のデプロイメント。
- Resource-Constrained Training: 限られたGPUリソースを持つ環境において、YOLOv5の効率的なトレーニングパイプラインと低いメモリ要件が有利です。
- 豊富なエクスポート形式のサポート: ONNX、TensorRT、CoreML、およびTFLiteを含む多くの形式でのデプロイを必要とするプロジェクト。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。
- NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
- 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。
未来:YOLO26への移行
YOLOv5 、YOLO 興味深い学術的知見YOLO 、最先端技術は進化を続けている。2026年1月にUltralytics 、ビジョンコミュニティにとって飛躍的な進歩を象徴する。
YOLO26は、エッジデプロイメントとトレーニングの不安定性という従来のボトルネックに対処します:
- エンドツーエンドのNMSフリー設計: YOLO26は、Non-Maximum Suppression の後処理をネイティブに排除します。この画期的な技術は、デプロイメントロジックを簡素化し、レイテンシのばらつきを劇的に低減するため、高速ロボティクスや自律システムに最適です。
- MuSGD オプティマイザ: LLMトレーニングイノベーション (Moonshot AIのKimi K2など) から着想を得て、YOLO26はMuSGDオプティマイザ (SGDとMuonのハイブリッド) を利用しています。これにより、非常に安定したトレーニング実行と著しく高速な収束が保証されます。
- 最大43%高速なCPU推論: Distribution Focal Loss (DFL) を戦略的に削除することで、YOLO26 は YOLO11 や YOLOv8 といった先行モデルと比較して、CPU およびエッジデバイスで格段に優れた速度を実現します。
- ProgLoss + STAL: これらの高度な損失関数は、小オブジェクト認識において顕著な改善をもたらし、航空ドローン画像およびIoTセンサーフィードの分析にとって不可欠です。
コード例: 実践におけるシンプルさ
Ultralytics 、わずか数行のコードでモデルのトレーニングとデプロイが可能です。YOLOv5 する場合でもYOLOv5 推奨されるYOLO26にアップグレードYOLOv5 、インターフェースは一貫して直感的です。
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 small model
model = YOLO("yolo26s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()
# Export the model for edge deployment
model.export(format="onnx")
結論
DAMO-YOLOとYOLOv5はどちらも、コンピュータビジョンの分野に大きく貢献してきました。DAMO-YOLOは、ニューラルアーキテクチャ探索と蒸留の力を示しており、研究者にとって興味深い研究対象となっています。しかし、YOLOv5は、そのパフォーマンスバランス、低いメモリ要件、そして比類のない使いやすさにより、実用的な主力であり続けています。
今日、新しいプロジェクトを開始する開発者への推奨は、Ultralytics Platformを活用し、YOLO26を採用することです。これは、YOLOv5の愛されるユーザーフレンドリーなエコシステムと画期的なアーキテクチャの進歩を組み合わせ、クラウドおよびエッジAIアプリケーションの両方で最高レベルの精度と超高速推論を保証します。開発者は、特定の既存ハードウェアの制約に応じて、YOLOv6やYOLOXなどの他の効率的なモデルも検討したいと考えるかもしれません。