YOLOv7 vs. DAMO-YOLO: 包括的な技術比較
リアルタイム物体検出の領域は常に進化しており、研究者やエンジニアは速度と精度の最適なバランスを追求しています。この技術比較では、2022年に登場したYOLOv7とDAMO-YOLOという2つの注目すべきアーキテクチャについて詳しく解説します。両モデルとも、モデルのトレーニング、アーキテクチャ設計、デプロイにおける異なる課題に対処し、コンピュータビジョンのコミュニティに新しい概念をもたらしました。
モデルの背景と技術詳細
アーキテクチャを掘り下げる前に、これら2つのモデルの起源を理解することが重要です。両モデルとも主要な研究グループによって開発され、リアルタイム物体検出の限界を押し広げる高度な手法が導入されました。
YOLOv7の詳細
YOLOファミリーの継続モデルとして開発されたYOLOv7は、推論コストを増加させることなく精度を大幅に向上させるために、トレーニング可能な「bag-of-freebies(フリービーの袋)」という概念を導入しました。
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織: 中央研究院 情報科学研究所(台湾)
- 日付: 2022-07-06
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- ドキュメント: https://docs.ultralytics.com/models/yolov7/
DAMO-YOLOの詳細
Alibaba Groupの研究者によって作成されたDAMO-YOLOは、多様なハードウェア向けに極めて効率的なモデルを構築するため、Neural Architecture Search (NAS) と高度な知識蒸留に重点を置いています。
- 著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- 組織: Alibaba Group
- 日付: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
アーキテクチャの革新
YOLOv7: 勾配パス分析とリパラメータライゼーション
YOLOv7は**Extended Efficient Layer Aggregation Networks (E-ELAN)**に重点を置いています。著者はネットワークの勾配パスを分析することでE-ELANを設計し、元の勾配パスを損なうことなくネットワークが継続的に学習できるようにしました。さらに、YOLOv7は推論中にモデルのリパラメータライゼーションを効果的に活用し、レイヤーをシームレスに融合することでFLOPsを削減し、実行時間を高速化します。これにより、最新のGPU上でのリアルタイム推論において高い性能を発揮します。
DAMO-YOLO: Neural Architecture SearchとRepGFPN
DAMO-YOLOは、遅延制約下での**Neural Architecture Search (NAS)**を最大限に活用するという点で異なります。MAE-NASと呼ばれるフレームワークを使用して、モバイルデバイスや特定のエッジアクセラレータなど、特定のハードウェアに最適化されたバックボーンを発見します。ネック部分には効率的なRepGFPN(Rep-parameterized Generalized Feature Pyramid Network)を導入し、予測ヘッドの計算負荷を最小限に抑えるZeroHead設計を採用しています。
YOLOv7が強固な固有のアーキテクチャ最適化に依存している一方で、DAMO-YOLOは複雑な多段階の知識蒸留プロセスに大きく依存しています。トレーニング段階において、大きな教師モデルから小さな生徒モデルへ知識を蒸留させる必要があり、これには高い計算コストがかかる場合があります。
パフォーマンスとメトリクスの比較
これらのモデルを比較する際は、mAP (Mean Average Precision)、推論速度、およびモデルの複雑さに注目することが重要です。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
上記の表は、YOLOv7が高精度領域(YOLOv7x)に向けてうまく拡張できる一方、DAMO-YOLOが制約のある環境向けに高度に最適化された軽量モデルを提供していることを示しています。
トレーニング効率とメモリ要件
両アーキテクチャの大きな違いは、トレーニング手法にあります。DAMO-YOLOは蒸留に依存しているため、ゼロから新しいモデルをトレーニングしたり、カスタムコンピュータビジョンデータセットでファインチューニングを行う際には、多くの場合、より多くのVRAMとGPUコンピュート時間が必要になります。
対照的に、YOLOv7やそれ以降のバージョンなど、Ultralyticsエコシステムに統合されたモデルは、メモリ要件に対して高度に最適化されています。これにより、開発者はコンシューマー向けハードウェアでメモリ不足エラーに遭遇することなく大きなバッチサイズを使用でき、実験追跡と反復プロセスが簡素化されます。
Ultralyticsの利点
YOLOv7とDAMO-YOLOはどちらも魅力的な機能を提供していますが、Ultralyticsエコシステム内でモデルをデプロイすることで、比類のない開発者体験が得られます。
- 使いやすさ: Ultralytics Pythonパッケージは、統一されたシンプルなAPIを提供します。モデルアーキテクチャの切り替え、トレーニングループの開始、推論の実行を数行のコードですばやく行えます。
- 十分に管理されたエコシステム: Ultralyticsは頻繁なアップデートを提供しており、最新のPyTorchリリースやCUDAドライバとのネイティブな互換性を保証します。また、ONNX、TensorRT、OpenVINOといった形式へのモデルエクスポートも簡素化されます。
- 汎用性: 単なる物体検出器であるDAMO-YOLOとは異なり、Ultralyticsエコシステムは多様なタスクをネイティブにサポートしています。Ultralyticsファミリーのモデルは、標準的なバウンディングボックス検出、姿勢推定、インスタンスセグメンテーション、および指向性バウンディングボックス (OBB)を実行できます。
コード例: すばやく始める
Ultralyticsモデルを使用して、ロード、トレーニング、推論を簡単に行う方法は以下の通りです:
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model (or newer models like yolo26n.pt)
model = YOLO("yolov7.pt")
# Train the model on the COCO8 dataset with automated hyperparameter handling
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX format for deployment
model.export(format="onnx")Ultralyticsを使用すると、トレーニング済みの重みをさまざまなハードウェアアクセラレーション形式(TensorRTやCoreMLなど)にエクスポートする作業は、エクスポートコマンドの単一の引数で処理されるため、複雑なスクリプト設定にかかる時間を削減できます。
次世代: YOLO26
YOLOv7は強力なレガシーアーキテクチャであり続けていますが、この分野は急速に進化しています。新しいデプロイメントについては、Ultralytics YOLO26(2026年1月リリース)が推奨される標準であり、ほぼすべての指標において以前の世代を上回っています。
- エンドツーエンドのNMSフリー設計: YOLOv10で初めて採用されたYOLO26は、Non-Maximum Suppression (NMS) 後処理をネイティブに排除します。これにより、ロボティクスや自動運転技術に不可欠な、決定的かつ超低遅延の推論が保証されます。
- MuSGDオプティマイザ: 高度なLLMトレーニング手法(Moonshot AIのKimi K2など)に着想を得たこのハイブリッドオプティマイザは、SGDとMuonを融合させ、データセット全体で極めて安定したトレーニングと高速な収束を実現します。
- 最大43%高速なCPU推論: Distribution Focal Loss (DFL) を戦略的に削除することで、YOLO26はエッジコンピューティングプラットフォームやCPUでのパフォーマンスを大幅に向上させます。
- ProgLoss + STAL: これらの高度な損失関数は、小さな物体の検出において大幅な改善をもたらし、YOLO26を航空画像や詳細な監視に非常に適したものにしています。
理想的な使用ケース
DAMO-YOLOを選択すべきとき
- NASに関する学術研究: 組織がNeural Architecture Search手法の研究に多額の投資を行っている場合。
- 特定のハードウェアにおける極めて厳しいレイテンシ: カスタムAIアクセラレータチップ向けの特化型バックボーンを見つけるために、網羅的なNAS検索を実行するリソースがある場合。
YOLOv7を選択すべき場面
- 既存のGPUパイプライン: ハイエンドのNVIDIAハードウェア上で、YOLOv7固有のE-ELANアーキテクチャに合わせて最適化されたレガシーな本番パイプラインを運用しているチームの場合。
最新のUltralyticsモデル(YOLO11 / YOLO26)へ移行する理由
小売分析やスマートマニュファクチャリング、ヘルスケアに至るまで、大多数の企業向けアプリケーションにとって、最新のUltralyticsモデルは比類のない存在です。Ultralyticsプラットフォームとの統合により、完全なMLパイプラインが提供され、使いやすさ、優れたドキュメント、強力なコミュニティサポート、マルチタスクの汎用性が実現されます。Raspberry Piで在庫を追跡する場合でも、クラウドで高度な分析を実行する場合でも、YOLO26のようなモデルはコンピュータビジョンの未来に向けた最適なパフォーマンスバランスを提供します。