DAMO-YOLOとYOLOv7の比較:リアルタイム物体検出モデルの評価
コンピュータビジョンの急速な進化により、精度と計算コストのバランスを最適化する非常に効率的な物体検出モデルが誕生しました。2022年に発表された注目すべき2つのモデルが、DAMO-YOLOとYOLOv7です。どちらもリアルタイムビジョンタスクの限界に挑むことを目的としていますが、その成果は、根本的に異なるアーキテクチャパラダイムと学習方法論を通じて達成されています。
この包括的な技術比較では、両モデルの独自のアプローチを探求し、機械学習エンジニアが特定のコンピュータビジョンアプリケーションに最適なツールを選択できるよう、アーキテクチャ、デプロイの可能性、性能指標を検証します。
モデルの起源とメタデータ
詳細な技術分析に入る前に、これら2つのコンピュータビジョンモデルの起源を背景として理解しておくことが重要です。
DAMO-YOLO
Alibaba Groupの研究者によって開発されたDAMO-YOLOは、自動アーキテクチャ探索と蒸留を通じて速度と精度の両方を最適化するために導入されました。
- 著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- 組織: Alibaba Group
- 日付: 2022年11月23日
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
YOLOv7
2022年半ばに最先端モデルとしてリリースされたYOLOv7は、デプロイコストを増加させることなく、学習可能な「bag-of-freebies(無償の贈り物)」を導入することで、リアルタイム推論をさらに前進させました。
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織: 台湾 中央研究院 資訊科學研究所
- 日付: 2022年7月6日
- Arxiv: 2207.02696
- ドキュメント: YOLOv7ドキュメント
YOLOv7はUltralyticsエコシステム内で公式にサポートされており、統一されたAPIを使用してシームレスな学習、検証、エクスポートが可能です。
アーキテクチャの革新
DAMO-YOLO:NASと蒸留
DAMO-YOLOには、最大限の効率化を目指したいくつかの最先端技術が組み込まれています。
- NASバックボーン: Neural Architecture Search(NAS)を利用し、レイテンシが重要となる環境向けに調整された最適なバックボーン(MAE-NAS)を自動設計します。
- 効率的なRepGFPN: 複数のスケールにわたる特徴融合の効率を大幅に向上させる、改良されたGeneralized Feature Pyramid Networkです。
- ZeroHead & AlignedOTA: 軽量な検出ヘッドと最適化されたラベル割り当て戦略(AlignedOTA)を組み込み、計算オーバーヘッドを削減します。
- 蒸留の強化: 学習中に知識蒸留を強力に活用し、パラメータ数を増やすことなく小型モデルバリエーションの性能を向上させます。
YOLOv7:E-ELANとBag-of-Freebies
YOLOv7はより構造工学的なアプローチを採用し、勾配パスの最適化と堅牢な学習戦略に焦点を当てました。
- E-ELANアーキテクチャ: Extended Efficient Layer Aggregation Network(拡張効率的レイヤー集約ネットワーク)は、最短および最長の勾配パスを制御することで、モデルがより多様な特徴を学習できるようにし、効果的な学習の収束を保証します。
- モデルスケーリング: 結合ベースのモデルに合わせて調整された複合スケーリング手法を導入し、構造的整合性のために深さと幅を同時にスケーリングします。
- 学習可能なBag-of-Freebies: ID接続のない再パラメータ化畳み込み(RepConv)や動的なラベル割り当て戦略などの技術を採用しており、推論速度に影響を与えることなく学習中の精度を向上させます。
性能分析
mean Average Precision (mAP)、速度、効率を評価する際、両モデルとも素晴らしい指標を示しますが、ターゲットとするセグメントはわずかに異なります。YOLOv7は高精度のGPUデプロイに重点を置いていますが、DAMO-YOLOのNAS由来の構造は、低レイテンシのCPUやエッジデプロイを強力に志向しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
指標に見られるように、DAMO-YOLOは非常に軽量なバリエーション(わずか8.5Mパラメータのtinyモデルなど)を提供しますが、YOLOv7は全体的な精度のピークがより高く、YOLOv7xはCOCOデータセットで53.1 mAPという素晴らしい数値を達成しています。
Ultralyticsエコシステムの利点
理論上のアーキテクチャも重要ですが、モデルの実用性はエコシステムによって決まります。YOLOv7のようにUltralyticsでサポートされているモデルは、十分にメンテナンスされたエコシステムと、比類のない使いやすさの恩恵を受けられます。
- 性能のバランス: Ultralyticsモデルは、推論速度と検出精度の間で一貫して最適なトレードオフを実現しており、エッジデバイスとクラウドベースのモデルデプロイの両方に理想的です。
- メモリ要件: より重いTransformerベースのモデルとは異なり、Ultralytics YOLOモデルは学習中に低いCUDAメモリ要件を維持します。これにより、消費者向けハードウェアでもバッチサイズを大きく設定でき、学習プロセスが効率化されます。
- 汎用性: Ultralyticsフレームワークは、物体検出にとどまらず、インスタンスセグメンテーションや姿勢推定といったタスクにも拡張可能であり、開発者に完全なコンピュータビジョンツールキットを提供します。
Ultralyticsパッケージを使用すると、高度に最適化されたデータローダーと事前学習済みウェイトを活用することで、データセットから完全に学習されたモデルへとわずか数分でシームレスに移行できます。
コード例:UltralyticsによるYOLOv7の学習
Ultralytics Python APIを使用すれば、YOLOv7をコンピュータビジョンパイプラインに組み込むことは非常に簡単です。
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)新しい標準: YOLO26の紹介
YOLOv7とDAMO-YOLOは2022年に大きな飛躍を遂げましたが、ビジョンAIの分野は急速に変化しています。現在新しいプロジェクトを開始するチームにとって推奨されるモデルは、2026年1月にリリースされた最先端のUltralytics YOLO26です。
YOLO26は、最先端のイノベーションを組み込み、性能とユーザビリティにおいて世代を超えた飛躍をもたらします。
- エンドツーエンドのNMSフリー設計: YOLO26はネイティブなエンドツーエンドモデルです。Non-Maximum Suppression(NMS)の後処理を排除することで、YOLOv10が先駆けて導入したパラダイムシフトと同様に、より高速でシンプルなデプロイロジックを実現します。
- MuSGDオプティマイザ: Moonshot AIのKimi K2のような大規模言語モデルのイノベーションに触発されたYOLO26は、SGDとMuonのハイブリッドを利用しています。このオプティマイザは、非常に安定した学習ダイナミクスと飛躍的に高速な収束率を保証します。
- 最大43%高速なCPU推論: Distribution Focal Loss(DFL)の計画的な削除と大幅な構造強化により、YOLO26は低電力のエッジコンピューティング向けに徹底的に最適化されており、非GPUハードウェアにおいて前世代を凌駕します。
- ProgLoss + STAL: 航空画像、ロボティクス、セキュリティ監視などのアプリケーションに不可欠な機能である、小さな物体の認識を明確にターゲットとして向上させる高度な新しい損失関数を組み込んでいます。
- タスク固有の改善: 標準的な検出を超えて、YOLO26はセグメンテーション用のマルチスケールプロトタイピング、姿勢推定用のRLE、回転バウンディングボックス (OBB)用の特定の角度損失など、多様なタスク向けの調整された改善機能を備えています。
理想的な使用ケース
適切なアーキテクチャの選択は、ターゲットとなるデプロイ環境とプロジェクトの制約に完全に依存します。
DAMO-YOLOを選択すべき場合:
- マイクロコントローラのように、生のパラメータ数を極めて低く抑えなければならない、リソースが厳しく制限されたエッジ環境で作業している場合。
- Alibabaの独自クラウドサービスと特別に統合された自動機械学習パイプラインを利用している場合。
YOLOv7を選択すべき場合:
YOLO26を選択すべき場合(推奨):
- 新しいコンピュータビジョンアプリケーションをゼロから構築しており、精度とCPU/エッジ推論速度の両面で絶対的な最先端技術が必要な場合。
- NMSオペレーターの制約に対処することなく、迅速かつシームレスなデプロイ(CoreMLやTensorRTへのエクスポートなど)が必要な場合。
- クラウド学習、データセット管理、自動デプロイのためにUltralytics Platformの全機能を利用したい場合。
堅牢なUltralyticsモデルのエコシステムを活用することで、開発者はエンジニアリング時間を劇的に短縮しつつ、現実世界のアプリケーションにおいて最高レベルの予測性能を確保できます。