Link to this sectionDAMO-YOLO vs YOLOv7#
コンピュータビジョンの急速な進化により、精度と計算コストのバランスを最適化するように設計された、非常に効率的な物体検出モデルが生み出されました。2022年に発表された注目すべき2つのモデルがDAMO-YOLOとYOLOv7です。どちらもリアルタイムビジョンタスクの限界に挑むことを目的としていますが、その成果は全く異なるアーキテクチャパラダイムとトレーニング手法によって達成されています。
この包括的な技術比較では、両モデルの独自のアプローチを探ります。機械学習エンジニアが特定のコンピュータビジョンアプリケーションに最適なツールを選択できるよう、アーキテクチャ、展開の可能性、性能指標を検証します。
Link to this sectionモデルの起源とメタデータ#
詳細な技術分析に入る前に、これら2つのコンピュータビジョンモデルの起源を文脈化することが不可欠です。
Link to this sectionDAMO-YOLO#
Alibaba Groupの研究者によって開発されたDAMO-YOLOは、自動アーキテクチャ探索と蒸留を通じて、速度と精度の両方を最適化するために導入されました。
- 著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
- 組織: Alibaba Group
- 日付: 2022年11月23日
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
Link to this sectionYOLOv7#
2022年半ばに最先端技術としてリリースされたYOLOv7は、展開コストを増大させることなく学習可能な「bag-of-freebies」を導入し、リアルタイム推論をさらに推進しました。
- 著者: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
- 組織: 台湾 中央研究院 資訊科學研究所
- 日付: 2022年7月6日
- Arxiv: 2207.02696
- ドキュメント: YOLOv7 ドキュメント
YOLOv7はUltralyticsエコシステム内で公式にサポートされており、統合されたAPIを使用してシームレスなトレーニング、検証、およびエクスポートが可能です。
Link to this sectionアーキテクチャの革新#
Link to this sectionDAMO-YOLO: NASと蒸留#
DAMO-YOLOは、最大限の効率を目指したいくつかの最先端技術を取り入れています。
- NASバックボーン: ニューラルアーキテクチャ探索 (NAS) を活用して、遅延が重視される環境向けに調整された最適なバックボーン (MAE-NAS) を自動設計します。
- 効率的なRepGFPN: 複数のスケールにわたる特徴融合の効率を大幅に向上させる、修正されたGeneralized Feature Pyramid Networkです。
- ZeroHead & AlignedOTA: 軽量な検出ヘッドと最適化されたラベル割り当て戦略 (AlignedOTA) を組み込み、計算オーバーヘッドを削減します。
- 蒸留による強化: トレーニング中に知識蒸留を多用し、パラメータ数を増やすことなく小型モデルバリアントの性能を向上させます。
Link to this sectionYOLOv7: E-ELANとBag-of-Freebies#
YOLOv7は、勾配経路の最適化と堅牢なトレーニング戦略に焦点を当てた、より構造的なエンジニアリングアプローチを採用しました。
- E-ELANアーキテクチャ: Extended Efficient Layer Aggregation Networkにより、モデルは最短および最長の勾配経路を制御することで、より多様な特徴を学習し、効果的な学習の収束を確実にします。
- モデルスケーリング: 連結ベースのモデル向けに調整された複合スケーリング手法を導入し、構造的な調整のために深さと幅を同時にスケーリングします。
- 学習可能なBag-of-Freebies: ID接続のない再パラメータ化された畳み込み (RepConv) や動的なラベル割り当て戦略などの技術を採用し、推論速度に影響を与えずにトレーニング中の精度を向上させます。
Link to this sectionパフォーマンス分析#
平均精度 (mAP)、速度、効率を評価する際、両モデルとも素晴らしい指標を示しますが、ターゲットとするセグメントはわずかに異なります。YOLOv7は高精度なGPU展開に重点を置いていますが、DAMO-YOLOのNAS由来の構造は、CPUおよびエッジへの低遅延な展開を積極的に狙っています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
指標からもわかるように、DAMO-YOLOは非常に軽量なバリアント(わずか8.5Mパラメータのtinyモデルなど)を提供しますが、YOLOv7は全体としてより高い精度ピークを達成しており、YOLOv7xはCOCOデータセットで53.1 mAPという驚異的な数値を記録しています。
Link to this sectionUltralyticsエコシステムの利点#
理論上のアーキテクチャは重要ですが、モデルの実用性はエコシステムによって決まります。YOLOv7のようにUltralyticsがサポートするモデルは、十分に維持されたエコシステムと比類のない使いやすさの恩恵を受けています。
- パフォーマンスのバランス: Ultralyticsモデルは、推論速度と検出精度の最適なトレードオフを常に実現しており、エッジデバイスとクラウドベースのモデル展開の両方に最適です。
- メモリ要件: Transformerベースのより重いモデルとは異なり、Ultralytics YOLOモデルはトレーニング中に低いCUDAメモリ要件を維持します。これにより、コンシューマーグレードのハードウェア上でも、より大きなバッチサイズが可能となり、トレーニングプロセスが効率化されます。
- 汎用性: Ultralyticsフレームワークは物体検出を超えて、インスタンスセグメンテーションや姿勢推定などのタスクまで拡張されており、開発者に完全なコンピュータビジョンツールキットを提供します。
Ultralyticsパッケージを使用すると、高度に最適化されたデータローダーと事前学習済み重みを活用して、データセットから完全にトレーニングされたモデルまでわずか数分でシームレスに移行できます。
Link to this sectionコード例: UltralyticsでのYOLOv7のトレーニング#
Ultralytics Python APIを使用すれば、YOLOv7をコンピュータビジョンパイプラインに組み込むことは非常に簡単です。
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)Link to this section新しい標準: YOLO26の紹介#
YOLOv7とDAMO-YOLOは2022年に重要な進歩を示しましたが、ビジョンAIの分野は急速に進化しています。現在新しいプロジェクトを開始するチームには、2026年1月にリリースされた最先端のUltralytics YOLO26が推奨されます。
YOLO26は、最先端の技術革新を取り入れることで、パフォーマンスとユーザビリティにおいて世代を超えた飛躍をもたらします。
- NMS不要の完全エンドツーエンド設計: YOLO26はネイティブでエンドツーエンドです。非最大値抑制 (NMS) の後処理を排除することで、より高速で単純な展開ロジックを提供します。これはYOLOv10によって最初に開拓されたパラダイムシフトです。
- MuSGDオプティマイザ: Moonshot AIのKimi K2などの大規模言語モデルのイノベーションに触発されたYOLO26は、SGDとMuonのハイブリッドを利用しています。このオプティマイザは、非常に安定したトレーニングダイナミクスと劇的に高速な収束率を保証します。
- CPU推論が最大43%高速化: Distribution Focal Loss (DFL) のターゲット除去と大幅な構造強化により、YOLO26は低電力エッジコンピューティング向けに高度に最適化されており、非GPUハードウェア上で以前の世代を上回る性能を発揮します。
- ProgLoss + STAL: 小さな物体の認識を明示的にターゲットにし改善する高度な新しい損失関数を組み込んでおり、航空画像、ロボット工学、およびセキュリティ監視のアプリケーションに不可欠な機能です。
- タスク固有の改善: 標準的な検出を超えて、YOLO26はセグメンテーション用のマルチスケールプロトタイピング、姿勢推定用のRLE、および方向付き境界ボックス (OBB)用の特定の角度損失を含む、多様なタスクに対する調整済みの拡張機能を備えています。
Link to this section理想的なユースケース#
適切なアーキテクチャを選択するかどうかは、ターゲットとなる展開環境とプロジェクトの制約に完全に依存します。
DAMO-YOLOを選択すべき場合:
- パラメータ数を極めて低く抑える必要がある(例:マイクロコントローラのような)リソースが制限された非常に制約の厳しいエッジ環境で作業している場合。
- Alibabaの独自クラウドサービスと特に統合された自動機械学習パイプラインを利用している場合。
YOLOv7を選択すべき場合:
- アンカーベースの高精度推論用に既に最適化されたレガシーGPUパイプラインがある場合。
- You are operating in environments where real-time accuracy is paramount, such as high-speed autonomous vehicles or advanced robotics.
YOLO26を選択すべき場合 (推奨):
- You are building a new computer vision application from scratch and need the absolute state-of-the-art in both precision and CPU/edge inference speed.
- NMS演算子の制約に対処することなく、迅速でシームレスな展開(CoreMLやTensorRTへのエクスポートなど)が必要な場合。
- クラウドトレーニング、データセット管理、および自動展開のためにUltralytics Platformの全機能を利用したい場合。
Ultralyticsモデルの堅牢なエコシステムを活用することで、開発者はエンジニアリング時間を劇的に短縮しつつ、現実世界のアプリケーションで最高レベルの予測性能を確保できます。