Link to this sectionYOLOv7 と DAMO-YOLO の比較#
リアルタイム物体検出の分野は絶えず進化しており、研究者やエンジニアは速度と精度の最適なバランスを追求しています。この技術比較では、2022年に登場した注目すべき2つのアーキテクチャ、YOLOv7 と DAMO-YOLO を深く掘り下げます。両モデルはコンピュータビジョンコミュニティに新しいコンセプトを導入し、モデルの学習、アーキテクチャ設計、およびデプロイにおける異なる課題に対処しています。
Link to this sectionモデルの背景と技術的詳細#
アーキテクチャの詳細に入る前に、これら2つのモデルの起源を理解することが重要です。どちらも主要な研究グループによって開発され、リアルタイム物体検出の境界を押し広げるための高度な手法を導入しました。
Link to this sectionYOLOv7の詳細#
YOLO ファミリーの継続として開発された YOLOv7 は、推論コストを増加させることなく精度を大幅に向上させる、学習可能な「bag-of-freebies」というコンセプトを導入しました。
- 著者: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
- 組織: 台湾 中央研究院 情報科学研究所
- 日付: 2022-07-06
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- Docs: https://docs.ultralytics.com/models/yolov7/
Link to this sectionDAMO-YOLOの詳細#
Alibaba Group の研究者によって作成された DAMO-YOLO は、様々なハードウェア向けに高効率なモデルを構築するために、Neural Architecture Search (NAS) と高度な知識蒸留に重点を置いています。
- 著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
- 組織: Alibaba Group
- 日付: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
Link to this sectionアーキテクチャの革新#
Link to this sectionYOLOv7: 勾配パス解析と再パラメータ化#
YOLOv7 は Extended Efficient Layer Aggregation Networks (E-ELAN) に大きく焦点を当てています。著者はネットワークの勾配パスを解析することで E-ELAN を設計し、元の勾配パスを劣化させることなくネットワークが学習を継続できるようにしました。さらに、YOLOv7 は推論中にモデルの再パラメータ化を効果的に活用し、レイヤーをシームレスに融合することで FLOPs を削減し、実行時間を短縮します。これにより、最新の GPU 上での リアルタイム推論 において非常に優れた能力を発揮します。
Link to this sectionDAMO-YOLO: Neural Architecture Search と RepGFPN#
DAMO-YOLO は、レイテンシ制約下での Neural Architecture Search (NAS) を強力に活用するという点で異なります。MAE-NAS と呼ばれるフレームワークを利用して、モバイルデバイスや特定のエッジアクセラレータなど、特定のハードウェアに合わせた最適なバックボーンを見つけ出します。ネック部分には効率的な RepGFPN (Rep-parameterized Generalized Feature Pyramid Network) を導入し、予測ヘッドにおける計算負荷を最小限に抑えるために ZeroHead 設計を採用しています。
YOLOv7 が強力な固有のアーキテクチャ最適化に依存している一方で、DAMO-YOLO は複雑な多段階の知識蒸留プロセスに大きく依存しています。大規模な教師モデルを学習させて知識を小さな生徒モデルに蒸留する必要があり、学習フェーズにおいて計算コストが高くなる可能性があります。
Link to this sectionパフォーマンスと指標の比較#
これらのモデルを比較する際は、mAP (Mean Average Precision)、推論速度、およびモデルの複雑さに注目することが重要です。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
上記の表は、YOLOv7 が高精度な領域 (YOLOv7x) へと良好にスケールすることを示している一方、DAMO-YOLO は制約のある環境向けに高度に最適化された小型モデルを提供していることを示しています。
Link to this sectionトレーニングの効率とメモリ要件#
これら2つのアーキテクチャの大きな違いは、その学習手法にあります。DAMO-YOLO の蒸留への依存は、ゼロから新しいモデルを学習したり、カスタムコンピュータビジョンデータセット でファインチューニングを行う際に、多くの場合、より多くの VRAM と GPU コンピューティング 時間を必要とすることを意味します。
対照的に、YOLOv7 やそれ以降のバージョンなど、Ultralytics エコシステムに統合されたモデルは、メモリ要件 に対して高度に最適化されています。これにより、開発者はメモリ不足エラーを発生させることなくコンシューマー向けハードウェアで大きなバッチサイズを利用でき、実験トラッキング や反復プロセスが簡素化されます。
Link to this sectionUltralyticsの利点#
YOLOv7 と DAMO-YOLO の両方が魅力的な機能を提供していますが、Ultralytics エコシステム 内でモデルをデプロイすることで、比類のない開発者体験が得られます。
- 使いやすさ: Ultralytics Python パッケージは、統合されたシンプルな API を提供します。モデルアーキテクチャの切り替え、学習ループ の開始、あるいは数行のコードでの 推論 実行を迅速に行うことができます。
- 適切にメンテナンスされたエコシステム: Ultralytics は頻繁なアップデートを提供しており、最新の PyTorch リリースや CUDA ドライバとのネイティブな互換性を確保しています。また、モデルを ONNX、TensorRT、OpenVINO などのフォーマットへエクスポートすることも簡素化します。
- 汎用性: 単なる物体検出器である DAMO-YOLO とは異なり、Ultralytics エコシステムは多様なタスクをネイティブにサポートしています。Ultralytics ファミリーのモデルは、標準的なバウンディングボックス検出、姿勢推定、インスタンスセグメンテーション、および 指向性バウンディングボックス (OBB) を実行できます。
Link to this sectionコード例: すばやく始める#
Ultralytics モデルを使用して、ロード、学習、推論を実行する手順は以下の通りです。
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model (or newer models like yolo26n.pt)
model = YOLO("yolov7.pt")
# Train the model on the COCO8 dataset with automated hyperparameter handling
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX format for deployment
model.export(format="onnx")Ultralytics を使用すれば、学習済みウェイトを様々なハードウェア加速フォーマット(TensorRT や CoreML など)にエクスポートする作業は、エクスポートコマンド内の単一の引数で処理されるため、複雑なスクリプト設定にかかる時間を削減できます。
Link to this section次世代: YOLO26#
YOLOv7 は依然として強力なレガシーアーキテクチャですが、この分野は急速に進歩しています。新規デプロイメントには、2026年1月にリリースされた Ultralytics YOLO26 が推奨標準であり、ほぼすべての指標において以前の世代を凌駕しています。
- エンドツーエンドの NMS フリー設計: YOLOv10 で初めて開拓された YOLO26 は、Non-Maximum Suppression (NMS) 後処理をネイティブに排除します。これにより、ロボティクスや自動運転技術に不可欠な、決定的かつ超低遅延の推論が保証されます。
- MuSGD オプティマイザー: 高度な LLM 学習技術(Moonshot AI の Kimi K2 など)から着想を得たこのハイブリッドオプティマイザーは、SGD と Muon を組み合わせることで、非常に安定した学習とデータセット全体でのより高速な収束を実現します。
- 最大 43% 高速な CPU 推論: Distribution Focal Loss (DFL) を戦略的に削除することで、YOLO26 はエッジコンピューティングプラットフォームおよび CPU 上でのパフォーマンスを大幅に向上させます。
- ProgLoss + STAL: これらの高度な損失関数は、小さなオブジェクトの検出において大幅な改善をもたらし、YOLO26 を 航空画像 や詳細な監視に非常に適したものにしています。
Link to this section理想的なユースケース#
Link to this sectionDAMO-YOLOを選択すべきケース#
- NAS における学術研究: 組織が Neural Architecture Search 手法の研究に多大な投資を行っている場合。
- 特定のハードウェア上での極限レイテンシ: カスタム AI アクセラレータチップ向けに調整されたバックボーンを見つけるために、網羅的な NAS 探索を実行するリソースがある場合。
Link to this sectionYOLOv7を選択すべき時#
- 既存の GPU パイプライン: ハイエンドの NVIDIA ハードウェア上で YOLOv7 特有の E-ELAN アーキテクチャに合わせて深く最適化された、レガシーな本番パイプラインを維持しているチームの場合。
Link to this section最新の Ultralytics モデル (YOLO11 / YOLO26) へ移行すべき理由#
小売分析 や スマート製造 からヘルスケアに至るまで、圧倒的多数のエンタープライズアプリケーションにおいて、最新の Ultralytics モデルは比類のないものです。Ultralytics Platform との統合は、完全な ML パイプラインを提供し、使いやすさ、優れたドキュメント、堅牢なコミュニティサポート、そしてマルチタスクの汎用性を提供します。Raspberry Pi での在庫追跡であれ、クラウドでの大規模な分析実行であれ、YOLO26 のようなモデルはコンピュータビジョンの未来にとって理想的なパフォーマンスバランスを提供します。