DAMO-YOLO 対YOLOv7:詳細な技術比較
物体検出に最適なアーキテクチャを選択することは、コンピュータビジョン開発において極めて重要な決定である。その選択には、導入ハードウェアの制約を考慮しつつ、検出精度に対する推論レイテンシのバランスを取ることがしばしば必要となる。この技術比較では、2022年にリリースされ、リアルタイム検出の限界を押し広げた2つの有力モデルであるDAMO-YOLO YOLOv7検証する。アーキテクチャの革新性、ベンチマーク性能、理想的なアプリケーションシナリオを分析し、モデル選択プロセスをナビゲートします。
DAMO-YOLO:エッジ効率のためのニューラル・アーキテクチャ探索
DAMO-YOLO 、アリババ・グループによって、産業用アプリケーションのパフォーマンスを最大化することに重点を置いて開発された。DAMO-YOLO は、バックボーンの設計を自動化するためにニューラル・アーキテクチャー・サーチ(NAS)を組み込んでおり、最適な効率を保証している。
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織アリババグループ
- Date: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
- ドキュメントhttps://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
建築イノベーション
DAMO-YOLO 、高精度を維持しながら計算オーバーヘッドを削減することを目的としたいくつかの最先端技術を導入している:
- MAE-NASバックボーン(GiraffeNet):従来の手動設計バックボーンとは異なり、DAMO-YOLO MAE(Method-Aware Efficiency)NASアプローチを採用しています。この結果、GiraffeNetと名付けられたバックボーン・シリーズが生まれ、さまざまなハードウェア制約の下で、浮動小数点演算(FLOPs)とレイテンシの優れたトレードオフを実現します。
- 効率的なRepGFPN:このモデルは、再パラメータ化によって最適化された一般化特徴ピラミッドネットワーク(GFPN)を特徴としています。この "RepGFPN "は、標準的なFPNに関連する重い計算コストをかけることなく、様々な大きさの物体を検出するために不可欠な、効率的なマルチスケール特徴フュージョンを可能にします。
- ZeroHead:斬新な "ZeroHead "デザインにより、検出ヘッドを大幅に簡素化。分類と回帰のタスクを切り離し、複雑な特定レイヤーを削除することで、推論中のヘッドのパラメータ数をゼロにし、メモリを節約して速度を向上させる。
- AlignedOTA:学習の安定性と精度を向上させるために、DAMO-YOLO AlignedOTAを採用している。AlignedOTAは、分類信頼度と回帰精度の間のズレ問題を解決する動的ラベル割り当て戦略である。
強みと使用例
DAMO-YOLO レイテンシーが重要な環境で優れている。その小型のバリエーション(Tiny/Small)は、エッジAIの展開に特に効果的です。
- 産業用オートメーション:ミリ秒単位の高速組立ラインに最適です。
- モバイルアプリケーション:パラメータ数が少ないため、計算能力の限られたスマートフォンでの実行に適している。
YOLOv7:リアルタイム精度の最適化
DAMO-YOLO少し前にリリースされたYOLOv7、5 FPSから160 FPSの範囲で最先端の性能の新たなベンチマークを設定した。YOLOv7は、推論コストを増加させることなく高精度を達成するため、学習プロセスと勾配フローの最適化に重点を置いた。
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織台湾中央研究院情報科学研究所
- Date: 2022-07-06
- Arxiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7
- ドキュメントhttps://docs.ultralytics.com/models/yolov7/
建築イノベーション
YOLOv7 、推論モデルの構造に影響を与えることなく、トレーニング中の精度を向上させる「bag-of-freebies」手法を導入した:
- E-ELAN(Extended Efficient Layer Aggregation Network):このアーキテクチャは最短と最長の勾配パスを制御し、ネットワークがより多様な特徴を学習できるようにする。元の勾配パスの状態を破壊することなく、「カーディナリティ」の学習能力を向上させる。
- 連結ベースのモデルのスケーリング: YOLOv7 、連結ベースのアーキテクチャに対して、深さと幅を同時にスケーリングする複合スケーリング手法を提案し、パラメータの最適な利用を保証する。
- トレーニング可能なBag-of-Freebies:計画的な再パラメータ化や補助的な頭部監督(coarse-to-fine)などのテクニックが使用される。これらは学習時にはモデルのロバスト性と精度を向上させるが、推論時にはマージまたは破棄され、モデルの高速性を維持する。
強みと使用例
YOLOv7 、MSCOCOような標準的なデータセットで優れた平均精度(mAP)を提供する、汎用的な物体検出のための強力なツールです。
- スマートシティの監視精度が高いため、複雑な都市環境での歩行者や車両の検知に信頼性が高い。
- 自律システム:高解像度入力が有効な、より長い距離で信頼性の高い検出を必要とするロボットやドローンに適している。
パフォーマンス比較
以下の表は、YOLO -YOLOとYOLOv77の性能を対比したものである。DAMOYOLO YOLOは、そのサイズの割に低レイテンシー(高速)を達成することが多いが、YOLOv7 一般に、特にその大型構成において、精度に対する高い評価を維持している。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
このデータは、非常に制約の多い環境では、YOLO-YOLOが非常に軽量なソリューションを提供することを示している(小さなバージョンで8.5Mのパラメータ)。しかし YOLOv7は、計算コストは高くなるものの、X-variantで53.1%mAP達成し、精度の限界を押し上げています。
アーキテクチャのトレードオフ
DAMO-YOLONASベースのバックボーンがレイテンシーに特化して最適化されているのに対し、YOLOv77の手動アーキテクチャ設計は勾配フローの効率に重点を置いている。理論上のFLOPsが実際の推論スピードと完全に相関するとは限らないため、ユーザーは特定のハードウェアで両方のベンチマークを取る必要がある。
Ultralytics 優位性アップグレードする理由
DAMO-YOLO YOLOv7 、コンピュータビジョンの歴史において重要な功績を残したが、この分野は急速に進化している。最も堅牢で、汎用性が高く、使いやすいソリューションを求める開発者のために、 Ultralytics YOLO11と YOLOv8をお勧めします。
Ultralytics モデルは、単なる研究成果物としてではなく、包括的な生産ツールとして設計されている。AI導入における「ラストワンマイル」の問題、つまり使いやすさ、統合性、保守性に対処している。
Ultralytics 主な利点
- 使いやすさ:統一されたPython APIと CLI、数行のコードで最先端のモデルをトレーニングできます。複雑な設定ファイルを手動で調整したり、依存関係に苦労したりする必要はありません。
- 整備されたエコシステム: Ultralytics 、頻繁にアップデートを行い、バグを特定し、迅速に修正することで、活発なエコシステムを提供しています。サポートは、広範なドキュメントと活発なコミュニティチャンネルを通じて、すぐに利用できます。
- パフォーマンスのバランス:こんなモデル YOLO11YOLOv7 YOLO-YOLOと比較して優れた精度対速度比を達成するために、高度なアンカーフリー検出ヘッドと最適化されたバックボーンを利用している。
- 汎用性:検出だけに限定されがちな旧モデルとは異なり、Ultralytics YOLO インスタンスのセグメンテーション、ポーズ推定、指向性オブジェクト検出(OBB)、分類をすぐにサポートします。
- トレーニングの効率化:事前に訓練された重みと最適化されたデータローダーにより、収束が早くなり、GPU 時間とエネルギーを節約できます。
from ultralytics import YOLO
# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")
# Train on COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
結論
DAMO-YOLO YOLOv7 、それぞれ異なる長所がある。DAMOYOLOYOLOは、エッジの推論速度が主な制約となるプロジェクトの有力な候補であり、NASを活用してミリ秒を削減する。 YOLOv7は、実績のあるアーキテクチャの系譜を持つ高精度検出を求める研究者にとって、堅実な選択肢である。
しかし、今日のほとんどの商業および研究用途では Ultralytics YOLOエコシステムは優れたエクスペリエンスを提供します。Ultralytics モデルは、最先端のパフォーマンスと比類のない使いやすさと多用途性を兼ね備えているため、開発者はコードのデバッグよりも価値の構築に集中することができます。クラウドサーバーにデプロイする場合でも、NVIDIA Jetsonのようなエッジデバイスにデプロイする場合でも、Ultralytics 本番環境への最も合理的なパスを提供します。
その他のモデル
物体検出のアーキテクチャを探求しているなら、これらのモデルにも興味があるかもしれない:
- Ultralytics YOLOv8:検出、セグメンテーション、ポーズタスクをサポートする汎用性の高いモデル。
- Ultralytics YOLO11: YOLO シリーズの最新進化版で、最先端の効率性を提供。
- RT-DETR: NMS 遅延を回避するリアルタイム・トランスベースの検出器。
- YOLOv9:プログラム可能な勾配情報(PGI)を搭載し、学習効果を強化。
- YOLOv10: NMSエンド・ツー・エンド・トレーニングに重点を置き、レイテンシーを短縮。