YOLOv7 対 DAMO-YOLO: 詳細な技術比較
適切な物体検出モデルの選択は、あらゆるコンピュータビジョンプロジェクトにおいて非常に重要なステップです。多くの場合、その決定には、精度、速度、計算コストのトレードオフが伴います。このページでは、リアルタイム物体検出に大きく貢献した2つの強力なモデルであるYOLOv7とDAMO-YOLOの詳細な技術比較を提供します。アーキテクチャの違い、パフォーマンス指標、および特定のニーズに合わせて情報に基づいた意思決定を行うのに役立つ理想的なユースケースについて説明します。
YOLOv7:高精度と高速性
YOLOv7は、計算コストを増加させることなく、トレーニング効率と推論速度の両方を最適化することにより、リアルタイム物体検出器の新たな基準を確立する、YOLOファミリーの主要な進歩として発表されました。
著者: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
所属: Institute of Information Science, Academia Sinica, Taiwan
日付: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
ドキュメント: https://docs.ultralytics.com/models/yolov7/
アーキテクチャと主な機能
YOLOv7 は、最先端の性能を達成するために、いくつかのアーキテクチャの革新を導入しました。主要なコンポーネントは、モデルのバックボーンにある Extended Efficient Layer Aggregation Network (E-ELAN) であり、勾配パスを中断することなく、多様な特徴を学習するネットワークの能力を高めます。このモデルは、連結ベースのアーキテクチャに合わせて調整された高度なモデルスケーリング技術も採用しています。
最も重要な貢献の一つは、「trainable bag-of-freebies」という概念です。これは、推論コストを増やすことなく精度を向上させるトレーニング戦略を指します。これには、より深い教師あり学習のための補助ヘッドの使用や、粗から密へのリード誘導型トレーニングが含まれます。YOLOv7の論文で詳しく説明されているこれらの技術により、モデルは標準的なベンチマークで目覚ましい結果を達成できます。
パフォーマンスとユースケース
YOLOv7はリリースされると、速度と精度の間で卓越したバランスを示しました。リアルタイムビデオ分析、自動運転システム、高解像度の産業検査など、高速な検出と高精度が要求されるシナリオで優れています。たとえば、スマートシティアプリケーションでは、YOLOv7を高度な交通管理や、セキュリティシステムでの即時の脅威検出に利用できます。
長所
- 優れた精度と速度のトレードオフ: mAPと推論速度の強力な組み合わせを提供し、リアルタイムタスクに非常に効果的です。
- Efficient Training: 推論中に計算量を増やすことなく、パフォーマンスを向上させる高度なトレーニング戦略を活用しています。
- 実績ある性能: MS COCOのような標準的なデータセットで確立され、十分に文書化された結果が得られています。
弱点
- アーキテクチャの複雑さ: E-ELANと様々な学習テクニックの組み合わせは、理解および修正が複雑になる可能性があります。
- リソース集約型の学習: 推論は高速ですが、大規模なYOLOv7モデルの学習にはかなりのGPUリソースが必要です。
- 汎用性の制限: 主に物体検出用に設計されており、統合されたマルチタスク機能を備えた新しいモデルとは異なり、他のタスクのためのコミュニティ主導の拡張機能があります。
DAMO-YOLO:エッジ向けのスピードと効率
Alibaba Groupによって開発されたDAMO-YOLOは、広範なハードウェアで最適なパフォーマンスを発揮するように設計されたオブジェクト検出モデルであり、特にエッジデバイスでの速度と効率に重点を置いています。
著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
所属: Alibaba Group
日付: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO
アーキテクチャと主な機能
DAMO-YOLOは、その優れた速度を実現するために、いくつかの新しい技術を導入しています。これは、ニューラルアーキテクチャ検索(NAS)を通じて生成されたバックボーンを利用しており、その結果、GiraffeNetと呼ばれる非常に効率的な特徴抽出器が実現しました。ネットワークのネックは効率的なRepGFPNであり、特徴融合機能と低い計算コストのバランスを取っています。
際立った特徴は ZeroHead であり、これは分類と回帰のためのパラメータを持たない簡素化された検出ヘッドであり、計算オーバーヘッドを大幅に削減します。さらに、DAMO-YOLO は動的なラベル割り当てのために AlignedOTA を採用し、ナレッジ蒸留を使用して小型モデルの性能を向上させ、高速かつ正確にしています。
パフォーマンスとユースケース
DAMO-YOLOの主な強みは、特に小型のバリアント(DAMO-YOLO-T/S)における、その卓越した推論速度です。これにより、モバイルアプリケーション向けのオンデバイス処理、産業オートメーションにおけるリアルタイム監視、ロボティクスなど、低遅延が重要な要件となるアプリケーションに最適な候補となります。そのスケーラビリティにより、開発者は強力なクラウドサーバーからリソース制約のあるエッジプラットフォームまで、特定のハードウェア制約に適合するモデルを選択できます。
長所
- 卓越した推論速度: 小型モデルは、利用可能な最速のオブジェクト検出器の1つであり、低レイテンシ要件に最適です。
- スケーラブルなアーキテクチャ: さまざまな計算予算に適合する幅広いモデル(Tiny、Small、Medium、Large)を提供します。
- 革新的な設計: NAS搭載のバックボーン、効率的なネック、およびパラメータフリーのヘッドのような最先端のアイデアを取り入れています。
弱点
- 大規模モデルの精度: 競争力はありますが、最大のDAMO-YOLOモデルは、YOLOv7のハイエンドバリアントのピーク精度に達しない可能性があります。
- エコシステムとサポート: 研究主導型のプロジェクトであるため、市販のフレームワークと同じレベルの包括的なドキュメント、コミュニティサポート、または統合ツールがない場合があります。
直接対決比較: YOLOv7 対 DAMO-YOLO
これら2つのモデルを直接比較すると、主な違いは設計思想にあります。YOLOv7は、mAPを最大化するために複雑なトレーニング戦略を活用し、リアルタイム検出器として可能なことの限界を押し広げています。対照的に、DAMO-YOLOはアーキテクチャの効率と生の推論速度を優先しており、その小型モデルは信じられないほど高速ですが、多くの場合、より大きく、より複雑なモデルと比較して、精度が数ポイント低下します。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Ultralytics YOLOモデルがより良い選択である理由
YOLOv7とDAMO-YOLOはいずれも強力なモデルですが、より最新の統合された、ユーザーフレンドリーなエクスペリエンスを求める開発者や研究者は、Ultralytics YOLOv8や最新のUltralytics YOLO11のような人気のあるモデルを含む、Ultralytics YOLOエコシステムを検討する必要があります。これらのモデルは、いくつかの重要な利点を提供します。
- 使いやすさ: Ultralyticsモデルは、合理化されたユーザーエクスペリエンスを念頭に置いて設計されており、シンプルなPython APIとCLIを備えています。これは、充実したドキュメントと多数のガイドによってサポートされており、簡単に始めることができます。
- 適切に管理されたエコシステム: トレーニングからデプロイメントまで、アクティブな開発、強力なオープンソースコミュニティ、およびエンドツーエンドのMLOpsのためのUltralytics HUBのようなツールとのシームレスな統合を活用できます。
- パフォーマンスのバランス: Ultralyticsモデルは、速度と精度の間で優れたトレードオフを実現しており、幅広い現実世界のシナリオに適しています。
- メモリ効率: Ultralytics YOLOモデルは、効率的なメモリ使用のために最適化されており、多くの場合、他のアーキテクチャと比較して、トレーニングおよび推論に必要なCUDAメモリが少なくなります。
- 多様性: YOLOv8やYOLO11のようなモデルは、真のマルチタスクソリューションであり、単一の統一されたフレームワーク内で、検出、セグメンテーション、分類、ポーズ推定、傾斜物体検出(OBB)をサポートします。
- 学習効率: 効率的な学習プロセス、すぐに利用できる事前学習済みの重み、およびより速い収束時間を活用できます。
結論
DAMO-YOLOとYOLOv7はどちらも、物体検出における重要な進歩を表しています。DAMO-YOLOは、特に小型のバリアントで推論速度に優れており、エッジデバイスや低遅延を優先するアプリケーションに最適です。YOLOv7は、可能な限り最高のmAPを達成することが重要なシナリオに特に適しており、優れたリアルタイムパフォーマンスを維持しながら、精度の限界を押し広げています。
ただし、開発者は、Ultralytics エコシステム内のモデル(YOLOv8 や最新の YOLO11 など)も検討するかもしれません。これらのモデルは、多くの場合、パフォーマンス、使いやすさ、広範なドキュメント、効率的なトレーニング、より少ないメモリ要件、および適切にメンテナンスされたエコシステムと活発なコミュニティサポートによって支えられた、複数のビジョンタスクにわたる汎用性の優れたバランスを提供します。
その他のモデルを見る
DAMO-YOLOおよびYOLOv7に関心のあるユーザーは、以下のモデルも参考になるかもしれません。
- Ultralytics YOLOv5: その速度とデプロイの容易さで知られる、非常に人気があり効率的なモデル。YOLOv5のドキュメントを見る。
- Ultralytics YOLOv8: 検出、セグメンテーション、ポーズ、および分類タスクにわたって優れたパフォーマンスを提供する、汎用性の高い最先端のモデル。YOLOv8のドキュメントを見る。
- YOLOv9: 精度と効率を向上させるために、PGIやGELANなどのイノベーションを導入します。YOLOv9のドキュメントを見る。
- YOLOv10: レイテンシ削減のため、NMSフリーのエンドツーエンド検出に重点を置いています。YOLOv10とDAMO-YOLOの比較。
- RT-DETR: Transformerベースのリアルタイム検出モデル。RT-DETRとDAMO-YOLOの比較。