DAMO-YOLOとYOLOX:技術比較
適切な物体検出モデルの選択には、精度、速度、およびデプロイメントの複雑さのトレードオフが伴います。このページでは、コンピュータビジョンの分野における2つの強力なモデル、DAMO-YOLOとYOLOXの詳細な技術的比較を提供します。どちらのモデルもYOLOファミリーに大きな革新をもたらしましたが、異なる優先順位とユースケースに対応しています。アーキテクチャ、パフォーマンス指標、および理想的なアプリケーションを詳しく調べて、情報に基づいた意思決定を支援します。
DAMO-YOLO:高速かつ高精度な検出器
DAMO-YOLOは、Alibaba Groupによって開発された高性能な物体検出モデルです。特にGPUデバイス上で、速度と精度の優れたバランスを実現するために、一連の高度なテクノロジーを導入しています。このモデルは、ニューラルアーキテクチャ検索(NAS)を活用して、コンポーネントを最適化し、最大限の効率を実現しています。
技術詳細:
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織: Alibaba Group
- Date: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- Docs: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
アーキテクチャと主な機能
DAMO-YOLOのアーキテクチャは、いくつかの重要な技術革新に基づいて構築されています。
- NAS搭載バックボーン: DAMO-YOLOは、手動で設計されたバックボーンの代わりに、Neural Architecture Search (NAS)を使用して生成されたGiraffeNetと呼ばれるバックボーンを採用しています。これにより、ネットワークは効率に合わせた特徴抽出に最適な構造を見つけることができます。
- Efficient RepGFPN Neck: このモデルは、NASによって最適化された効率的なネック構造RepGFPNを使用します。このコンポーネントは、バックボーンの異なるスケールからの特徴を融合する役割を担っており、その設計は、低い計算コストで高いパフォーマンスを達成することに重点を置いています。
- ZeroHead: DAMO-YOLOは、精度を犠牲にすることなく、分類タスクと回帰タスクに必要なレイヤーとパラメータの数を削減するZeroHeadを導入することにより、検出ヘッドを簡素化します。
- AlignedOTA ラベル割り当て: AlignedOTAと呼ばれる高度なラベル割り当て戦略を使用します。これは、分類タスクと回帰タスクの整合性を高めることにより、以前の方法を改善し、より正確な予測につながります。
長所
- 優れた速度と精度のトレードオフ: DAMO-YOLOは、特に最新のGPU上で、非常に高速な推論速度で高い精度を提供することに優れています。
- 革新的なアーキテクチャ: バックボーンとネックの両方にNASを使用することは、モデル設計に対する先進的なアプローチを示しており、自動機械学習の限界を押し広げています。
- スケーラブルなモデル: モデルファミリー(Tiny、Small、Medium、Large)を提供し、開発者は特定のニーズに合わせてパフォーマンスとリソース使用率の適切なバランスを選択できます。
弱点
- GPU中心の最適化: このモデルはGPU推論に高度に最適化されており、CPUパフォーマンスは重視されていません。そのため、一部のエッジコンピューティングのシナリオでは制約となる可能性があります。
- エコシステムとサポート: 外部リポジトリのモデルであるため、Ultralyticsエコシステム内にあるシームレスな統合、広範なドキュメント、および活発なコミュニティサポートがありません。
- タスクの特異性: DAMO-YOLOは主に物体検出用に設計されており、セグメンテーションや姿勢推定のような他のビジョンタスクをネイティブにサポートしていません。
ユースケース
DAMO-YOLOは、GPUハードウェア上でのリアルタイム性能が重要なアプリケーションに最適な選択肢です。
- クラウドベースの Vision サービス: 分析および監視のための大量のビデオストリームの処理。
- 産業オートメーション: 製造ラインにおける高速品質管理と欠陥検出に。
- リアルタイム監視: 高速かつ正確な物体検出を必要とするセキュリティシステムを強化します。
YOLOX:アンカーフリーで高性能な代替手段
Megviiによって開発されたYOLOXは、アンカーフリー設計を導入することにより、YOLOモデルの進化における重要なステップでした。この検出パイプラインの簡素化は、性能を向上させ、アンカーボックスの調整に関連する複雑さを軽減することを目的としていました。
技術詳細:
- 著者: Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sun
- 組織: Megvii
- Date: 2021-07-18
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- Docs: https://yolox.readthedocs.io/en/latest/
アーキテクチャと主な機能
YOLOXは、いくつかの重要なアーキテクチャ上の決定によって特徴付けられます。
- Anchor-Free Design: YOLOXは、定義済みのアンカーボックスを排除することで、トレーニングプロセスを簡素化し、ハイパーパラメータの数を減らすため、より優れた汎化性能につながる可能性があります。
- Decoupled Head: 分類タスクとローカリゼーションタスクに別々のヘッドを使用します。この分離により、結合されたヘッドに存在するミスアラインメントの問題が解消され、精度と収束速度が向上することがわかりました。
- SimOTA ラベル割り当て: YOLOXは、割り当てプロセスを最適な輸送問題として扱い、ポジティブサンプルを動的に割り当てるSimOTAと呼ばれる高度なラベル割り当て戦略を導入し、より良いパフォーマンスを実現しました。
- 強力なデータ拡張: このモデルは、MixUpやMosaicのような強力なデータ拡張に依存して、その堅牢性と精度を向上させています。
長所
- 高精度: YOLOXは競争力のあるmAPスコアを達成しており、最大のバリアント(YOLOX-X)は、COCOデータセットで51%を超えるmAPに達しています。
- パイプラインの簡素化: アンカーフリーのアプローチにより、従来のアンカーベースの検出器と比較して、モデルの理解と実装が容易になります。
- 確立され、十分に文書化されている: 比較的古いモデルであるYOLOXには、コミュニティリソース、チュートリアル、導入事例が豊富に存在します。
弱点
- 推論が遅い: DAMO-YOLOのようなより新しいモデルと比較して、YOLOXは、特定のレベルの精度に対して推論速度が遅くなる可能性があり、特に大規模なバリアントで顕著です。
- 外部エコシステム: 統合されたUltralyticsエコシステムの一部ではないため、ユーザーは合理化されたワークフロー、Ultralytics HUBなどのツール、および統合されたサポートを利用できません。
- 汎用性の制限: DAMO-YOLOと同様に、YOLOXは主に物体検出に焦点を当てており、他のコンピュータビジョンタスクに対するネイティブサポートがありません。
ユースケース
YOLOXは、高い精度が最優先事項であり、アンカーフリー設計が有益なアプリケーションに適しています。
- 自動運転: 正確な物体検出を必要とする自動運転車の認識システム。
- 高度なロボティクス: ロボットが複雑で構造化されていない環境をナビゲートし、インタラクションすることを可能にします。
- 研究開発: アンカーフリー検出法に関する学術および産業研究のための強力なベースラインとして機能します。
性能分析:DAMO-YOLO vs. YOLOX
以下の表は、COCO valデータセットでベンチマークされた、DAMO-YOLOとYOLOXのさまざまなサイズのモデルの詳細な性能比較を示しています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
データから、いくつかの結論を導き出すことができます。
- DAMO-YOLOは一般的に、速度と精度のパレートフロントにおいて優れています。例えば、DAMO-YOLOは3.45msで46.0 mAPを達成していますが、YOLOXmは同様の46.9 mAPを達成するのに5.43msと時間がかかります。
- YOLOXは、YOLOX-xモデル(51.1 mAP)でより高いピーク精度にスケールしますが、これはパラメータ、FLOP、およびレイテンシの点で大きなコストを伴います。
- 軽量モデルに関しては、YOLOX-NanoがパラメータとFLOPの点で最も効率的ですが、入力解像度は低くなっています。
- DAMO-YOLOは、同等のモデルサイズ全体で優れたGPUレイテンシを示しており、NVIDIAハードウェアでのリアルタイムアプリケーションにとってより強力な候補となっています。
Ultralyticsの利点:優れた代替手段
DAMO-YOLOとYOLOXはいずれも強力なモデルですが、パフォーマンス、使いやすさ、汎用性の最適な組み合わせを求める開発者や研究者は、Ultralytics YOLOのエコシステム、例えばYOLOv8や最新のYOLO11のモデルを検討する必要があります。
Ultralyticsモデルは、いくつかの重要な利点を提供します。
- 使いやすさ: 合理化されたPython API、豊富なドキュメント、および簡単なトレーニングとデプロイメントのワークフローにより、非常に簡単に始めることができます。
- 適切に管理されたエコシステム: アクティブな開発、GitHubを介した強力なコミュニティサポート、頻繁なアップデート、およびデータセット管理とトレーニングのためのUltralytics HUBのようなツールとのシームレスな統合を活用できます。
- パフォーマンスのバランス:Ultralyticsのモデルは、推論速度(CPUとGPUの両方)と精度の間で優れたトレードオフを実現するために高度に最適化されており、エッジデバイスからクラウドサーバーまで、幅広い展開シナリオに適しています。
- メモリ効率: Ultralytics YOLOモデルは、通常、より複雑なアーキテクチャと比較して、トレーニングおよび推論に必要なメモリが少ないため、低スペックのハードウェアでの開発が可能です。
- 多様性: インスタンスセグメンテーション、画像分類、ポーズ推定、傾斜バウンディングボックス(OBB)など、検出以外の複数のタスクをネイティブにサポートします。
- Training Efficiency: 高速な学習時間と、COCOのような多様なデータセットですぐに利用できる事前学習済みの重みにより、プロジェクトのタイムラインが加速されます。
結論
DAMO-YOLOとYOLOXはどちらも、この分野を前進させた強力な物体検出モデルです。DAMO-YOLOは、その卓越したGPU速度と革新的なNASベースの設計により、高スループットのリアルタイムシステムに最適です。YOLOXは、堅牢で高精度なアンカーフリーの代替手段を提供し、研究と産業の両方でその価値を証明しています。
しかし、ほとんどの開発者や研究者にとって、YOLO11のようなUltralytics YOLOモデルは、最も魅力的な全体的なパッケージとなります。最先端のパフォーマンスと、比類のない使いやすさ、マルチタスクの汎用性、および活発で十分にサポートされているエコシステムを組み合わせます。この全体的なアプローチにより、Ultralyticsモデルは、実用的で高性能、スケーラブルなコンピュータビジョンソリューションを構築するための推奨される選択肢となります。
その他のモデルを見る
さらに比較に関心のあるユーザーは、DAMO-YOLOとYOLOXが他の最先端モデルと比べてどうであるかを知りたいと思うかもしれません。
- YOLOv8 vs. DAMO-YOLO
- YOLO11 vs. DAMO-YOLO
- RT-DETR vs. DAMO-YOLO
- YOLOv8 vs. YOLOX
- YOLOv9 vs. YOLOX
- EfficientDet vs. YOLOX