YOLOX 対 DAMO-YOLO:技術比較
適切な物体検出モデルの選択は、精度、推論速度、計算コストのトレードオフのバランスを取る重要な決定です。このページでは、コンピュータビジョンの分野における2つの強力なモデル、YOLOXとDAMO-YOLOとの詳細な技術的比較を提供します。アーキテクチャ設計、パフォーマンス指標、理想的なユースケースを掘り下げて、プロジェクトのニーズに最適なモデルを選択できるよう支援します。
YOLOX: High-Performance Anchor-Free Detector
YOLOXはMegvii社が開発した高性能なアンカーフリー検出器です。2021年に発表され、アンカーボックスを排除することで従来のYOLOモデルの設計を簡素化し、同時に性能を向上させ、学術研究と産業応用の間のギャップを効果的に埋めることを目指しました。
技術詳細:
- 著者: Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sun
- 組織: Megvii
- Date: 2021-07-18
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- Docs: https://yolox.readthedocs.io/en/latest/
アーキテクチャと主な機能
YOLOXは、YOLOファミリーにいくつかの重要なアーキテクチャ上のイノベーションをもたらしました。
- Anchor-Free Design: YOLOXは、定義済みのアンカーボックスを削除することで、検出パイプラインを簡素化し、調整が必要なハイパーパラメータの数を減らします。この設計により、さまざまなデータセットやオブジェクトサイズでの汎化性能が向上する可能性があります。
- Decoupled Head: 分類と回帰に結合されたヘッドを使用していた以前のYOLOモデルとは異なり、YOLOXは分離された検出ヘッドを採用しています。この分離により、2つのタスク間のミスアラインメントが解消され、精度が向上し、トレーニング中の収束が速くなると考えられています。
- 高度なトレーニング戦略: YOLOXは、MixUpやMosaicのような強力なデータ拡張技術を統合しています。また、各グラウンドトゥルースオブジェクトに最適なポジティブサンプルを選択する動的なラベル割り当て戦略であるSimOTA(Simplified Optimal Transport Assignment)を導入し、パフォーマンスをさらに向上させています。
長所と短所
長所:
- 高精度: YOLOXは、特に大規模なバリアントにおいて、競争力のあるmAPスコアを達成しています。
- パイプラインの簡素化: アンカーフリーのアプローチにより、アンカーボックスの設計と調整に伴う複雑さが軽減されます。
- 確立された成熟したモデル: 比較的古いモデルであるYOLOXは、十分に文書化された歴史を持ち、多数のサードパーティによる導入事例やチュートリアルが利用可能です。
弱点:
- 新しいモデルよりも遅い: YOLOXは当時は効率的でしたが、推論速度の点で、DAMO-YOLOやUltralytics YOLOモデルのような、より新しく高度に最適化されたアーキテクチャに追い抜かれる可能性があります。
- 外部エコシステム: YOLOXは、Ultralyticsのエコシステムにネイティブに組み込まれていません。そのため、学習の難易度が上がり、効率的なMLOpsを実現するためにUltralytics HUBのようなツールとの連携に、より多くの労力がかかる可能性があります。
- 汎用性の制限: これは主に物体検出モデルであり、最新のフレームワークにあるインスタンスセグメンテーションやポーズ推定のような他のビジョンタスクに対する組み込みサポートがありません。
ユースケース
YOLOXは、実績のある高精度な検出器が必要なアプリケーションに適しています。
- 産業オートメーション: 精度が重要な生産ラインでの品質管理などのタスク。
- 学術研究: アンカーフリー検出手法とラベル割り当て戦略の研究における強力なベースラインとして機能します。
- セキュリティと監視: 精度と速度の信頼できるバランスを必要とするセキュリティシステムに適しています。
DAMO-YOLO:高度な技術によるスピードと精度
Alibaba Groupによって開発されたDAMO-YOLOは、リアルタイム検出の最先端技術を推進するために、いくつかの新しい技術を組み込んだ、高速かつ高精度なオブジェクト検出手法です。高度なアーキテクチャコンポーネントを通じて、速度と精度の最適なバランスを実現することに重点を置いています。
技術詳細:
- 著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
- 組織: Alibaba Group
- Date: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- Docs: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
アーキテクチャと主な機能
DAMO-YOLOの優れたパフォーマンスは、最先端技術の組み合わせによって実現されています。
- NAS搭載バックボーン: Neural Architecture Search (NAS)によって生成されたバックボーンを利用しており、GiraffeNetという名前の非常に効率的な特徴抽出器を実現します。
- Efficient RepGFPN Neck: このモデルは、再パラメータ化を用いたGeneralized-FPNに基づく効率的なネック構造を組み込んでおり、最小限の計算量で異なるスケールからの特徴融合を強化します。
- ZeroHead: DAMO-YOLOは、高い精度を維持しながら、検出ヘッドのパラメータ数と計算の複雑さを劇的に削減する、軽量の結合ヘッド設計を導入します。
- AlignedOTA ラベル割り当て: 分類と回帰のアライメントの両方を考慮して最適なアンカーを選択し、トレーニングの安定性と最終的なモデルのパフォーマンスを向上させる、新しいラベル割り当て戦略を使用します。
パフォーマンス分析
下の表に示すように、DAMO-YOLOモデルは、特にGPUハードウェアにおいて、精度と速度の優れたバランスを示しています。たとえば、DAMO-YOLO-tはYOLOX-sよりも高速でありながら、より高いmAPを達成しています。この効率はモデルファミリー全体で一貫しており、多くの場合、YOLOXの対応モデルと比較して、より少ないパラメータとFLOPsでより優れたパフォーマンスを提供します。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
長所と短所
長所:
- 優れた速度と精度のトレードオフ: DAMO-YOLOは、高速なGPU推論に高度に最適化されており、リアルタイムアプリケーションに最適です。
- 効率的でモダンなアーキテクチャ: NAS、効率的なネック、軽量なヘッドを使用することで、強力でありながらリソース効率の高いモデルが実現します。
- 革新的な技術: AlignedOTAやZeroHeadのような機能は、オブジェクト検出器設計の最先端を表しています。
弱点:
- タスク特化型: YOLOXと同様に、物体検出用に設計されており、他のビジョンタスクに対するすぐに使えるサポートを提供しません。
- 統合の労力: 外部プロジェクトとして、本番パイプラインへの手動統合が必要であり、統一されたエコシステムの広範なサポートとツールがありません。
ユースケース
DAMO-YOLOは、GPU上での高速かつ正確な検出が優先されるシナリオに最適です。
- リアルタイムビデオ分析: スマートシティや小売分析におけるアプリケーションのためのライブビデオフィードの監視。
- 自律システム: 低遅延性が不可欠な自動運転車やロボティクスに認識機能を提供。
- クラウドベースの Vision サービス: 大量の画像やビデオストリームを効率的に処理する必要がある、スケーラブルな AI サービスを強化します。
Ultralytics YOLOモデルが推奨される選択である理由
YOLOXとDAMO-YOLOはいずれも強力なオブジェクト検出器ですが、YOLOv8や最新のUltralytics YOLO11のようなUltralytics YOLOモデルは、より全体的で開発者にとって使いやすいソリューションを提供します。パフォーマンス、汎用性、使いやすさの優れた組み合わせを提供し、幅広いプロジェクトに推奨される選択肢となっています。
- 使いやすさ: Ultralyticsモデルは、合理化されたPython API、充実したドキュメント、およびシンプルなCLIコマンドを備えており、開発とデプロイメントの時間を大幅に短縮します。
- 充実したエコシステム: 活発な開発、強力なコミュニティサポート、頻繁なアップデート、エンドツーエンドのトレーニングとデプロイメントのためのUltralytics HUBとのシームレスな統合が利用できます。
- パフォーマンスのバランス:Ultralyticsのモデルは、速度と精度の間で優れたトレードオフを提供するように設計されており、エッジデバイスからクラウドサーバーまで、あらゆるものに適しています。
- 多様性: シングルタスクモデルとは異なり、Ultralytics YOLOv8およびYOLO11は、検出、セグメンテーション、分類、ポーズ推定、傾斜物体検出など、幅広い種類の画像処理タスクを単一の統合フレームワーク内でサポートします。
- Training Efficiency: 効率的なトレーニングプロセス、COCOなどのデータセットですぐに利用できる事前学習済みウェイト、およびより高速な収束により、開発者は少ない労力で最先端の結果を達成できます。
- メモリ要件が低い: Ultralytics YOLOモデルは、トレーニングと推論の両方でメモリ効率が高くなるように設計されており、他のアーキテクチャよりも必要なCUDAメモリが少ないことがよくあります。
結論
YOLOXとDAMO-YOLOはどちらも強力なオブジェクト検出モデルです。YOLOXは、多くのアプリケーションで実績のある、堅牢なアンカーフリーの基盤を提供します。DAMO-YOLOは、最新のアーキテクチャの革新により、速度と効率の限界を押し広げ、高スループットのGPUアプリケーションに最適です。
ただし、最上位のパフォーマンスと比類のない使いやすさ、汎用性、および堅牢なサポートエコシステムを兼ね備えた包括的なソリューションを求めている開発者および研究者にとって、YOLOv8 や YOLO11 のような Ultralytics モデルは、優れた選択肢として際立っています。複数のタスクに対応する統一されたフレームワークと合理化されたワークフローにより、これらは次世代の AI 搭載ビジョンアプリケーションを構築するための理想的なプラットフォームとなっています。
その他のモデル比較
YOLOXとDAMO-YOLOと他の主要モデルとの比較にご興味があれば、ドキュメントにある以下の比較をご覧ください。
- YOLOv8 vs. DAMO-YOLO
- YOLOv10 vs. DAMO-YOLO
- RT-DETR vs. DAMO-YOLO
- YOLOX vs. YOLOv8
- YOLOX 対 RT-DETR
- YOLOX 対 YOLOv10