DAMO-YOLOとYOLO11:技術比較
このページでは、Alibaba Groupが開発したDAMO-YOLOとUltralytics YOLO11という2つの最先端の物体検出モデルの詳細な技術比較を提供します。どちらのモデルも高性能なリアルタイム物体検出のために設計されていますが、異なるアーキテクチャ哲学を採用し、異なる分野で優れています。アーキテクチャの違い、パフォーマンス指標、理想的なアプリケーションを分析し、コンピュータビジョンプロジェクトのために情報に基づいた意思決定ができるよう支援します。
DAMO-YOLO
著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
組織: Alibaba Group
日付: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
ドキュメント: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
DAMO-YOLOは、Alibaba Groupによって開発された高速かつ高精度な物体検出手法です。YOLOスタイルの検出器のパフォーマンスの限界を押し広げるために、いくつかの新しい技術を導入しています。このモデルは、特にGPUハードウェア上で、精度とレイテンシの優れたバランスを実現することを目指しています。
アーキテクチャと主な機能
DAMO-YOLOのアーキテクチャは、相乗効果を発揮するように設計された最先端のコンポーネントの組み合わせです。
- NAS搭載バックボーン: Neural Architecture Search (NAS)を活用して、特定のハードウェアに最適化された効率的なバックボーン(GiraffeNetなど)を生成し、強力な特徴抽出機能を維持しながら、計算コストを削減します。
- Efficient RepGFPN Neck: このモデルは、マルチスケール特徴融合を強化するために、再パラメータ化技術を用いたGeneralized Feature Pyramid Networks(GFPN)に基づく効率的なネック構造を組み込んでいます。
- ZeroHead: DAMO-YOLOは、分類タスクと回帰タスクをデカップリングし、計算オーバーヘッドを削減する、ZeroHeadと呼ばれる軽量のアンカーフリー検出ヘッドを導入します。
- AlignedOTA ラベル割り当て: AlignedOTAと呼ばれる改善されたラベル割り当て戦略を使用します。これは、分類スコアとローカリゼーションスコアの両方に基づいて、正解オブジェクトを最適な予測と動的に照合し、トレーニングの収束を向上させます。
- 知識蒸留: トレーニングプロセスは知識蒸留によって強化されます。ここでは、より大きく、より強力な教師モデルが、より小さな生徒モデルのトレーニングをガイドし、最終的な精度を高めます。
長所
- GPUでの高精度: DAMO-YOLOは、特に大規模なバリアントにおいて、優れたmAPスコアを達成し、COCOデータセットでの高い性能を示しています。
- 高速GPU推論: このモデルはGPU推論に高度に最適化されており、専用のグラフィックスハードウェア上で実行されるリアルタイムアプリケーションにとって重要な、低遅延を実現します。
- 革新的な技術: オブジェクト検出におけるNAS、高度なラベル割り当て、および蒸留のような最新技術の有効性を示しています。
弱点
- 汎用性の制限: DAMO-YOLOは主に物体検出用に設計されています。Ultralyticsのようなフレームワークに標準搭載されている、インスタンスセグメンテーション、ポーズ推定、分類といった他のコンピュータビジョンタスクに対するネイティブサポートがありません。
- 複雑なエコシステム: リポジトリとドキュメントは機能的ですが、Ultralyticsエコシステムと比較して合理化されていません。これにより、新しいユーザーにとって学習曲線が急になる可能性があります。
- ハードウェア重視: その性能はGPUでのベンチマークが中心であり、CPU性能に関する情報は限られています。そのため、CPUのみ、または多様なエッジデバイスへのデプロイメントには、柔軟性に欠ける選択肢となります。
Ultralytics YOLO11
著者: Glenn Jocher、Jing Qiu
所属: Ultralytics
日付: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
ドキュメント: https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11は、有名なYOLO(You Only Look Once)シリーズの最新の進化であり、リアルタイムオブジェクト検出の最先端を代表するものです。YOLOv8などの前身の成功に基づいて構築されており、成熟したユーザーフレンドリーなエコシステム内で、強化された精度、速度、および汎用性を提供します。
アーキテクチャと主な機能
YOLO11は、洗練されたシングルステージ、アンカーフリーのアーキテクチャを特徴とし、卓越したパフォーマンスと効率のバランスを実現するために高度に最適化されています。その設計は、効率化された特徴抽出と軽量なネットワーク構造に重点を置いており、パラメータ数と計算負荷を削減します。これにより、YOLO11は、強力なクラウドサーバーからNVIDIA Jetsonのようなリソースに制約のあるエッジデバイスまで、幅広いハードウェアへの展開に高度に適応できます。
ただし、YOLO11の真の力は、適切にメンテナンスされたUltralyticsエコシステムとの統合にあり、これにより大きな利点がもたらされます。
- 使いやすさ: シンプルなPython APIと強力なCLIにより、トレーニング、検証、および推論が非常に簡単になります。豊富なドキュメントは、あらゆるスキルレベルのユーザーに明確なガイダンスを提供します。
- 多様性: DAMO-YOLOとは異なり、YOLO11は、物体検出、インスタンスセグメンテーション、画像分類、ポーズ推定、傾斜バウンディングボックス(OBB)を単一の統合フレームワーク内でネイティブにサポートするマルチタスクモデルです。
- パフォーマンスのバランス: YOLO11モデルは、CPUとGPUの両方で速度と精度の間で優れたトレードオフを提供し、多様な現実世界のシナリオで柔軟かつ効率的なデプロイメントを保証します。
- 学習効率: このフレームワークは、高速な学習時間のために最適化されており、より複雑なアーキテクチャと比較して、より低いメモリ要件を備えています。すぐに利用できる事前学習済みのウェイトは、カスタムトレーニングワークフローを加速します。
- 堅牢なエコシステム: ユーザーは、活発な開発、GitHubやDiscordを介した強力なコミュニティサポート、頻繁なアップデート、およびエンドツーエンドのMLOpsのためのUltralytics HUBのようなツールとのシームレスな統合から恩恵を受けます。
長所
- 最先端のパフォーマンス: 速度と精度の両方に最適化されたアーキテクチャで、トップレベルのmAPスコアを達成します。
- 比類なき汎用性: 単一のモデルフレームワークで5つの異なるビジョンタスクを処理でき、複雑なプロジェクトに包括的なソリューションを提供します。
- 優れたユーザビリティ: 合理化されたAPI、明確なドキュメント、および統合されたエコシステムにより、非常に簡単に開始およびデプロイできます。
- ハードウェアの柔軟性: CPUとGPUの両方で非常に効率的であるため、幅広いデプロイメントターゲットに適しています。
- 活発な活動とサポート: Ultralyticsの専任チームと大規模で活発なオープンソースコミュニティによってサポートされています。
弱点
- YOLO11xのような大型モデルは、膨大な計算リソースを必要としますが、その性能クラスにおいては非常に効率的です。
パフォーマンス比較
以下の表は、COCO valデータセットにおけるDAMO-YOLOとYOLO11のパフォーマンス指標の直接的な比較を示しています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
データから、いくつかの結論を導き出すことができます。
- 精度: DAMO-YOLOも競争力がありますが、YOLO11モデル、特にミディアムからラージのバリアント(YOLO11m、l、x)は、より高いmAPスコアを達成しており、YOLO11xは54.7 mAPという優れた数値を達成しています。
- GPU速度: DAMO-YOLO は非常に競争力のある GPU レイテンシを示しています。ただし、YOLO11 モデルも高度に最適化されており、YOLO11n は1.5 ミリ秒で最速の GPU 速度を達成しています。
- CPU速度: YOLO11の大きな利点は、CPU性能が優れており、十分に文書化されていることです。CPUベンチマークが利用できるため、GPUが利用できないアプリケーションにとって信頼できる選択肢となります。DAMO-YOLOは公式のCPU速度指標がないため、適用範囲が限定されます。
- 効率性: YOLO11モデルは非常に効率的です。例えば、YOLO11lはわずか25.3Mのパラメータで53.4 mAPを達成し、精度とパラメータ効率の両方でDAMO-YOLOlを上回っています。YOLO11nは、わずか2.6Mのパラメータで軽量モデルの標準を確立しています。
結論と推奨事項
DAMO-YOLOは、優れた学術的な革新性を示し、GPUハードウェア上で強力なパフォーマンスを発揮する強力な物体検出器です。高度なアーキテクチャコンセプトを研究している研究者や、物体検出のみが必要なGPUが豊富な環境に展開されるアプリケーションにとって、優れた選択肢となります。
しかし、圧倒的多数の開発者、研究者、企業にとって、Ultralytics YOLO11が明確で優れた選択肢です。最先端の精度と速度を提供するだけでなく、成熟した使いやすく、信じられないほど汎用性の高いフレームワーク内でそれを行います。複数のタスクのネイティブサポート、CPU と GPU の両方での優れたパフォーマンス、ドキュメント、コミュニティサポート、Ultralytics HUBのような MLOps ツールの堅牢なエコシステムにより、YOLO11 は、実世界のコンピュータビジョンアプリケーションを構築するための、より実用的でスケーラブル、かつ強力なソリューションとなっています。
その他のモデルを見る
DAMO-YOLOとYOLO11が他の主要モデルとどのように比較されるかに関心がある場合は、これらの他の比較をご覧ください。
- RT-DETR vs. DAMO-YOLO
- YOLOv9 vs. DAMO-YOLO
- YOLOv8 vs. DAMO-YOLO
- YOLO11 vs. RT-DETR
- YOLO11 vs. YOLOv9