YOLO11 vs DAMO-YOLO:技術比較
このページでは、2つの最先端の物体検出モデル、Ultralytics YOLO11とDAMO-YOLOの詳細な技術比較を提供します。アーキテクチャの違い、パフォーマンス指標、理想的なアプリケーションを分析し、コンピュータビジョンプロジェクトのために情報に基づいた意思決定ができるよう支援します。どちらのモデルも高性能な物体検出のために設計されていますが、異なるアプローチを採用し、異なる強みを発揮します。YOLO11は、優れた汎用性と、実世界での展開のためのより堅牢なエコシステムを提供します。
Ultralytics YOLO11
著者: Glenn Jocher、Jing Qiu
所属: Ultralytics
日付: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
ドキュメント: https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11は、その高速かつ効果的な物体検出能力で知られる、名高いYOLO(You Only Look Once)シリーズの最新の進化です。YOLO11は、精度と速度の両方を向上させることを目的としたアーキテクチャの改良により、以前のYOLOのイテレーションを強化します。リアルタイムパフォーマンスのために、シングルパスで画像を処理する、ワンステージ検出方式を維持しています。
YOLO11の主な利点は、その汎用性です。主に検出に焦点を当てているDAMO-YOLOとは異なり、YOLO11は、物体検出、インスタンスセグメンテーション、画像分類、およびポーズ推定をサポートするマルチタスクフレームワークです。これにより、複雑なコンピュータビジョンパイプライン向けの包括的なソリューションになります。
アーキテクチャと主な機能
YOLO11は、アーキテクチャの改善を通じて、モデルサイズと精度のバランスを取ることに重点を置いています。これらには、より豊富な特徴キャプチャのための洗練された特徴抽出レイヤーと、計算コストを削減するための効率化されたネットワークが含まれており、より高速でパラメータ効率の高いモデルにつながります。その適応可能な設計により、NVIDIA Jetsonのようなエッジデバイスから強力なクラウドサーバーまで、幅広いハードウェアへの展開が可能です。
重要なのは、YOLO11が十分にメンテナンスされたUltralyticsエコシステムから多大な恩恵を受けていることです。これは、開発者や研究者にとって大きな利点となります。
- 使いやすさ: シンプルなPython API、明確なCLI、および広範なドキュメントにより、簡単に始めることができます。
- 統合されたワークフロー: Ultralytics HUBとのシームレスな統合により、データセットの管理、トレーニング、デプロイメントが簡素化され、MLOpsライフサイクル全体が効率化されます。
- Training Efficiency: 効率的な学習プロセス、COCOのようなデータセットですぐに利用できる事前学習済みの重み、そして通常は他の複雑なアーキテクチャと比較して低いメモリ要件。
- 活発な開発: 頻繁なアップデート、GitHubやDiscordによる強力なコミュニティサポート、そしてTensorRTやOpenVINOのようなツールとの多数の統合。
DAMO-YOLO
著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、Xiuyu Sun
組織: Alibaba Group
日付: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
ドキュメント: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
DAMO-YOLOは、Alibaba Groupが開発した物体検出モデルであり、速度と精度の強力なバランスを実現するために、いくつかの新しい技術を導入しています。YOLOファミリーの一部ですが、高度な研究コンセプトから派生した独自のアーキテクチャコンポーネントを組み込んでいます。
アーキテクチャと主な機能
DAMO-YOLOのアーキテクチャは、いくつかの重要な技術革新に基づいて構築されています。
- MAE-NAS バックボーン: Neural Architecture Search (NAS) アプローチを使用して最適なバックボーン構造を見つけ、効率的な特徴抽出を実現します。
- Efficient RepGFPN Neck: 一般化された特徴ピラミッドネットワークを再パラメータ化とともに採用し、異なるスケール間での特徴融合を効果的に強化します。
- ZeroHead: このモデルは、オーバーヘッドを最小限に抑えながら、分類タスクと回帰タスクを分離する軽量な分離型ヘッドを使用しています。
- AlignedOTA ラベル割り当て: トレーニング中に分類ターゲットと回帰ターゲットの整合性を高めるための、改善されたラベル割り当て戦略が導入されており、精度の向上に役立ちます。
DAMO-YOLO はこれらの機能により強力な検出器ですが、その主な焦点はオブジェクト検出にあります。YOLO11 が提供するセグメンテーションや姿勢推定のような他のビジョンタスクに対する組み込みサポートはありません。さらに、そのエコシステムは包括性に欠け、公式チュートリアル、統合、および Ultralytics YOLO と比較して小規模なコミュニティしかありません。
性能とベンチマーク:直接対決
COCO val2017データセットでの両モデルの性能は、重要な違いを明らかにしています。YOLO11は、同等のモデルサイズ全体で一貫して優れた精度を示しています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
表から、いくつかの結論を導き出すことができます。
- 精度: YOLO11モデルは、DAMO-YOLOモデルよりも一貫して高いmAPスコアを達成しています。たとえば、YOLO11mは51.5 mAPに達し、DAMO-YOLOmの49.2 mAPを上回っています。最大のモデルであるYOLO11xは、最先端の54.7 mAPを達成しています。
- 効率性: YOLO11モデルは、よりパラメータ効率に優れています。YOLO11mは、DAMO-YOLOmの28.2Mと比較して、わずか20.1Mのパラメータで優れた精度を達成しています。
- 推論速度: YOLO11nはCPUとGPUの両方で最速のモデルであり、非常に制約の厳しいエッジコンピューティングシナリオに最適です。特に、Ultralyticsは透過的なCPUベンチマークを提供しており、DAMO-YOLOの公式結果では省略されている、多くの実際のアプリケーションにとって重要な指標です。
主な差別化要因とユースケース
Ultralytics YOLO11を選択する場合
YOLO11は、以下を必要とするプロジェクトに最適な選択肢です。
- マルチタスク機能: アプリケーションがオブジェクト検出だけでなく、インスタンスセグメンテーションやポーズ推定なども必要とする場合、YOLO11 は統合された効率的なフレームワークを提供します。
- 使いやすさと迅速な開発: 包括的なドキュメント、シンプルなAPI、統合されたUltralytics HUBプラットフォームにより、開発とデプロイメントが大幅に加速されます。
- Deployment Flexibility: CPUとGPUの両方で高いパフォーマンスを発揮し、モデルサイズも幅広いため、YOLO11はRaspberry Piからクラウドサーバーまで、あらゆる場所にデプロイできます。
- ロバストなサポートとメンテナンス: アクティブな開発と大規模なコミュニティにより、フレームワークは常に最新の状態に保たれ、信頼性が高く、十分にサポートされています。
DAMO-YOLOを検討する場合
DAMO-YOLOは、以下のような場合に検討できます。
- 学術研究: RepGFPNやAlignedOTAのような斬新なアーキテクチャコンポーネントは、新しいオブジェクト検出技術を研究する研究者にとって興味深いモデルとなっています。
- GPUに特化したデプロイメント: GPU上での実行が保証され、物体検出のみを必要とするアプリケーションの場合、DAMO-YOLOは競争力のある推論速度を提供します。
結論
DAMO-YOLOは物体検出のための興味深い学術的革新を示していますが、Ultralytics YOLO11は、大多数の現実世界のアプリケーションにとって優れた選択肢として際立っています。 その高い精度、より優れた性能バランス、比類のない汎用性により、より強力で実用的なツールとなっています。
YOLO11の主な利点は、最先端のパフォーマンスだけでなく、それを囲む堅牢でユーザーフレンドリー、そして十分にメンテナンスされたエコシステムにあります。この組み合わせにより、開発者と研究者は、高度なコンピュータビジョンソリューションをより迅速かつ効果的に構築および展開できます。信頼性、スケーラビリティ、および包括的な機能セットを必要とするプロジェクトにとって、YOLO11は明らかな勝者です。
その他のモデル比較
これらのモデルと他のモデルとの比較にご興味があれば、以下の比較ページをご覧ください。
- YOLO11 vs. YOLOv8
- DAMO-YOLO vs. RT-DETR
- YOLO11 vs. YOLOv10
- DAMO-YOLOとYOLOv9
- EfficientDet や YOLOX などの他のモデルを調べてください。