YOLOv10 vs. DAMO-YOLO:技術比較
最適な物体検出モデルの選択は、精度、速度、計算コストのトレードオフのバランスを取る上で重要な決定です。このページでは、Ultralyticsエコシステムに統合された最新の高効率モデルであるYOLOv10と、Alibaba Groupの強力な検出器であるDAMO-YOLOの詳細な技術比較を提供します。アーキテクチャ、パフォーマンス指標、およびコンピュータビジョンプロジェクトに適した選択を行うための理想的なユースケースを分析します。
YOLOv10:リアルタイムエンドツーエンド検出
2024年5月に清華大学の研究者によって発表されたYOLOv10は、リアルタイム物体検出における大きな進歩を示しています。その主な革新は、Non-Maximum Suppression (NMS)の必要性を排除することで、エンドツーエンドの検出を実現し、ポストプロセッシングのオーバーヘッドを削減し、推論レイテンシを低減することです。
技術詳細:
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織: 清華大学
- Date: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- ドキュメント: https://docs.ultralytics.com/models/yolov10/
アーキテクチャと主な機能
YOLOv10は、堅牢なUltralyticsフレームワーク上に構築されており、その使いやすさと強力なエコシステムを継承しています。そのアーキテクチャは、優れた効率とパフォーマンスを実現するために、いくつかの重要な進歩をもたらしています。
- NMS不要の学習: YOLOv10は、学習中にラベルに一貫した二重割り当てを採用しています。これにより、モデルはNMSポストプロセスステップを必要とせずにクリーンな予測を生成でき、デプロイメントパイプラインを簡素化し、真のエンドツーエンドにします。
- 全体的な効率と精度の設計: モデルアーキテクチャは、計算の冗長性を低減するために包括的に最適化されました。これには、軽量な分類ヘッドと空間チャネル分離ダウンサンプリングが含まれており、速度と能力の両方を向上させます。
- シームレスなUltralytics統合: Ultralyticsエコシステムの一部として、YOLOv10は合理化されたユーザーエクスペリエンスの恩恵を受けます。これには、シンプルなPython API、広範なドキュメント、効率的なトレーニングプロセス、およびすぐに利用できる事前トレーニング済みの重みが含まれます。この統合により、開発者は非常に簡単に開始して、モデルを迅速にデプロイできます。
長所と短所
長所:
- 最先端の効率性: YOLOv10は、速度と精度の優れたバランスを実現し、多くの場合、以下のパフォーマンステーブルで詳述されているように、より少ないパラメータと低い遅延で競合製品を上回ります。
- 使いやすさ: このモデルは、ノーコードトレーニングとデプロイメントのためのUltralytics HUBを含むUltralyticsエコシステムとの統合のおかげで、非常にユーザーフレンドリーです。
- End-to-End Deployment: NMSフリー設計により、トレーニングから推論までのワークフロー全体が簡素化され、実際のアプリケーションに最適です。
- メモリ要件が低い: より複雑なアーキテクチャと比較して、YOLOv10はトレーニングと推論の両方でメモリ使用量が効率的であり、限られたハードウェアを持つユーザーでもアクセスできます。
弱点:
- タスクの特化: 物体検出には非常に優れていますが、YOLOv10は現在この単一のタスクに焦点が当てられています。セグメンテーション、分類、姿勢推定をすぐにサポートする汎用性の高いUltralytics YOLOv8とは異なります。
理想的なユースケース
YOLOv10は、リアルタイム性能と効率が最も重要なアプリケーションに最適です。
- Edge AI: フットプリントが小さく、低遅延であるため、NVIDIA JetsonやRaspberry Piのようなリソース制約のあるデバイスへのデプロイに最適です。
- 自律システム: 自動運転車やロボティクスのようなアプリケーションでは、高速かつ信頼性の高い検出が不可欠です。
- リアルタイムビデオ分析: 交通管理やセキュリティ監視などの高スループットシステムに最適です。
DAMO-YOLO
DAMO-YOLOは、Alibaba Groupによって開発された高速かつ高精度な物体検出モデルです。2022年11月にリリースされ、YOLOスタイルの検出器のパフォーマンスの限界を押し広げるために、いくつかの新しい技術を導入しました。
技術詳細:
- 著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, 他
- 組織: Alibaba Group
- Date: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- Docs: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
アーキテクチャと主な機能
DAMO-YOLOは、速度と精度のトレードオフを改善するための高度な技術を模索した結果です。そのアーキテクチャは、以下の特徴があります。
- Neural Architecture Search (NAS): DAMO-YOLOのバックボーンはNASを使用して生成され、高度に最適化された特徴抽出器を可能にしています。
- Efficient RepGFPN Neck: 効率的かつ強力な新しい特徴ピラミッドネットワーク(FPN)設計を組み込んでいます。
- ZeroHead and AlignedOTA: このモデルは、簡素化されたゼロパラメータヘッドと、検出精度を高めるための改善されたラベル割り当て戦略(AlignedOTA)を使用します。
- 知識蒸留: DAMO-YOLOは、蒸留を活用して、より小さなモデルのパフォーマンスをさらに向上させます。
長所と短所
長所:
- 高いパフォーマンス: DAMO-YOLOは、競争力のある精度と速度を実現し、物体検出分野で有力な候補となっています。
- 革新的な技術: NASや高度なラベル割り当て戦略のような最先端の研究コンセプトを取り入れています。
弱点:
- より高い複雑性: モデルのアーキテクチャとトレーニングパイプラインはYOLOv10よりも複雑であり、ユーザーにとって学習曲線が急になる可能性があります。
- エコシステムの制限: DAMO-YOLOは、主にMMDetectionツールボックス内で利用可能です。これは、そのエコシステムに慣れていない開発者や、Ultralyticsが提供するような、より統合されたユーザーフレンドリーなソリューションを好む開発者にとって障壁となる可能性があります。
- コミュニティとサポート: 重要な貢献ではありますが、Ultralyticsエコシステム内のモデルほど、活発なコミュニティサポート、頻繁なアップデート、および広範なリソースがない可能性があります。
理想的なユースケース
DAMO-YOLOは、以下のような研究者や開発者に最適です。
- 新しいアーキテクチャを優先する場合: NASを活用したバックボーンのような最新の研究トレンドを探求することに興味がある方に適しています。
- MMDetection内での作業:MMDetectionフレームワークに慣れているユーザーは、DAMO-YOLOをワークフローに統合できます。
- 高い精度が必要な場合: 最後のわずかな精度を絞り出すことが重要で、複雑さが増しても管理可能な場合。
性能の直接対決:YOLOv10 vs. DAMO-YOLO
次の表は、COCOデータセットでのさまざまなYOLOv10およびDAMO-YOLOモデルサイズのパフォーマンスを比較しています。YOLOv10は一貫して優れたパフォーマンスを示し、より低いレイテンシとより少ないパラメータでより高い精度を提供します。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
データが示すように、YOLOv10モデルはDAMO-YOLOモデルよりも一貫して優れた性能を発揮します。たとえば、YOLOv10-SはDAMO-YOLO-Sよりも高いmAP(46.7対46.0)を達成し、大幅に高速(2.66 ms対3.45 ms)で、パラメータも半分以下(7.2M対16.3M)です。この傾向はすべてのモデルサイズで当てはまり、最終的にYOLOv10-Xが最高のmAPである54.4に達します。
結論
YOLOv10とDAMO-YOLOはいずれも優れた物体検出モデルですが、それぞれ異なるニーズに対応しています。DAMO-YOLOは、革新的なアーキテクチャのアイデアを示す強力な研究モデルです。
しかし、圧倒的多数の開発者、研究者、企業にとって、YOLOv10 が明確な選択肢です。その優れたパフォーマンスは、NMS フリー設計と組み合わさり、リアルワールドでのデプロイメントをより高速かつ効率的にします。さらに重要なことに、Ultralytics エコシステムへのシームレスな統合により、広範なドキュメント、活発なコミュニティサポート、Ultralytics HUB のような一連のツールを備えた比類のないユーザーエクスペリエンスが提供され、MLOps ライフサイクル全体が簡素化されます。
他の最先端オプションをお探しの方には、複数のビジョンタスクで汎用性のあるUltralytics YOLOv8を検討するか、プロジェクトに最適なものを見つけるために、他のモデル比較を調べてみる価値もあります。