YOLOv10とDAMO-YOLO:物体検出の詳細な技術比較
最適な物体検出モデルを選択することは、コンピュータビジョンアプリケーションにとって非常に重要です。このページでは、YOLOv10とYOLO-YOLOの詳細な技術比較を行います。それぞれのアーキテクチャ、性能ベンチマーク、適切なアプリケーションを探求し、モデル選択の指針とします。
YOLOv10
YOLOv10は、リアルタイムの物体検出機能で有名なYOLO シリーズの最新の進化形です。清華大学の研究者によって開発され、2024-05-23に発表された(arXiv preprint arXiv:2405.14458)YOLOv10は、エンドツーエンドの効率化と性能向上のために設計されている。公式のPyTorch 実装はGitHubで公開されています。
アーキテクチャと主な特徴
YOLOv10では、アーキテクチャの合理化、スピードと精度のバランスの改善、NMSフリーのトレーニングと効率的なモデル設計に焦点を当てたいくつかの革新的な技術が導入されています。アーキテクチャーの主なハイライトは以下の通り:
- NMSフリートレーニング:非最大抑制(NMS)を使用しないトレーニングのために一貫したデュアル割り当てを採用し、後処理のオーバーヘッドと推論の待ち時間を削減します。
- 全体的な効率と精度を重視した設計:様々なモデルコンポーネントの包括的な最適化により、計算の冗長性を最小化し、検出能力を向上。
- バックボーンとネットワーク構造:洗練された特徴抽出レイヤーと合理化されたネットワーク構造により、パラメータ効率と処理速度が向上。
パフォーマンス指標
YOLOv10は、様々なモデルスケールで最先端の性能を発揮し、様々な計算ニーズに対応する幅広いオプションを提供します。COCOデータセットの性能指標は以下の通りである:
- mAP:COCO検証データセットで競争力のある平均精度(mAP)を達成。例えば、YOLOv10-Sは46.7%のmAPval50-95を達成。
- 推論速度:YOLOv10-N は、T4 TensorRT10で1.56msの推論時間を達成しています。
- モデルサイズ複数のサイズ(N、S、M、B、L、X)があり、モデルサイズはYOLOv10-Nのパラメータ2.3MからYOLOv10-Xの56.9Mまで。
強みと弱み
強みだ:
- リアルタイム・パフォーマンス:スピードと効率のために最適化されているため、リアルタイム・アプリケーションに最適です。
- 高精度:特にYOLOv10-Xのような大型モデルでは、最先端の精度を実現。
- エンド・ツー・エンドの効率性:NMSフリーの設計により、レイテンシーが短縮され、導入が簡素化されます。
- 汎用性:様々な物体検出タスクに適しており、Raspberry Piや NVIDIA Jetsonのようなエッジデバイスを含む様々なハードウェアプラットフォームに適応します。
- 使いやすさ:Ultralytics Python パッケージとの統合により、トレーニング、検証、導入のワークフローが簡素化されます。
弱点がある:
- 新しいモデル:最近のモデルであるため、より広範なエコシステムにおけるコミュニティのサポートや事前に訓練された重みは、より確立されたモデルに比べてまだ発展途上かもしれない。
- トレードオフ:小型モデルはスピードを優先し、大型モデルやより複雑なモデルに比べ、ある程度の精度を犠牲にする可能性がある。
使用例
YOLOv10は、高速で正確な物体検出を必要とするアプリケーションに適している:
- 自律システム:自動運転車と ロボット工学
- セキュリティと監視 セキュリティアラームシステムとリアルタイム監視
- 産業オートメーション:製造品質管理およびプロセスオートメーション
- 小売分析:在庫管理、顧客行動分析
ダモYOLO
アリババ・グループが開発したDAMO-YOLO、2022年に発表された高性能な物体検出モデルである(arXiv preprint arXiv:2211.15444v2)。効率的な物体検出のためのいくつかの高度な技術を取り入れ、高速かつ高精度に設計されている。公式の実装とドキュメントはGitHubで公開されている。
アーキテクチャと主な特徴
DAMO-YOLO 、スピードと精度のバランスを達成するために、いくつかの革新的なコンポーネントを統合している:
- NASバックボーン:Neural Architecture Search(NAS)を活用し、物体検出タスクに最適化された効率的なバックボーンネットワークを設計。
- 効率的なRepGFPNReparameterized Gradient Feature Pyramid Network (RepGFPN)を採用し、効率的な特徴融合とマルチスケール特徴表現を実現。
- ZeroHead:検出精度を維持しながら計算オーバーヘッドを最小化するように設計された軽量検出ヘッド。
- AlignedOTA: Aligned Optimal Transport Assignment (AlignedOTA)を使用し、トレーニング中のラベル割り当てを改善し、検出性能を向上。
- 蒸留の強化:知識蒸留の手法を取り入れ、モデルのパフォーマンスをさらに向上させます。
パフォーマンス指標
DAMO-YOLO モデルには、さまざまなパフォーマンス・ニーズに応えるため、さまざまなサイズ(タイニー、スモール、ミディアム、ラージ)がある。主な性能指標は以下の通り:
- mAP:COCOのようなベンチマークデータセットで高いmAPを達成。例えばDAMO-YOLO-Largeは50.8%のmAPval50-95を達成。
- 推論速度:DAMO-YOLO-Tinyは、T4 TensorRT10で2.32msの推論時間を達成しています。
- モデルサイズ:DAMO-YOLO-YOLO8.5MパラメータからDAMO-YOLO-YOLO42.1Mパラメータまで。
強みと弱み
強みだ:
- 高精度:アーキテクチャの革新と高度なトレーニング技術により、優れた検出精度を実現。
- 高速推論:スピード重視の設計で、リアルタイムシステムに適した効率的な推論性能を提供。
- 効率的な設計:NASバックボーンと軽量ヘッドを採用し、計算効率を最適化。
- 包括的な機能セット:RepGFPNやAlignedOTAのような複数の高度な技術を統合し、堅牢なパフォーマンスを実現。
弱点がある:
- 複雑さ:NASと複数の高度なコンポーネントを統合することで、カスタマイズや変更が複雑になる可能性がある。
- リソース要件:大規模なDAMO-YOLO モデルは、極めて軽量な代替モデルと比較して、かなりの計算資源を必要とする可能性がある。
使用例
YOLO -YOLOは、以下のような高精度で高速な物体検出を必要とするアプリケーションに適している:
- 先進運転支援システム(ADAS):自律走行シナリオにおける物体検出。
- 高解像度画像解析:衛星画像の解析など、高解像度画像の詳細な解析を必要とするアプリケーション。
- ロボティクスとオートメーション 産業オートメーションにおけるロボットのナビゲーションとマニピュレーションのための高精度物体検出。
- 監視システム:ビジョンAIで監視の現状を打破する高精度検知。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
スピード T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
ダモ・ヨロト | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
ダモヨロズ | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
ダモ・ヨロム | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
ダモヨロル | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
ユーザーは、YOLOv10とYOLO -YOLOをUltralytics YOLO ファミリーの他のモデルやそれ以外のモデルと比較することにも興味があるかもしれない:
- YOLOv8:YOLOv8 DAMO-YOLO多様性と使いやすさを比較。
- YOLOv9:YOLOv9とDAMO-YOLOアーキテクチャ上の革新を理解する。
- RT-DETR:RT-DETR DAMO-YOLOエンドツーエンド検出器を比較。
- エフィシェントデット EfficientDetとDAMO-YOLO比較で、効率性重視のモデルの違いをご覧ください。
- PP-YOLOE:PP-YOLOE対YOLO-YOLOのような代替効率モデルを検討する。