YOLOv9 vs. YOLOv10:物体検出のための技術比較
適切な物体検出モデルの選択は、パフォーマンス、速度、リソース効率に直接影響を与えるため、あらゆるコンピュータビジョンプロジェクトにとって重要な決定です。YOLOシリーズは、可能なことの限界を押し広げ続けています。このページでは、2つの最先端モデル、YOLOv9とYOLOv10の詳細な技術的比較を提供します。アーキテクチャの革新、パフォーマンス指標、理想的なユースケースを分析し、精度、推論速度、計算コストなどの要素のバランスを取りながら、特定のニーズに最適なモデルを選択できるよう支援します。
YOLOv9:学習を強化するProgrammable Gradient Information
YOLOv9は、2024年2月に発表され、深層ニューラルネットワークにおける情報損失の問題に対処するオブジェクト検出における重要な進歩です。その斬新なアーキテクチャにより、重要なデータがモデル全体で確実に保持され、非常に正確な結果が得られます。
技術詳細:
- 著者: Chien-Yao Wang、Hong-Yuan Mark Liao
- 組織: 台湾 Academia Sinica 情報科学研究所
- Date: 2024-02-21
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Docs: https://docs.ultralytics.com/models/yolov9/
アーキテクチャと主な機能
YOLOv9は、2つの画期的なコンセプトを導入しています。
- Programmable Gradient Information (PGI): このメカニズムは、データが深層ネットワーク層を流れる際に発生する情報損失の課題に取り組みます。信頼性の高い勾配を生成することにより、PGIはモデルが効果的に学習し、正確な更新を行うことを保証します。これは、複雑なオブジェクトを検出するために重要です。
- Generalized Efficient Layer Aggregation Network (GELAN): YOLOv9 は、新しいネットワークアーキテクチャである GELAN を備えています。GELAN は、パラメータ利用率と計算効率を最適化する非常に効率的な設計です。これにより、YOLOv9 は、過度に大きくも遅くもなることなく、トップレベルのパフォーマンスを達成できます。
長所
- 高精度: YOLOv9は精度の高い水準を確立しており、最大のバリアントであるYOLOv9-Eは、COCOデータセットで最先端のmAPスコアを達成しています。
- 情報保持: PGIの中核となるイノベーションは、情報のボトルネック問題を効果的に軽減し、より優れたモデル学習とパフォーマンスにつながります。
- 効率的なアーキテクチャ: GELANは、速度と精度の優れたバランスを提供し、YOLOv9はパラメータあたりのパフォーマンスの点で非常に競争力があります。
- Ultralyticsエコシステム: Ultralyticsフレームワーク内で使用すると、YOLOv9は合理化されたユーザーエクスペリエンス、シンプルなPython API、および広範なドキュメントの恩恵を受けます。このエコシステムは、すぐに利用できる事前トレーニング済みの重み、活発な開発、強力なコミュニティサポート、および通常、トランスフォーマーのような他のモデルタイプと比較してより低いメモリ要件で、効率的なトレーニングを保証します。
弱点
- 新しいモデル: 最近のリリースであるため、コミュニティが提供する事例やサードパーティの統合の幅は、より確立されたモデルと比較してまだ拡大しています。
- 複雑さ: 新しいPGIの概念は強力ですが、よりシンプルな設計と比較して、アーキテクチャの複雑さを増しています。
理想的なユースケース
YOLOv9は、可能な限り最高の精度を達成することが主な目標となるアプリケーションに最適です。
- 高度なロボティクス: 動的な環境で正確な物体検出を必要とする複雑なタスクのため。
- 高解像度画像解析: 詳細が最も重要な衛星画像解析のようなシナリオに最適です。
- 重要な安全システム: 精度がミッションクリティカルとなる自動運転や高度なセキュリティシステムなどのアプリケーション。
YOLOv10:リアルタイムエンドツーエンド効率
YOLOv10は、清華大学の研究者によって2024年5月にリリースされ、効率と速度を最大化するように設計されています。これは、YOLOアーキテクチャの主要コンポーネントを再設計し、最も注目すべきは、Non-Maximum Suppression (NMS)の後処理の必要性を排除することによって実現されます。
技術詳細:
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織: 清華大学
- Date: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- ドキュメント: https://docs.ultralytics.com/models/yolov10/
アーキテクチャと主な機能
YOLOv10の設計思想は、エンドツーエンドの効率に重点を置いています。
- NMS不要の学習: YOLOv10は、学習中に一貫した二重割り当てを使用しており、NMSステップなしでクリーンな予測を生成できます。これにより、推論レイテンシが大幅に削減され、デプロイメントパイプラインが簡素化されます。
- 全体的な効率と精度を重視した設計: モデルアーキテクチャは、トップからボトムまで最適化されています。これには、軽量な分類ヘッド、情報を効率的に保持するための空間チャネル分離ダウンサンプリング、および計算の冗長性を排除するためのランクガイド付きブロック設計が含まれます。
長所
- 極めて高い効率と速度: 最小限の遅延と計算コストに最適化されており、利用可能なオブジェクト検出器の中で最速の部類に入ります。
- End-to-End Deployment: NMSフリー設計により、後処理のオーバーヘッドが削減され、単一ステップで真のエンドツーエンド検出が可能になります。
- 優れたワット当たりパフォーマンス: 計算量とメモリフットプリントが少ないため、電力制約のあるデバイスに最適です。
- Ultralyticsの統合: YOLOv10はUltralyticsエコシステムに完全に統合されており、ユーザーに適切にメンテナンスされた使いやすいプラットフォームを提供します。これには、シンプルなAPI、包括的なドキュメント、およびUltralyticsツールのフルスイートへのアクセスが含まれます。
弱点
- 最新モデル: シリーズ最新のモデルであるため、コミュニティリソースと実際のデプロイメント例はまだ蓄積中です。
- タスクの特化: YOLOv10は物体検出に高度に特化しています。インスタンスセグメンテーションや姿勢推定のような他のタスクに対する組み込みの汎用性がありません。これらのタスクは、Ultralytics YOLOv8のようなモデルにネイティブに備わっています。
理想的なユースケース
YOLOv10は、リアルタイム性能と効率が重要なアプリケーションに最適です。
- エッジコンピューティング: NVIDIA Jetsonやモバイルプラットフォームのようなリソース制約のあるデバイスへの実装に最適です。
- 高速ビデオ分析: 交通監視やライブスポーツ分析など、ビデオストリーム内のオブジェクトを即座に検出する必要があるアプリケーション。
- モバイルおよび組み込みシステム: ユーザーエクスペリエンスにとって速度と電力消費が重要な要素となるアプリへの統合。
性能対決:YOLOv9 vs. YOLOv10
YOLOv9とYOLOv10の主な違いは、設計の優先順位にあります。YOLOv9は、高度なアーキテクチャ設計を通じて精度を最大化することに重点を置いていますが、YOLOv10は、比類のない計算効率と低遅延を実現するように設計されています。
以下の表は、最大のモデルであるYOLOv9-Eが全体的に最も高いmAPを達成している一方で、YOLOv10モデルは同等の精度レベルで一貫して優れた速度とパラメータ効率を提供することを示しています。例えば、YOLOv10-Bは、同様の性能に対してYOLOv9-Cよりもレイテンシが46%低く、パラメータが25%少なくなっています。これにより、YOLOv10は推論速度が重要なボトルネックとなるアプリケーションにとって非常に強力な選択肢となります。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
結論: どのモデルを選ぶべきか?
YOLOv9とYOLOv10のどちらを選択するかは、プロジェクトの優先順位によって異なります。
-
主な要件が最大の精度である場合は、YOLOv9を選択してください。精度が不可欠であり、わずかに高い計算オーバーヘッドに対応できる複雑なタスクに最適です。
-
主な要件がリアルタイムの速度と効率である場合は、YOLOv10を選択してください。そのNMSフリーアーキテクチャは、低レイテンシアプリケーションやリソース制約のあるハードウェアへのデプロイメントに最適な選択肢となります。
どちらのモデルも、物体検出の最先端を代表しており、それぞれのドメイン内で優れた選択肢です。Ultralyticsエコシステムへの統合により、開発者と研究者は、これらの強力なツールを容易かつ堅牢なサポートで活用できます。
その他のモデルを見る
ユーザーのニーズが YOLOv9 または YOLOv10 のいずれかと完全に一致しない場合、Ultralytics エコシステムは他の強力な代替手段を提供します。Ultralytics YOLOv8 は、セグメンテーション、分類、ポーズ推定などのタスクをすぐにサポートする、パフォーマンスと汎用性の優れたバランスで、依然として最適な選択肢です。最新の進歩を求めるユーザーには、Ultralytics YOLO11 が前身を基盤として、パフォーマンスと効率の新しいベンチマークを設定します。YOLOv9 vs. YOLOv8 や YOLOv8 vs. YOLOv10 などの詳細な比較を調べて、プロジェクトに最適なモデルを見つけることができます。