YOLOv10 vs. YOLOv9: 技術的な比較
適切な物体検出モデルの選択は、あらゆるコンピュータビジョンプロジェクトにとって非常に重要であり、そのパフォーマンス、速度、およびデプロイの実現可能性に直接影響します。この分野は急速に進化しているため、最新のアーキテクチャに関する情報を常に把握することが重要です。このページでは、2つの最先端モデルであるYOLOv10とYOLOv9の詳細な技術比較を提供します。精度、速度、リソース要件などの要素に基づいて情報に基づいた意思決定を行うのに役立つように、アーキテクチャの革新、パフォーマンス指標、および理想的なユースケースを分析します。
YOLOv10:リアルタイムエンドツーエンド効率
YOLOv10は、清華大学の研究者によって2024年5月に発表された最先端のモデルです。真のエンドツーエンドの物体検出パイプラインを構築することで、卓越したリアルタイム性能を実現するように設計されています。際立ったイノベーションは、従来推論遅延を増加させていた後処理ステップであるNon-Maximum Suppression (NMS)を排除したことです。これにより、YOLOv10は速度が重要なアプリケーションにとって非常に効率的な選択肢となります。
技術詳細:
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織: 清華大学
- Date: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- ドキュメント: https://docs.ultralytics.com/models/yolov10/
アーキテクチャと主な機能
YOLOv10は、速度と精度のトレードオフの限界を押し広げるために、いくつかのアーキテクチャの進歩を導入しています。
- NMS不要の学習: コアとなるイノベーションは、学習中に一貫した二重割り当てを使用することです。この戦略は、モデルに豊富なスーパービジョンを提供すると同時に、推論中にNMSなしで動作できるようにします。このポストプロセスのボトルネックを取り除くことで、YOLOv10はレイテンシを低減し、デプロイメントパイプラインを簡素化します。
- 全体的な効率と精度を重視した設計: 著者は、モデルのコンポーネントの包括的な最適化を実施しました。これには、計算負荷を軽減するための軽量な分類ヘッド、情報をより効果的に保持するための空間チャネル分離ダウンサンプリング、および計算の冗長性を排除するためのランクガイド付きブロック設計が含まれます。最小限のオーバーヘッドで精度を高めるために、アーキテクチャには、大型カーネル畳み込みと部分的自己注意(PSA)が組み込まれています。
長所と短所
長所:
- 極めて高い効率: YOLOv10は、最小限の遅延と計算コストに最適化されており、利用可能なオブジェクト検出器の中で最速の部類に入ります。
- End-to-End Deployment: NMSフリー設計により、後処理のステップが不要になり、デプロイメントが簡素化され、推論時間が短縮されます。
- 優れたパフォーマンスバランス: 速度と精度の間で最先端のバランスを実現しており、多くの場合、類似のスケールの他のモデルよりも優れた性能を発揮します。
- Ultralyticsの統合: YOLOv10はUltralyticsエコシステムにシームレスに統合されています。これにより、シンプルなPython API、広範なドキュメント、および適切にメンテナンスされたフレームワークのサポートを含む、合理化されたエクスペリエンスがユーザーに提供されます。
弱点:
- 最新性: 非常に新しいモデルであるため、コミュニティやサードパーティのリソースは、Ultralytics YOLOv8のようなより確立されたモデルと比較して、まだ成長段階にあります。
理想的なユースケース
YOLOv10は、リアルタイム性能と効率が最優先されるアプリケーションに最適です。
- エッジAI: 低遅延性と小さなフットプリントにより、NVIDIA Jetsonやモバイルプラットフォームのようなリソース制約のあるデバイスへの展開に最適です。
- 高速ビデオ分析: 交通管理やライブセキュリティ監視など、ビデオストリーム内のオブジェクトを即座に検出する必要があるシナリオ。
- 自律システム: 迅速な意思決定が不可欠なロボティクスやドローンなどのアプリケーション。
YOLOv9:Programmable Gradient Information
2024年2月に発表されたYOLOv9は、台湾のAcademia Sinica情報科学研究所の研究者による重要な進歩です。これは、深層ニューラルネットワークにおける基本的な問題、つまりデータが連続する層を流れるにつれての情報損失に取り組みます。YOLOv9は、ネットワークの更新に信頼性の高い勾配情報が利用できるように、Programmable Gradient Information (PGI)を導入し、より効果的な学習とより高い精度を実現します。
技術詳細:
- 著者: Chien-Yao Wang、Hong-Yuan Mark Liao
- 組織: Institute of Information Science, Academia Sinica, Taiwan
- Date: 2024-02-21
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- Docs: https://docs.ultralytics.com/models/yolov9/
アーキテクチャと主な機能
YOLOv9のアーキテクチャは、情報の保持と学習効率を最大化するように設計されています。
- Programmable Gradient Information (PGI): この斬新な概念は、ネットワークの重みを更新するための信頼性の高い勾配を生成するのに役立ち、情報ボトルネックの問題に効果的に対処し、深いアーキテクチャで詳細が失われるのを防ぎます。
- Generalized Efficient Layer Aggregation Network (GELAN): YOLOv9 は、パラメータ利用率と計算効率を最適化する新しいネットワークアーキテクチャである GELAN を導入します。GELAN は、以前のアーキテクチャの強みを組み合わせることで、計算量が増大することなく、高いパフォーマンスを達成できます。
長所と短所
長所:
- 高精度: YOLOv9は最先端の精度を達成しており、最大のバリアント(YOLOv9-E)は、COCOデータセットでmAPの新たなベンチマークを確立しています。
- 効率的なアーキテクチャ: PGIとGELANの組み合わせにより、同様の精度レベルを目指す他のモデルと比較して、より少ないパラメータで優れたパフォーマンスを実現します。
- 情報保持: そのコアデザインは、効果的に情報損失を軽減し、より優れた特徴表現と検出困難なオブジェクトの検出につながります。
- Ultralyticsエコシステム: YOLOv10と同様に、YOLOv9はUltralyticsフレームワークに統合することで、使いやすさ、包括的なドキュメント、およびトレーニングとデプロイメントのための堅牢なツールセットへのアクセスを提供します。
弱点:
- YOLOv10よりも高いレイテンシ: 精度クラスに対して効率的ですが、パフォーマンスの表に見られるように、一般的にYOLOv10よりも推論レイテンシが高くなります。
- 複雑さ: PGIと補助可逆ブランチの概念は、よりシンプルな設計と比較して、アーキテクチャに複雑さを加えています。
理想的なユースケース
YOLOv9は、可能な限り最高の精度を達成することが主な目標であり、計算リソースの制約が少ないアプリケーションに適しています。
- 高解像度解析: 医療画像処理や衛星画像解析など、大きな画像の詳細な解析が要求されるシナリオ。
- 高度なセキュリティシステム: 広範囲の物体を正確に識別することがセキュリティにとって重要な、複雑な監視環境。
- 品質管理: 製造品質管理のために、高精度で微細な欠陥を検出する必要がある産業用途。
性能とベンチマーク:YOLOv10 vs. YOLOv9
以下の表は、COCOデータセットにおけるYOLOv10とYOLOv9のさまざまなスケールモデルの詳細な性能比較を示しています。この指標は、2つのファミリー間の設計上のトレードオフを明確に示しています。
YOLOv10は、比較可能なすべてのモデルサイズにおいて、一貫して低い遅延と優れたパラメータ効率を示しています。たとえば、YOLOv10-BはYOLOv9-Cと同様のmAPを達成していますが、遅延が46%少なく、パラメータが25%少なくなっています。これは、リアルタイムアプリケーションにおけるYOLOv10の強みを示しています。
一方、YOLOv9-E は最高の 55.6% の mAP を達成しており、レイテンシが高く、パラメータが多くても、精度が最優先されるシナリオに最適です。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
結論: どのモデルを選ぶべきか?
YOLOv10とYOLOv9のどちらを選択するかは、プロジェクト固有のニーズに完全に依存します。
-
主な制約が速度、レイテンシ、および計算効率である場合は、YOLOv10を選択してください。そのNMSフリーのエンドツーエンド設計により、リアルタイムビデオ処理、エッジデバイスへのデプロイメント、および高速かつ効率的な推論が重要なアプリケーションにとって優れた選択肢となります。
-
主な目標が可能な限り最高の検出精度を達成することである場合は、YOLOv9を選択してください。その革新的なアーキテクチャは、情報を保持することに優れており、精度が絶対的な低レイテンシの必要性よりも重要な、複雑なシーンやハイステークスなアプリケーションに最適です。
どちらのモデルも強力で最先端のアーキテクチャであり、Ultralyticsエコシステムへの統合から大きな恩恵を受け、その使用と展開が簡素化されます。
その他のモデルを見る
YOLOv10 と YOLOv9 は最先端ですが、Ultralytics エコシステムは幅広いモデルをサポートしています。成熟していて汎用性が高く、バランスの取れたモデルを探している開発者にとって、Ultralytics YOLOv8 は依然として優れた選択肢であり、検出以外の複数のビジョンタスクをサポートしています。Ultralytics の最新の進歩をお探しの方は、YOLO11 をご確認ください。モデル比較ページでより多くの比較を調べることができます。