YOLOv9とYOLOv10の詳細な技術比較
Ultralytics コンピュータビジョンの限界を押し広げることに全力を注いでおり、その重要な一環としてYOLO モデルの開発と改良に取り組んでいます。このページでは、最先端の物体検出モデルであるYOLOv9と YOLOv10の詳細な技術比較を行います。このページでは、YOLOv9とYOLOv10のアーキテクチャのニュアンス、性能ベンチマーク、および適切なアプリケーションについて詳しく説明し、特定のコンピュータビジョンタスクに最適なモデルを選択するお手伝いをします。
YOLOv9:プログラム可能なグラデーション情報
YOLOv9は、台湾中央研究院情報科学研究所のChien-Yao Wang氏とHong-Yuan Mark Liao氏によって2024年2月に発表されたもので、効率的な物体検出における大きな進歩を象徴している。YOLOv9の革新の核心は、深層学習プロセスにおける情報損失に対処するために設計されたプログラマブル勾配情報(PGI)にある。これはGeneralized Efficient Layer Aggregation Networks (GELAN)のような技術によって達成され、モデルがあなたの意図する学習内容を正確に学習することを保証します。
アーキテクチャと主な特徴 YOLOv9は、GELANを活用して特徴抽出を強化し、ネットワーク全体の情報の整合性を維持している。このアプローチにより、精度が高いだけでなく、パラメータ効率に優れたモデルを実現し、計算リソースが限られた環境での展開に適しています。YOLOv9は、論文"YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information "に基づいて実装されている。
パフォーマンス指標: YOLOv9は、COCOデータセットにおいて素晴らしい性能を示している。例えば、YOLOv9cは、25.3Mのパラメータと102.1B FLOPsで、53.0%のmAPval50-95を達成しています。このモデルのアーキテクチャーは効率性を重視して設計されているため、従来のモデルと比較して少ないパラメータと計算回数で高い精度を達成することができます。
強みだ:
- 高精度:最先端の精度での物体検出を実現。
- パラメータ効率:GELANとPGIにより、パラメータと計算を効率的に利用。
- 斬新なアプローチ:より良い学習のためにプログラム可能な勾配情報を導入。
弱点がある:
- 比較的新しい:最近のモデルであるため、より確立されたモデルに比べてコミュニティが小さく、導入事例が少ない可能性がある。
使用例 YOLOv9は、以下のような高い精度と効率を必要とするアプリケーションに適しています:
- 先進ロボット工学:複雑なロボットシステムにおける物体検出
- 高解像度画像解析:大きな画像の詳細な解析を必要とするシナリオ。
- リソースに制約のある環境:計算能力に制限のあるエッジデバイスやモバイルアプリケーション。
著者とリソース
- 著者王建耀、廖宏源
- 組織台湾中央研究院情報科学研究所
- 日付:2024-02-21
- Arxiv arXiv:2402.13616
- ギットハブ github.com/WongKinYiu/yolov9
- ドキュメント docsultralytics.com/models/yolov9/
YOLOv10:総合的な効率と精度を追求した設計
清華大学のAo Wang、Hui Chen、Lihao Liuらによって2024年5月にリリースされたYOLOv10は、リアルタイムでエンドツーエンドの物体検出を行うために設計されており、最大限の効率と速度を重視している。YOLOv10では、精度と効率の両方を向上させるために、NMSフリーのトレーニングのための一貫したデュアル割り当てや、全体的な効率と精度を重視したモデル設計など、いくつかの重要な方法論的改良が導入されている。
アーキテクチャと主な特徴 YOLOv10のアーキテクチャは、計算の冗長性を最小限に抑え、パフォーマンスを最大化するよう綿密に設計されています。軽量分類ヘッド、空間チャンネル分離ダウンサンプリング、ランク誘導型ブロック設計など、効率性を向上させる主要な機能が搭載されています。精度は、ラージ・カーネル・コンボリューションと パーシャル・セルフ・アテンション(PSA)によって向上しています。これらの技術革新により、YOLOv10は精度を犠牲にすることなく、最先端のスピードと効率を達成することができる。YOLOv10の詳細は、論文「YOLOv10: Real-Time End-to-End Object Detection」に記載されています。
パフォーマンス指標: YOLOv10は、リアルタイムの物体検出において新たなベンチマークを打ち立てた。例えば、YOLOv10-Sは、COCOデータセットにおいて、同等のAPでRT-DETR1.8倍高速であると報告されています。YOLOv10-Bは、YOLOv9-Cと同程度の性能レベルを維持しながら、YOLOv9-Cよりも待ち時間を46%短縮し、パラメータを25%削減した。YOLOv10-Nは、T4GPUわずか1.84msという驚異的なレイテンシを達成しています。
強みだ:
- 究極の効率:最小限のレイテンシーと計算コストに最適化されています。
- NMSフリーのトレーニング:一貫したデュアル割り当てにより、Non-Maximum Suppressionなしでエンドツーエンドの展開が可能になり、推論時間が短縮されます。
- 高速:以前のYOLO バージョンや他のモデルと比較して、推論速度が大幅に高速化。
- 優れた正確さ:効率を優先しながら、競争力のある正確さを維持する。
弱点がある:
- 非常に新しいモデル:非常に新しいモデルであるため、現在も活発に開発が進められており、コミュニティからの支持も高まっている。
使用例 YOLOv10は、リアルタイムのパフォーマンスと効率が最優先されるアプリケーションに最適です:
- エッジコンピューティング:リソースが限られたエッジデバイスへの展開。
- リアルタイムビデオ解析:ビデオストリーム内のオブジェクトを即座に検出する必要があるアプリケーション。
- モバイルおよび組み込みシステム:スピードと消費電力が重要なモバイルアプリや組み込みシステムへの統合。
著者とリソース
- 著者Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織清華大学
- 日付:2024-05-23
- Arxiv arXiv:2405.14458
- ギットハブ github.com/THU-MIG/yolov10
- ドキュメント docsultralytics.com/models/yolov10/
比較表
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
スピード T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
結論
YOLOv9とYOLOv10は、それぞれ独自の強みを持ち、物体検出における最先端の進歩を象徴しています。YOLOv9は、プログラム可能な勾配情報により、精度とパラメータ効率に優れ、複雑で詳細な分析に適しています。一方、YOLOv10は、全体的な効率と精度を重視した設計とNMSフリー・トレーニングにより、スピードとリアルタイム性能を優先しており、エッジ・アプリケーションやリアルタイム・アプリケーションに最適です。
成熟度と汎用性のバランスを求めるユーザーへ、 Ultralytics YOLOv8は、依然として堅実な選択肢です。最新の進歩と最高の精度をお求めの方に、 Ultralytics YOLO11もまた、これまでのYOLO 長所を生かした魅力的な選択肢です。最終的に、最適なモデルは、精度、スピード、リソースの制約のバランスを取りながら、プロジェクトの特定の要件によって決まります。