YOLOv10 vs YOLOv7:詳細な技術比較
適切な物体検出モデルの選択は、コンピュータビジョンプロジェクトにとって非常に重要であり、パフォーマンス、速度、およびリソースの使用に影響を与えます。このページでは、ニーズに最適なモデルを選択できるように、You Only Look Once (YOLO)ファミリーの2つの重要なモデルであるYOLOv10とYOLOv7の間の技術的な比較を提供します。アーキテクチャ、パフォーマンス指標、および理想的なユースケースについて詳しく説明します。
YOLOv10
2024年5月に清華大学の研究者によって発表されたYOLOv10は、リアルタイム物体検出における重要な進歩を表しています。その主な革新は、推論中にNon-Maximum Suppression (NMS)の必要性を排除することにより、エンドツーエンドの物体検出を実現することです。このブレークスルーにより、計算オーバーヘッドが削減され、推論レイテンシが低下し、デプロイメントがより効率的になります。
技術詳細:
- 著者: Ao Wang, Hui Chen, Lihao Liu, et al.
- 組織: 清華大学
- Date: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- ドキュメント: https://docs.ultralytics.com/models/yolov10/
アーキテクチャと主な機能
YOLOv10は、速度と精度のトレードオフを最適化することを目的とした、いくつかのアーキテクチャの革新を導入しています。
- NMS不要の学習: ラベル割り当てに一貫した二重割り当てを利用することにより、YOLOv10は冗長な予測を回避し、NMSポストプロセスステップの必要性を排除します。これにより、デプロイメントパイプラインが簡素化され、モデルが真のエンドツーエンドになります。
- 全体的な効率と精度を重視した設計: モデルアーキテクチャは、効率とパフォーマンスの両方のために全体的に最適化されました。これには、軽量な分類ヘッドの導入や、空間チャネル分離ダウンサンプリングを使用して、計算の冗長性を減らしながらモデルの能力を高めることが含まれます。
- Anchor-Free Approach: 他の最新のYOLOモデルと同様に、アンカーフリー検出器設計を採用しており、検出ヘッドを簡素化し、汎化を向上させます。
- シームレスなUltralytics統合: YOLOv10はUltralyticsエコシステムに完全に統合されており、シンプルなPython APIと強力なCLIコマンドによる合理化されたユーザーエクスペリエンスの恩恵を受けています。これにより、トレーニング、検証、およびデプロイメントが非常に簡単になります。
長所
- 最先端の効率性: NMSフリーの設計とアーキテクチャの最適化により、推論速度が向上し、遅延が大幅に削減されます。これは、リアルタイムアプリケーションにとって非常に重要です。
- 競争力のある精度: YOLOv10は、以前のバージョンと比較して、モデルサイズと計算コストを大幅に削減しながら、強力な精度を維持します。
- デプロイメントの簡素化: NMSの削除により、真のエンドツーエンドの検出パイプラインが実現し、特にエッジデバイスへのデプロイが容易になります。
- 優れたスケーラビリティ: Nano(N)からExtra-large(X)までの範囲のモデルを提供し、リソース制約のあるエッジハードウェアから強力なクラウドサーバーまで、多様なパフォーマンスニーズに対応します。
弱点
- 新しいモデル: 最近のリリースであるため、コミュニティサポートとサードパーティの統合の数は、YOLOv7やUltralytics YOLOv8などのより確立されたモデルと比較して少ない可能性があります。
YOLOv7
2022年7月にリリースされたYOLOv7は、速度と精度の驚くべきバランスで、物体検出の新たな標準を急速に確立しました。Academia Sinicaの情報科学研究所の研究者によって開発され、推論コストを増加させることなくパフォーマンスを向上させるために、「trainable bag-of-freebies」として知られるいくつかのアーキテクチャの改善とトレーニング戦略が導入されました。
技術詳細:
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織: Institute of Information Science, Academia Sinica, Taiwan
- Date: 2022-07-06
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- ドキュメント: https://docs.ultralytics.com/models/yolov7/
アーキテクチャと主な機能
YOLOv7のアーキテクチャには、リリース当時、リアルタイム物体検出の限界を押し広げるいくつかの重要な拡張機能が組み込まれています。
- Extended Efficient Layer Aggregation Networks (E-ELAN): この高度なネットワーク構造は、効率的な勾配フローを維持しながら、多様な特徴を学習するモデルの能力を向上させ、より優れた精度とより高速な収束につながります。
- 連結ベースモデルのモデルスケーリング: YOLOv7では、さまざまな計算予算に合わせてパフォーマンスを最適化するために、モデルの深度と幅をインテリジェントに調整する複合スケーリング手法が導入されました。
- 学習可能なBag-of-Freebies: 粗から細へのガイダンスを備えた補助ヘッドの使用など、高度なトレーニング手法を活用して、推論中のオーバーヘッドを追加することなく精度を向上させます。
長所
- 高いmAP: 優れた物体検出精度を実現し、精度が最も重要なアプリケーションに最適です。
- 高速推論: 多くのリアルタイムタスク、特にGPUハードウェア上で適した、競争力のある推論速度を提供します。
- 十分に確立されている: YOLOv7は、より長い期間利用可能であったため、より大きなコミュニティベース、より多くのチュートリアル、およびさまざまなプロジェクトでのより広範な採用の恩恵を受けています。
弱点
- NMS依存関係: YOLOv10とは異なり、YOLOv7はNMSポストプロセッシングステップに依存しており、これにより全体の推論レイテンシが増加し、デプロイメントパイプラインが複雑になります。
- 効率が低い: YOLOv10と比較して、YOLOv7モデルは一般的に、同程度の精度に対してより多くのパラメータとより高いFLOPsを持つため、効率が低下します。
性能比較:YOLOv10 vs YOLOv7
性能を比較すると、YOLOv10は効率において明らかな優位性を示しています。最も直接的な比較は、YOLOv10-MとYOLOv7-Lの間で行われます。下の表に示すように、YOLOv10-MはYOLOv7-Lの51.4%と比較して、ほぼ同一の51.3%のmAPvalを達成しています。しかし、YOLOv10-Mははるかに効率的です。より高速であり(TensorRTで5.48ms対6.84ms)、パラメータ数が半分以下(15.4M対36.9M)で、必要な計算リソースもはるかに少なくなっています(59.1B FLOPs対104.7B FLOPs)。これは、YOLOv10の優れたアーキテクチャ設計が、はるかに高い効率で同等の精度を実現していることを示しています。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
結論
YOLOv10とYOLOv7はいずれも強力な物体検出モデルですが、YOLOv10はリアルタイム検出効率における次のステップを表しています。そのNMSフリーアーキテクチャは、精度を犠牲にすることなく、より速く、より軽く、より簡単にデプロイできる真のエンドツーエンドソリューションを提供します。新しいプロジェクト、特にエッジAIをターゲットとするプロジェクトや、最小限のレイテンシを必要とするプロジェクトでは、YOLOv10が推奨される選択肢です。
YOLOv7 は依然として有能なモデルですが、NMS への依存と効率の低いアーキテクチャにより、その広範なコミュニティリソースが主な考慮事項となるレガシープロジェクトやシナリオに適しています。最高のパフォーマンス、使いやすさ、および包括的なエコシステムを求めている開発者にとって、YOLOv10 のような Ultralytics モデルは優れたエクスペリエンスを提供します。Ultralytics HUB との統合により、トレーニングとデプロイがさらに簡素化され、高度な コンピュータビジョン がこれまで以上にアクセスしやすくなります。
その他のモデルを見る
さらに詳しく知りたい場合は、Ultralyticsのドキュメントで公開されている以下の最先端モデルをご検討ください。
- Ultralytics YOLOv8:検出、セグメンテーション、ポーズ推定など、複数のビジョンタスクで優れた性能を発揮する、汎用性の高いモデル。
- YOLOv9: 深いネットワークにおける情報損失に対処するために、Programmable Gradient Information (PGI)のようなイノベーションを導入します。
- YOLO11:最先端のパフォーマンス、マルチタスクサポート、および比類のない使いやすさを提供する、Ultralyticsの最新公式モデル。