YOLOv10 vsYOLOv7:進化するリアルタイム物体検出アーキテクチャ
YOLO Only Look Once)ファミリーの進化は、一貫してコンピュータビジョンの限界を押し広げ、リアルタイムアプリケーションの速度と精度のバランスを保ってきた。この比較では、YOLOv10とYOLOv10のアーキテクチャの変遷と性能の違いを探ります。 YOLOv10と、清華大学の研究者が発表した最先端モデルである YOLOv7アカデミア・シニカが開発し、大きな影響力を持つモデルである。両モデルとも物体検出の分野に大きく貢献しているが、性能目標を達成するためにそれぞれ異なる戦略を採用している。
モデル・アーキテクチャの進化
YOLOv7 YOLOv10 移行は、ニューラルネットワークの後処理と特徴統合の扱い方におけるパラダイムシフトを意味する。
YOLOv10:NMS革命
YOLOv10清華大学のAo Wang氏、Hui Chen氏らによって2024年5月23日にリリースされたYOLOv10は、画期的なNMS学習戦略を導入している。従来、オブジェクト検出器は、重複するバウンディングボックスをフィルタリングするために非最大抑制(NMS)に依存しており、推論レイテンシのボトルネックになる可能性がある。
YOLOv10 、NMSトレーニングにConsistent Dual Assignmentsを利用することで、モデルが一意のオブジェクトインスタンスを直接予測することを可能にします。全体的な効率と精度を重視したモデル設計と組み合わせることで、軽量な分類ヘッドや空間チャンネル分離ダウンサンプリングを含む様々なコンポーネントを最適化し、計算の冗長性を削減します。
YOLOv7:トレーニング可能なバッグ・オブ・フリービーに最適化
YOLOv72022年7月6日に発表された、Academia SinicaのChien-Yao Wang氏、Alexey Bochkovskiy氏、Hong-Yuan Mark Liao氏によるYOLOv7は、推論コストを増加させることなく学習プロセスを最適化することに焦点を当てている。勾配経路を制御することでネットワークの学習能力を向上させるE-ELAN(Extended Efficient Layer Aggregation Network)を導入している。
YOLOv7 、「Bag-of-Freebies」(推論速度に影響を与えることなく学習中の精度を向上させる手法)と、パラメータを効率的に複合化するモデル・スケーリング技術を多用している。非常に効果的ではあるが、従来のNMS 後処理に依存しているため、エンドツーエンドのレイテンシは、NMS新しいアーキテクチャよりも高くなることが多い。
技術性能の比較
これらのモデルを評価すると、効率と生の検出能力に関して明確なパターンが現れる。YOLOv10 、YOLOv7比較して大幅に少ないパラメータと高速な推論時間で、同等以上のmAP (平均平均精度)を達成し、一般的に優れた効率を提供する。
下の表は、COCO データセットの主要指標の概要である。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
効率性の洞察
このデータは、リソースに制約のある環境におけるYOLOv10 10の決定的な優位性を浮き彫りにしている。YOLOv10mは、YOLOv7l(51.4%mAP)とほぼ同じ精度(51.3%mAP)を達成しながら、半分以下のパラメータ(15.4M対36.9M)と大幅に低いFLOP(59.1B対104.7B)でこれを実現している。
レイテンシーとスループット
YOLOv10 NMS ステップの削除は、混雑したシーンでしばしば見られるレイテンシーのばらつきを劇的に減少させる。自律走行車や ドローン監視のようなミリ秒単位が重要なアプリケーションでは、YOLOv10 10の予測可能な推論時間はセーフティクリティカルな利点を提供する。YOLOv7 、ハイエンドGPUでのスループットでは競争力を維持していますが、同等の結果を得るためには、より多くのメモリと計算を消費します。
ユースケースと応用
このアーキテクチャーの違いによって、各モデルの理想的な展開シナリオが決まる。
YOLOv10理想的なシナリオ
- エッジAI:パラメータ数とFLOP数が少ないため、YOLOv10 Raspberry Piや NVIDIA Jetsonのようなデバイスに最適です。
- リアルタイムビデオ解析:推論速度が速いため、交通管理や小売店分析のための高FPS処理をサポートします。
- ロボット工学待ち時間の短縮は、ロボットのナビゲーションや操作タスクの反応時間の短縮につながる。
YOLOv7理想的なシナリオ
- レガシーシステム:すでにYOLOv7 コードベースと統合されているプロジェクトは、すぐにリファクタリングしなくても、YOLOv7 7が十分に安定していることに気づくかもしれない。
- 汎用検出:VRAMが豊富なサーバー・サイドの展開では、YOLOv77の大型モデルは、以下のような新しい代替品に比べると効率は劣るものの、依然として強力な検出機能を提供している。 YOLO11.
Ultralytics 優位性
どちらのモデルも強力ですが、Ultralytics エコシステムを活用することで、開発者や研究者に明確なメリットがもたらされます。Ultralytics フレームワークは、トレーニング、検証、デプロイメントのためのインターフェースを標準化し、モデル間の切り替えやパフォーマンスのベンチマークを大幅に容易にします。
使いやすさとトレーニングの効率
ディープラーニングにおける主な障壁の1つは、トレーニングパイプラインの複雑さである。YOLOv10 YOLO11を含むUltralyticsモデルは、データの増強、ハイパーパラメータのチューニング、エクスポートを自動的に処理する、合理化されたPython APIを利用しています。
- シンプルなAPI:数行のコードでモデルをトレーニング。
- メモリ効率: Ultralytics 最適化により、生の実装と比較して、トレーニング中のCUDA メモリ使用量が少なくなることがよくあります。
- 事前に訓練された重み:高品質な事前学習済みモデルへのアクセス ImageNetやCOCO 事前に訓練されたモデルを利用することで、転移学習が加速されます。
タスク横断的な多用途性
最新のUltralytics モデルは、単純なバウンディングボックスの検出を超えています。同じフレームワーク内で、インスタンス分割、姿勢推定、指向性オブジェクト検出(OBB)、分類をサポートしています。この汎用性の高さは、旧来のスタンドアロンリポジトリーに対する重要な利点です。
コード例:Ultralytics YOLOv10 実行する
次の例は、Ultralytics APIを使って、事前にトレーニングされたYOLOv10 モデルをロードし、推論を実行するシンプルさを示しています。この使いやすさは、YOLOv7ような古いアーキテクチャでしばしば必要とされる、より手作業的なセットアップとは対照的です。
from ultralytics import YOLO
# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Display the results
results[0].show()
結論と推奨事項
新しいプロジェクトのために YOLOv10またはさらに進化した YOLO11をお勧めします。YOLOv10 NMSアーキテクチャは、速度と精度の優れたバランスを実現し、最新のエッジ・コンピューティングのニーズに高度に適応します。前世代のレイテンシーのボトルネックに対処すると同時に、計算フットプリントを削減します。
とはいえ YOLOv7YOLOv7はコンピュータビジョンの歴史において尊敬に値するマイルストーンではありますが、そのアーキテクチャは今日の基準からすると効率的ではありません。最高のパフォーマンス、長期的なメンテナンス、導入の容易さを求める開発者は、継続的なアップデートと幅広いツールサポートを備えたUltralytics エコシステムが、ビジョンAIソリューションを構築するための最も生産的な環境であることに気づくだろう。