YOLOv6-3.0 vs YOLOv7:詳細な技術比較
最適な物体検出モデルの選択は、コンピュータビジョンプロジェクトにおいて非常に重要な決定事項であり、精度、速度、およびリソース使用量のバランスが求められます。このページでは、物体検出機能で知られる2つの著名なモデルであるYOLOv6-3.0とYOLOv7との詳細な技術比較を提供します。お客様のモデル選択プロセスを支援するために、アーキテクチャ、パフォーマンスベンチマーク、および適切なアプリケーションについて掘り下げて解説します。
YOLOv6-3.0:産業用速度のために設計
Meituanが開発したYOLOv6-3.0は、速度と効率に重点を置いた、高性能な物体検出を必要とする産業用アプリケーション向けに設計されています。バージョン3.0は、精度と推論時間を改善し、リアルタイムシステムにとって強力な候補となる、前身を大幅に強化したものです。
著者: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, and Xiangxiang Chu
所属: Meituan
日付: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
ドキュメント: https://docs.ultralytics.com/models/yolov6/
アーキテクチャと主な機能
YOLOv6-3.0は、効率的な再パラメータ化バックボーンを活用するハードウェアを意識したニューラルネットワーク設計を導入しています。この設計の選択は、産業用デプロイメントにとって重要な要素である推論速度を加速する能力の中心となります。このアーキテクチャには、精度と計算効率の最適なバランスを実現するように細心の注意を払って設計されたハイブリッドブロック構造も組み込まれています。ハードウェアフレンドリーに重点を置くことで、モデルはサーバーからエッジデバイスまで、さまざまなデプロイメントプラットフォームで優れたパフォーマンスを発揮します。
長所
- 高速な推論速度: 高速な推論に最適化されており、厳格な遅延要件を持つアプリケーションに非常に適しています。
- 産業用フォーカス: 製造業におけるAIなど、実際的な産業シナリオを念頭に置いて設計されており、堅牢性と効率性を確保します。
- ハードウェアを考慮した設計: このアーキテクチャは、CPUやGPUを含む、さまざまなハードウェアプラットフォームでの効率的なパフォーマンスに合わせて調整されています。
弱点
- 精度に関するトレードオフ: 非常に効率的ではあるものの、最大精度を優先するYOLOv7のようなモデルと比較して、複雑なデータセットでは精度がわずかに低くなる場合があります。
- 汎用性の制限: 元のフレームワークは主に物体検出に重点を置いており、より統合されたモデルとは異なり、他のタスクには個別の実装が必要です。
ユースケース
YOLOv6-3.0は、速度と効率が最も重要なアプリケーションに優れています。
- 産業オートメーション: 品質管理、プロセス監視、および高速検出を必要とするその他の産業アプリケーションに最適です。
- リアルタイムシステム: リアルタイム監視、ロボティクス、および厳密な遅延制約を持つアプリケーションでの展開に適しています。
- エッジコンピューティング: 効率的な設計により、リソース制約のあるデバイスへの実装に最適です。NVIDIA Jetsonのようなデバイスへの実装に関するガイドをご覧ください。
YOLOv7:精度の限界を押し広げる
台湾のAcademia Sinicaの情報科学研究所の研究者によって開発されたYOLOv7は、効率を維持しながら高い精度を達成することに重点を置いて、リアルタイム物体検出における大きな飛躍を表しています。
著者: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
所属: Institute of Information Science, Academia Sinica, Taiwan
日付: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
ドキュメント: https://docs.ultralytics.com/models/yolov7/
アーキテクチャと主な機能
YOLOv7では、推論コストを大幅に増加させることなく、パフォーマンスを向上させることを目的とした、いくつかのアーキテクチャの革新とトレーニング戦略が導入されています。主な機能は以下のとおりです。
- E-ELAN (Extended-Efficient Layer Aggregation Networks): この斬新なネットワーク設計は、モデルが特徴を効果的に学習する能力を高め、パラメータと計算効率の両方を向上させます。詳細については、元の論文をご覧ください。
- 複合モデルのスケーリング: モデルの深さと幅に対して複合スケーリングメソッドを実装し、さまざまなモデルサイズでパフォーマンスを最適化します。
- 「Bag-of-Freebies」の強化: YOLOv7は、洗練されたデータ拡張やラベル割り当て戦略など、追加の推論コストなしで精度を向上させる高度な学習テクニックを組み込んでいます。同様のテクニックについては、data augmentation guideをご覧ください。
- Auxiliary Head Training: 特徴学習を強化するために、学習フェーズ中に補助ヘッドを利用します。これらのヘッドは、高速性を維持するために推論時には削除されます。
長所
- 高精度: COCOデータセットのような標準的なベンチマークで、最高水準の精度を達成しています。
- 効率的なパフォーマンス: 高い精度と競争力のある推論速度のバランスが取れており、多くのリアルタイムアプリケーションに適しています。
- 多様性: 公式リポジトリでは、ポーズ推定やインスタンスセグメンテーションなど、検出以外のタスクに対するコミュニティ主導のサポートが示されています。
弱点
- 複雑さ: 高度なアーキテクチャ機能とトレーニングテクニックにより、より単純なアーキテクチャと比較して、モデルの理解と微調整がより複雑になる可能性があります。
- リソース集約的な学習: 大規模なYOLOv7バリアント(YOLOv7-E6Eなど)は、学習にかなりの計算リソースを必要とします。
ユースケース
YOLOv7は、高い精度が主な目標となるアプリケーションに最適です。
- 高度な監視: 混雑したシーンで、微妙なオブジェクトや小さなオブジェクトを検出し、セキュリティを強化します。
- 自律システム: 自動運転車やドローンの安全なナビゲーションのための高精度な物体検出を提供。
- 科学研究: 正確な結果を得るために高精度が重要な複雑な視覚データを分析します。
性能比較:YOLOv6-3.0 対 YOLOv7
以下の表は、COCOデータセットにおけるYOLOv6-3.0とYOLOv7の同等のバリアントのパフォーマンス指標をまとめたものです。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
注:速度ベンチマークは、ハードウェア、ソフトウェア(TensorRT、ONNX、OpenVINO)、バッチサイズ、および特定の構成によって異なる場合があります。mAP値は通常、COCO valデータセットで報告されます。
表に基づくと、YOLOv7xが最高のmAPを達成しており、優れた精度を示しています。ただし、YOLOv6-3.0モデル、特にYOLOv6-3.0nのような小型のバリアントは、特にTensorRT最適化を施したGPU上で、大幅に高速な推論速度を提供します。また、パラメータとFLOPも少ないため、非常に効率的です。選択は、最大の精度(YOLOv7)を優先するか、最適な速度と効率(YOLOv6-3.0)を優先するかによって異なります。
Ultralyticsの利点:YOLOv8とYOLO11を選ぶ理由
YOLOv6 と YOLOv7 は強力なモデルですが、包括的でユーザーフレンドリーなエコシステム内で最先端のソリューションを求めている開発者や研究者は、最新の Ultralytics YOLO モデルを検討する必要があります。Ultralytics YOLOv8 や最新の YOLO11 のようなモデルは、いくつかの重要な利点を提供します。
- 使いやすさ: Ultralyticsモデルは、開発者のエクスペリエンスを念頭に置いて設計されており、トレーニング、検証、およびデプロイメントを簡素化する合理化されたPython API、充実したドキュメント、およびシンプルなCLIコマンドを備えています。
- 適切に管理されたエコシステム: アクティブな開発、強力なオープンソースコミュニティ、頻繁なアップデート、およびエンドツーエンドのMLOpsのためのUltralytics HUBのようなツールとのシームレスな統合を活用できます。
- 多様性: YOLOv8やYOLO11のようなモデルは、真のマルチタスク機能を備えており、単一の統一されたフレームワーク内で、物体検出、セグメンテーション、分類、ポーズ推定、傾斜物体検出(OBB)をサポートします。
- パフォーマンスのバランス:Ultralyticsのモデルは、速度と精度の間で優れたトレードオフを実現しており、エッジデバイスからクラウドサーバーまで、幅広い現実世界のシナリオに適しています。
- 学習効率: 効率的な学習プロセス、すぐに利用できる事前学習済みのウェイト、およびより速い収束時間を活用して、貴重な時間と計算リソースを節約できます。
結論
YOLOv6-3.0とYOLOv7はどちらも、コンピュータビジョンの可能性を押し広げた強力な物体検出モデルです。YOLOv6-3.0は、推論速度と効率を優先するシナリオで優れており、産業用アプリケーションやエッジデプロイメントに最適です。対照的に、YOLOv7はより高いピーク精度を提供し、精度が主な懸念事項であるタスクに最適ですが、計算コストが潜在的に高くなる可能性があります。
他の最先端オプションの検討にご興味のある方には、Ultralyticsは、パフォーマンス、汎用性、使いやすさの優れたバランスを提供するYOLOv8やYOLO11などのモデルを提供しています。YOLOXやRT-DETRなどの他のモデルとの比較も、さらに検討するのに役立つかもしれません。