コンテンツにスキップ

YOLOv7 対 YOLOv6-3.0: オブジェクト検出のための詳細なモデル比較

最適な物体検出モデルの選択は、コンピュータビジョンプロジェクトにおいて非常に重要な決定事項であり、精度、速度、およびリソース使用量のバランスが求められます。このページでは、物体検出機能で知られる2つの著名なモデルであるYOLOv7YOLOv6-3.0との詳細な技術比較を提供します。お客様のモデル選択プロセスを支援するために、アーキテクチャ、パフォーマンスベンチマーク、および適切なアプリケーションについて掘り下げて解説します。

YOLOv7:精度と高度なテクニック

台湾のAcademia Sinicaの情報科学研究所の研究者によって開発されたYOLOv7は、効率を維持しながら高い精度を達成することに重点を置いて、リアルタイム物体検出における重要なステップを表しています。

著者: Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
所属: Institute of Information Science, Academia Sinica, Taiwan
日付: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
ドキュメント: https://docs.ultralytics.com/models/yolov7/

アーキテクチャと主な機能

YOLOv7では、推論コストを大幅に増加させることなく、パフォーマンスを向上させることを目的とした、いくつかのアーキテクチャの革新とトレーニング戦略が導入されています。主な機能は以下のとおりです。

  • E-ELAN (Extended-Efficient Layer Aggregation Networks): モデルのバックボーンにおけるこのコアコンポーネントは、ネットワークが特徴を効果的に学習する能力を高め、パラメータと計算効率を向上させます。詳細については、元の論文をご覧ください。
  • モデルスケーリング: モデルの深度と幅に対して複合スケーリング手法を実装し、連結ベースのモデルの原則に基づいて、さまざまなモデルサイズでパフォーマンスを最適化します。
  • Auxiliary Head Training: 学習フェーズ中に補助ヘッドを利用して特徴学習を強化し、高速性を維持するために推論中に削除します。この概念は、他のニューラルネットワークで使用される深い教師あり学習技術に関連しています。
  • 「Bag-of-Freebies」の強化: データ拡張やラベル割り当ての改良など、追加の推論コストなしで精度を向上させる高度な学習テクニックを組み込んでいます。

長所

弱点

  • 複雑さ: 高度なアーキテクチャ機能とトレーニングテクニックにより、YOLOv5のようなより単純なアーキテクチャと比較して、モデルの理解と微調整がより複雑になる可能性があります。
  • リソース集約型トレーニング: より大きなYOLOv7バリアント(YOLOv7-E6Eなど)は、トレーニングにかなりの計算リソースを必要とします。

YOLOv7の詳細について。

YOLOv6-3.0:産業効率と速度

YOLOv6-3.0は、Meituanによって開発され、速度と効率に重点を置いた高性能な物体検出を要求する産業用アプリケーション向けに設計されています。バージョン3.0は、前身を大幅に強化し、精度と推論時間を改善しています。

著者: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, and Xiangxiang Chu
所属: Meituan
日付: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
ドキュメント: https://docs.ultralytics.com/models/yolov6/

アーキテクチャと主な機能

YOLOv6-3.0は、実装を念頭に置いて設計されており、推論速度を優先するいくつかの主要なアーキテクチャ上の選択がなされています。

  • ハードウェアを考慮した設計: このアーキテクチャは、RepVGGスタイルの再パラメータ化可能なブロックを使用することにより、特にGPUにおいて、さまざまなハードウェアプラットフォームでの効率的なパフォーマンスに合わせて調整されています。
  • EfficientRep Backbone and Rep-PAN Neck: これらの構造は、計算のボトルネックとメモリアクセスのコストを削減するように設計されており、推論の高速化に直接つながります。
  • Decoupled Head: 分類ヘッドとローカリゼーションヘッドを分離することで、収束と最終的なモデル精度が向上することが示されており、このテクニックはYOLOXのようなモデルでも見られます。

長所

  • 高速な推論速度: 高速な推論に最適化されており、遅延が重要な要素となるリアルタイムアプリケーションに非常に適しています。
  • 産業用フォーカス: 製造業などの実際の環境における堅牢性と効率性を確保し、産業展開のシナリオを念頭に置いて設計されています。
  • 効率的な設計: YOLOv6-3.0の小型バリアントは、パラメータ数とFLOPカウントが非常に低いため、リソースが限られた環境に最適です。

弱点

  • 精度に関するトレードオフ: 非常に効率的ではあるものの、速度よりも最大精度を優先するYOLOv7のようなモデルと比較して、複雑なデータセットでは精度がわずかに低くなる場合があります。
  • エコシステムと多様性: YOLOv6のエコシステムは、Ultralyticsモデルほど包括的ではなく、主に物体検出に重点を置いています。

ユースケース

YOLOv6-3.0は、速度と効率が最も重要なアプリケーションに優れています。

  • 産業オートメーション: 製造業における品質管理とプロセス監視。
  • リアルタイムシステム: ロボティクスや監視など、厳密な遅延要件を持つアプリケーション。
  • Edge Computing: 効率的な設計により、リソース制約のあるデバイスへのデプロイが可能です。NVIDIA Jetsonのようなデバイスへのデプロイに関するガイドをご覧ください。

YOLOv6-3.0の詳細について。

性能比較:YOLOv7 対 YOLOv6-3.0

以下の表は、COCOデータセットにおけるYOLOv7とYOLOv6-3.0の同等のバリアントのパフォーマンス指標をまとめたものです。

モデル サイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
YOLOv6-3.0n 640 37.5 - 1.17 4.7 11.4
YOLOv6-3.0s 640 45.0 - 2.66 18.5 45.3
YOLOv6-3.0m 640 50.0 - 5.28 34.9 85.8
YOLOv6-3.0l 640 52.8 - 8.95 59.6 150.7

注:速度ベンチマークは、ハードウェア、ソフトウェア(TensorRTONNXOpenVINO)、バッチサイズ、および特定の構成によって異なる場合があります。mAP値は通常、COCO valデータセットで報告されます。

表に基づくと、YOLOv7xが最高のmAPを達成しており、優れた精度を示しています。ただし、YOLOv6-3.0モデル、特にYOLOv6-3.0nのような小型のバリアントは、特にTensorRT最適化を施したGPU上で、大幅に高速な推論速度を提供し、パラメータとFLOPも少ないため、非常に効率的です。選択は、最大の精度(YOLOv7)を優先するか、最適な速度/効率(YOLOv6-3.0)を優先するかによって異なります。

Ultralytics YOLOモデルを選ぶ理由

包括的で使いやすいエコシステム内で最先端のモデルを求めるユーザーのために、Ultralytics は YOLOv8 と最新の Ultralytics YOLO11 を提供しています。これらのモデルは、YOLOv7 と YOLOv6 の両方に対して大きな利点を提供します。

  • 使いやすさ: Ultralyticsモデルには、合理化されたPython API、充実したドキュメント、および簡単なCLIコマンドが付属しており、トレーニング、検証、およびデプロイメントが簡素化されています。
  • 充実したエコシステム: 活発な開発、強力なオープンソースコミュニティ、頻繁なアップデート、そしてシームレスなMLOpsのためのUltralytics HUBのようなツールとの統合の恩恵を受けられます。
  • パフォーマンスのバランス: Ultralyticsモデルは、速度と精度の間で優れたトレードオフを実現しており、エッジデバイスからクラウドサーバーまで、多様な現実世界のシナリオに適しています。
  • 多様性: YOLOv8やYOLO11のようなモデルは、セグメンテーション分類ポーズ推定傾斜物体検出(OBB)など、物体検出以外の複数のタスクをサポートし、統一されたソリューションを提供します。
  • 学習効率: 効率的な学習プロセス、COCOのようなデータセットですぐに利用できる事前学習済みの重み、およびより速い収束時間を活用できます。

さらに詳しく知りたい場合は、RT-DETRのような他のモデルとの比較も参考になるかもしれません。



📅 1年前に作成 ✏️ 1か月前に更新

コメント