YOLOv6-3.0 vs. EfficientDet:詳細な比較
最適な物体検出モデルの選択は、コンピュータビジョンプロジェクトにおいて非常に重要な決定事項です。このページでは、物体検出分野における主要なモデルであるMeituanのYOLOv6-3.0とGoogleのEfficientDetとの技術比較を提供します。お客様が特定のニーズに合わせて情報に基づいた選択ができるよう、アーキテクチャ設計、性能ベンチマーク、および適切なアプリケーションについて掘り下げて解説します。
YOLOv6-3.0の概要
Meituanが開発したYOLOv6-3.0は、産業用アプリケーション向けに設計されたシングルステージの物体検出フレームワークであり、高いパフォーマンスと効率のバランスを重視しています。ハードウェアを意識したニューラルネットワーク設計を導入することで、YOLOのレガシーを構築しています。
詳細:
- 著者: Chuyi Li、Lulu Li、Yifei Geng、Hongliang Jiang、Meng Cheng、Bo Zhang、Zaidan Ke、Xiaoming Xu、Xiangxiang Chu
- 組織: Meituan
- Date: 2023-01-13
- Arxiv: https://arxiv.org/abs/2301.05586
- GitHub: https://github.com/meituan/YOLOv6
- ドキュメント: https://docs.ultralytics.com/models/yolov6/
アーキテクチャと主な機能
YOLOv6-3.0の主なアーキテクチャ機能には、トレーニング後にネットワーク構造を最適化して推論速度を加速する効率的な再パラメータ化バックボーンと、特徴抽出レイヤーの精度と効率のバランスを取るハイブリッドブロックが含まれます。この設計により、リアルタイムアプリケーションに特に効果的です。
パフォーマンスとユースケース
YOLOv6-3.0は、速度と精度の両方が重要なリアルタイム物体検出タスクに特に適しています。その効率的な設計により、高速な推論時間が可能になり、次のようなアプリケーションに最適です。
- 産業オートメーション:製造業における品質管理とプロセス監視。
- リアルタイム監視:セキュリティシステムと交通管理。
- エッジAIアプリケーション:NVIDIA Jetsonのような計算リソースが限られたデバイスへの展開。
YOLOv6-3.0の強み
- 高速な推論速度: 高速なパフォーマンスのために最適化されており、産業ニーズに適しています。
- 良好な精度: 特に大型モデルバリアントにおいて、競争力のあるmAPスコアを提供します。
- 産業用フォーカス: 実用的な産業展開シナリオ向けに特別に設計されています。
YOLOv6-3.0の弱点
- 汎用性の制限: 主に物体検出に重点を置いており、セグメンテーションや姿勢推定などの他のタスクに対するネイティブサポートがありません。
- エコシステム: オープンソースですが、そのエコシステムはUltralyticsほど包括的ではありません。これは、コミュニティサポートが少なく、アップデートが遅くなる可能性があることを意味します。
EfficientDetの概要
Googleによって導入されたEfficientDetは、物体検出における効率とスケーラビリティで有名であり、以前の多くのモデルよりも少ないパラメータで高い精度を達成しています。
詳細:
- 著者: Mingxing Tan、Ruoming Pang、Quoc V. Le
- 組織: Google
- Date: 2019-11-20
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub: https://github.com/google/automl/tree/master/efficientdet
- ドキュメント: https://github.com/google/automl/tree/master/efficientdet#readme
アーキテクチャと主な機能
EfficientDetのアーキテクチャは、2つの主要な技術革新に基づいて構築されています。
- BiFPN (双方向特徴ピラミッドネットワーク): 効率的かつ効果的なマルチスケール特徴融合を可能にする、重み付けされた双方向特徴ピラミッドネットワークです。従来のFPNとは異なり、BiFPNは双方向のクロススケール接続と重み付けされた特徴融合を使用し、より良い情報伝達を実現します。
- EfficientNet Backbone: EfficientNetシリーズをバックボーンネットワークとして活用しています。EfficientNetモデルは、ニューラルアーキテクチャ検索(NAS)を通じて開発され、パフォーマンスと効率の優れたバランスを実現しています。
EfficientDetは、ネットワークの幅、奥行き、および解像度をスケーリングするための複合スケーリングメソッドを使用し、さまざまな計算予算に合わせてD0からD7までの検出器のファミリーを作成します。
パフォーマンスとユースケース
EfficientDetモデルは、その高い精度で知られており、精度が最優先事項であるが、計算リソースも考慮されるアプリケーションに適しています。使用例としては、以下のようなものがあります。
EfficientDetの長所
- 高精度: 従来の2段階検出器と比較して、比較的高効率なアーキテクチャで最高水準のmAPを達成しています。
- スケーラビリティ: さまざまな計算ニーズに合わせて、幅広いモデル(D0〜D7)を提供します。
- 効率的な特徴融合: BiFPNは、マルチスケール特徴の融合に非常に効果的であり、検出精度を向上させます。
EfficientDet の弱点
- 推論速度: 特に大型のバリアントでは、YOLOv6-3.0のようなシングルステージ検出器よりも一般的に遅く、リアルタイムアプリケーションにはあまり適していません。
- 複雑さ: アーキテクチャ、特にBiFPNは、よりシンプルなシングルステージ検出器よりも複雑です。
性能比較:YOLOv6-3.0 対 EfficientDet
COCOデータセットでの性能ベンチマークは、速度と精度の間に明確なトレードオフがあることを示しています。YOLOv6-3.0モデルは、特にGPU上でTensorRTで高速化された場合に、推論遅延において大きな利点を示しています。例えば、YOLOv6-3.0lは52.8のmAPをわずか8.95msの推論時間で達成していますが、同等のEfficientDet-d6は同様の52.6のmAPに達するものの、89.29msと約10倍遅くなっています。最大のEfficientDet-d7モデルは53.7のmAPで最高の精度を達成していますが、その非常に遅い推論速度は、ほとんどの現実世界のデプロイメントには実用的ではありません。対照的に、YOLOv6-3.0は、より実用的なバランスを提供し、産業用およびリアルタイムシステムに必要な高速性と強力な精度を提供します。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
結論
YOLOv6-3.0とEfficientDetはどちらも強力な物体検出器ですが、それぞれ異なる優先事項に対応しています。EfficientDetは、可能な限り最高の精度を達成することが最も重要であり、推論レイテンシが二次的な懸念事項であるシナリオで優れています。その洗練されたBiFPNとスケーラブルなアーキテクチャは、複雑なシーンのオフライン分析のための強力な候補となっています。しかし、産業および現実世界のアプリケーションの大部分では、YOLOv6-3.0は、その優れた速度と精度のバランスにより、はるかに実用的で効果的なソリューションを提供します。
性能、汎用性、使いやすさの限界を押し広げるモデルを求める開発者や研究者にとって、明確な推奨事項はUltralyticsエコシステムに注目することです。人気の高いUltralytics YOLOv8や最新の最先端YOLO11などのモデルは、大きな利点を提供します。
- パフォーマンスのバランス: Ultralytics YOLOモデルは、速度と精度の間で並外れたトレードオフを実現することで定評があり、多くの場合、特定のモデルサイズにおいて両方の指標で競合他社を上回ります。
- 多様性: 主に物体検出を目的とするYOLOv6やEfficientDetとは異なり、Ultralyticsのモデルはマルチタスクフレームワークであり、インスタンスセグメンテーション、ポーズ推定、画像分類などをすべて単一の統合パッケージ内でサポートします。
- 使いやすさ: Ultralyticsフレームワークは、シンプルなPython API、充実したドキュメント、および多数のチュートリアルにより、合理化されたユーザーエクスペリエンスを実現するように設計されています。
- 充実したエコシステム: 活発な開発、強力なコミュニティサポート、頻繁なアップデート、エンドツーエンドのMLOpsのためのUltralytics HUBのようなツールとのシームレスな統合が利用できます。
- 学習効率: Ultralyticsモデルは効率的に学習でき、多くの場合、より少ないメモリと時間を必要とし、カスタムプロジェクトを加速するためにCOCOデータセット上のすぐに利用できる事前学習済みのウェイトが付属しています。
その他のモデルを見る
YOLOv6-3.0およびEfficientDet以外の選択肢を検討されている場合は、Ultralyticsが文書化している他の最先端モデルをご検討ください。プロジェクトにとって、YOLOv8、YOLOv7、YOLOX、およびトランスフォーマーベースのRT-DETRのようなモデルとの詳細な比較が参考になるかもしれません。