EfficientDet vsYOLOv6.0:物体検出アーキテクチャの徹底比較
適切な物体検出モデルを選択することは、精度、レイテンシ、デプロイ制約のバランスを取る作業であることが多い。本比較では、コンピュータビジョン史における二つの重要なマイルストーンを探る:2019年にパラメータ効率をGoogleキテクチャ「EfficientDet」、そして2023年にGPU 最適化された美団(Meituan)の産業用グレード検出器YOLOv6.YOLOv6」である。
性能指標の比較
以下の表は、2つのアーキテクチャ間の性能差を比較したものです。EfficientDetはパラメータ効率(所定の精度におけるモデルサイズの縮小)に重点を置く一方、YOLOv6.YOLOv6GPUなどのハードウェアアクセラレータ上での推論速度を優先します。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
EfficientDet: スケーラブルでパラメータ効率に優れた
EfficientDetは、物体検出モデルの効率的なスケーリングという課題に対処するため、Google チームによって導入されました。ネットワークを単純に深くしたり広くしたりする従来のモデルとは異なり、EfficientDetは解像度、深さ、幅を均一にスケーリングする複合スケーリング手法を導入しました。
主要なアーキテクチャ機能
- BiFPN(重み付き双方向特徴ピラミッドネットワーク):EfficientDetは複雑な特徴融合経路を構築する。標準的なFPNとは異なり、BiFPNは異なる入力特徴に学習可能な重みを導入することで、容易なマルチスケール特徴融合を可能にし、ネットワークがより重要な情報を優先することを保証する。
- EfficientNetバックボーン:浮動小数点演算(FLOPs)とパラメータ数に対して高度に最適化されたEfficientNetをバックボーンとして利用する。
- 複合スケーリング:単一の係数 $\phi$ が、バックボーン、BiFPN、およびクラス/ボックスネットワークのスケーリングを同時に制御する。
複雑性に関する警告
BiFPNは数学的に洗練されパラメータ効率に優れる一方、その不規則なメモリアクセスパターンは、YOLO 単純な畳み込みブロックと比較して、特定のハードウェアアクセラレータ上での最適化を困難にする可能性がある。
メタデータ:
- 著者: Mingxing Tan、Ruoming Pang、Quoc V. Le
- 組織:Google Research
- 日付: 2019年11月20日
- リンク:Arxiv|GitHub
YOLOv6.0: 産業用スピードデモン
美団(Meituan)が2023年にYOLOv6(通称「フルスケール・リローディング」)YOLOv6、産業用途を明確に想定して設計された。開発陣は理論上のFLOPSよりもGPU上での実運用推論速度を優先した結果、動画解析などの高スループットシナリオで圧倒的な性能を発揮するモデルが誕生した。
主要なアーキテクチャ機能
- RepBi-PAN:この更新された首構造はRepVGGスタイルのブロックを採用している。学習時には、これらのブロックは勾配の流れを改善するためマルチブランチトポロジーを持つ。推論時には、構造的に単一の3x3畳み込みに再パラメータ化され、遅延を大幅に削減する。
- アンカー補助トレーニング(AAT): YOLOv6 基本的にアンカーフリー検出器 YOLOv6 、v3.0では収束を安定化させ、推論速度に影響を与えずに精度を向上させるため、トレーニング中に補助的なアンカーベースの分岐を導入した。
- 分離型ヘッド:分類と回帰のタスクは別々のブランチに分離されており、この設計選択は現代の検出器において標準となり、これら二つの目的間の矛盾を解決している。
メタデータ:
比較分析
レイテンシとスループット
YOLOv6.YOLOv6 GPU 上で大幅に高速化されています。表に示す通り、YOLOv6.YOLOv6は TensorRT わずか8.95msで mAP 52.mAP を達成しています。 一方、EfficientDet-d6は同等の52.6%mAP を達成mAP 89.29msを要し、実質的に1桁遅い。これにより、NVIDIA やJetsonデバイスでのリアルタイム処理を必要とするアプリケーションにおいて、YOLOv6 明らかなYOLOv6 となる。
パラメータ効率
EfficientDetは、ストレージが主要なボトルネックとなる環境で優れた性能を発揮する。EfficientDet-d0はわずか390万パラメータ mAP 34.6%mAP 十分なmAP を達成する。これは最小YOLOv6 よりも少ない。学術研究や極端に制約されたストレージ環境(例:小型モバイルアプリパッケージへのモデル直接組み込み)においては、EfficientDetの小さなフットプリントが依然として有用である。
トレーニングとユーザビリティ
EfficientDetはTensorFlow エコシステムに依存しており、PyTorchワークフローへの統合が煩雑になりがちです。トレーニングでは複合スケーリングのための複雑なハイパーパラメータ調整が頻繁に必要となります。YOLOv6.YOLOv6より現代的なトレーニング手法を提供しますが、物体検出に重点を置いており、セグメンテーションや姿勢推定などの他のタスクに対するネイティブサポートをコアリリースでは欠いています。
Ultralyticsの利点
これらのアーキテクチャを研究することは貴重な知見をもたらしますが、現代の開発には包括的なプラットフォームが必要です。Ultralytics 、機械学習のライフサイクル全体に焦点を当てることで、個々のモデルアーキテクチャを超越する包括的なエコシステムUltralytics 。
なぜUltralyticsに切り替えるべきか?
- 比類なき汎用性:主に物体検出器YOLOv6 EfficientDetやYOLOv6 とは異なり、Ultralytics インスタンスセグメンテーション、姿勢推定、方向付きバウンディングボックス(OBB)、分類をネイティブにサポートします。
- 使いやすさ:一貫したPython 、単一の文字列を変更するだけでモデル世代(例:YOLO11 )を切り替えることが可能です。
- メモリ効率: Ultralytics トレーニング時のVRAM使用量を低減するよう最適化されており、メモリ消費量の多いEfficientDetアーキテクチャと比較して、コンシューマー向けGPU上でより大きなバッチサイズを実現します。
YOLO26登場:新たな基準
最先端を求める開発者にとって、YOLO26は効率性と性能の頂点を体現する。2026年1月にリリースされた本モデルは、EfficientDet(速度)YOLOv6 CPU )の双方の限界を克服している。
YOLO26のブレイクスルー:
- エンドツーエンドNMS: 非最大抑制(NMS)を排除することで、YOLO26は展開ロジックを簡素化し、推論遅延のばらつきを低減します。
- MuSGDオプティマイザ:LLMトレーニングに着想を得たこのハイブリッドオプティマイザは、トレーニングを安定化させ収束を加速します。
- エッジ最適化:ディストリビューション焦点損失(DFL)の削除と特定のアーキテクチャ調整により、YOLO26はCPUにおいて前世代比最大43%高速化。これにより、EfficientDetがしばしば苦戦するラズベリーパイやモバイル展開において優れた性能を発揮します。
- 高度な損失関数: ProgLossと STALの統合により、小型物体検出が大幅に改善され、ドローン画像やIoTセンサーにとって重要な要件を満たす。
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on COCO8 dataset with MuSGD optimizer
model.train(data="coco8.yaml", epochs=100, optimizer="MuSGD")
# Export to ONNX for NMS-free deployment
model.export(format="onnx")
ユースケースの推奨事項
- 効率的な特徴量融合(EfficientDet)を選択すべき場合:特徴量融合のスケーリングに関する学術研究を行っている場合、またはモデル重みサイズ(MB)が厳格な制約となるレガシーなTensorFlow を扱っている場合。
- 以下のYOLOv6.YOLOv6を選択してください: NVIDIA (T4やA10など)に限定してデプロイする場合で、標準的な物体検出における純粋なスループット(FPS)が唯一の指標となる場合。
- Ultralytics すべき場合:-GPU が取れた本番環境対応ソリューションが必要な場合- 複雑な後処理が不要(NMS)な場合- 単純な検出(セグメンテーションやOBBなど)を超えるタスクを実行する必要がある場合- 簡素化されたトレーニングワークフローが求められる場合
現代的な物体検出器についてさらに探求するには、YOLOv8 や、リアルタイム検出トランスフォーマー(RT-DETR)の機能に関する当社の比較記事をお読みください。