EfficientDetとYOLO11比較:効率とリアルタイム性能のバランス
物体検出の状況は、正確なだけでなく、実世界での展開に十分な効率性を持つモデルの必要性によって、急速に進化している。この進化における2つの重要なマイルストーンは、GoogleEfficientDetと Ultralytics YOLO11.どちらのアーキテクチャも、速度と精度のトレードオフを最適化することを目的としていますが、異なる設計思想で問題に取り組み、異なる主要なユースケースをターゲットにしています。
EfficientDetは、パラメータ効率と理論計算コスト(FLOPs)を重視し、モデル次元をスケーリングする体系的な手法を導入することで、この分野に革命をもたらした。対照的に、YOLO11 11はリアルタイムコンピュータビジョンの最先端を代表するものであり、最新のハードウェア上での実用的な推論速度、タスク間の汎用性、開発者中心の体験を優先している。この包括的な比較では、それぞれの技術仕様、アーキテクチャの革新性、性能ベンチマークを掘り下げて解説し、プロジェクトに適したツールの選択を支援します。
GoogleのEfficientDet
EfficientDetは、Google Brainチームによって開発されたオブジェクト検出モデルのファミリーである。2019年後半にリリースされたこのモデルは、しばしば大規模なバックボーンや最適化されていない特徴融合ネットワークに依存していた、これまでの最先端の検出器の非効率性に対処するために設計された。
技術詳細:
- 著者: Mingxing Tan、Ruoming Pang、Quoc V. Le
- 組織Google
- Date: 2019-11-20
- Arxiv:EfficientDet:スケーラブルで効率的な物体検出
- GitHubgoogle
- ドキュメントEfficientDet README
アーキテクチャと主要なイノベーション
EfficientDetの成功は、効率を最大化するために連動する2つの主要なアーキテクチャ上の貢献にある:
- BiFPN(双方向特徴ピラミッドネットワーク):従来の特徴ピラミッドネットワーク(FPN)は、異なるスケールからの特徴をトップダウン方式で融合していた。EfficientDetはBiFPNを導入し、トップダウンとボトムアップの両方向に情報を流すことを可能にした。さらに、重み付けされた特徴融合メカニズムを採用し、各入力特徴の重要性を学習することで、ネットワークがより情報量の多い信号を優先することを可能にした。
- 複合スケーリング:EfficientNetにヒントを得たこの手法は、バックボーン、特徴ネットワーク、予測ネットワークの解像度、深さ、幅を均一にスケーリングすることで、モデルのファミリー(D0~D7)を作成します。これにより、モデルが大きくなっても様々なコンポーネント間のバランスが保たれ、FLOPsとパラメータ数が最適化されます。
EfficientNetのバックボーン
EfficientDetは、同じくGoogle開発した分類ネットワークであるEfficientNetをバックボーンとして利用している。EfficientNetは、最も効率的なネットワーク構造を見つけるためにNeural Architecture Search (NAS)を使って最適化され、計算量を減らすために深さ方向に分離可能な畳み込みを多用している。
長所と短所
EfficientDetは、その高いパラメータ効率で知られ、競争力のある mAP値スコアを達成する。EfficientDetはスケーラブルであるため、研究者は理論的な計算予算に合ったモデルサイズを選択することができます。
しかし、理論的な効率が必ずしも実用的な速度につながるとは限りません。深さ方向に分離可能な畳み込みの多用や、BiFPNの複雑な接続性は、GPU 利用率を低下させる可能性があります。その結果、GPUでの推論レイテンシは、YOLO シリーズのような並列処理に最適化されたモデルと比較して、しばしば高くなります。さらに、EfficientDetはあくまで物体検出器であり、同じコードベース内でインスタンスのセグメンテーションや ポーズ推定のような他のコンピュータビジョンタスクをネイティブにサポートしていません。
理想的なユースケース
- CPU上のエッジAI:メモリが厳しい制約となり、GPU アクセラレーションが利用できないデバイス。
- 学術研究:ニューラルネットワークの効率とスケーリング法則に焦点を当てた研究。
- 低消費電力アプリケーション:バッテリ消費量(FLOPsに連動)を最小限に抑えることが、生のレイテンシよりも重要なシナリオ。
Ultralytics YOLO11
Ultralytics YOLO11は、高い評価を得ているYOLO (You Only Look Once)シリーズの最新版です。YOLO11は、開発者が期待する光速の推論速度を維持しながら、精度の限界を押し広げるアーキテクチャの改良を導入し、リアルタイム性能の遺産を構築しています。
技術詳細:
- 著者: Glenn Jocher、Jing Qiu
- 組織Ultralytics
- 日付: 2024-09-27
- GitHubultralytics
- ドキュメントYOLO11 ドキュメント
アーキテクチャと機能
YOLO11 、最先端のアンカーレス検出ヘッドを採用し、手動によるアンカーボックスの設定を不要にし、学習プロセスを簡素化しました。そのバックボーンとネックアーキテクチャは、特徴抽出機能を強化するために最適化されており、小さな物体の検出や乱雑なシーンなどの困難なタスクのパフォーマンスを向上させます。
EfficientDetがFLOP削減に主眼を置いているのとは異なり、YOLO11 11はハードウェアを意識した効率化を目指して設計されている。これは、GPUやNPUアクセラレーターのスループットを最大化するために、レイヤーと演算が選択されていることを意味する。
解き放たれた多用途性
単一のYOLO11 モデル・アーキテクチャは、幅広いビジョン・タスクをサポートする。同じフレームワークの中で 物体検出, インスタンス分割, 画像分類, 姿勢推定そして オリエンテッドバウンディングボックス(OBB)検出
長所と短所
YOLO11最大の強みは、その卓越したスピードと精度のバランスだ。わずかなレイテンシで動作しながら、より大きなモデルに匹敵するか、それを上回る最先端の精度を実現します。そのため、リアルタイムの推論アプリケーションに最適です。さらに、Ultralytics エコシステムは、統一されたAPIによって使いやすさを保証し、トレーニングとデプロイメントをシームレスにします。
1つの考慮点は、最小のYOLO11 亜種は、信じられないほど高速ではあるが、学術的に利用可能な非常に大きく計算量の多いモデルと比較すると、わずかな精度のマージンをトレードオフする可能性があるということである。しかし、実用的な展開においては、このトレードオフはほとんど常に有利である。
理想的なユースケース
- 自律システム: ロボット工学と 自律走行車のためのリアルタイム知覚。
- 産業オートメーション:高速製造品質管理と欠陥検出
- スマートシティ:効率的な交通監視とセキュリティ監視。
- インタラクティブなアプリケーション:即時の視覚的フィードバックを必要とするモバイルアプリケーション。
パフォーマンス比較
EfficientDetとYOLO11比較すると、最も顕著な違いは推論速度、特にGPU ハードウェア上での推論速度にある。EfficientDetモデル(D0-D7)はパラメータ効率は良いものの、複雑な演算(BiFPNのような)を行うため、並列処理能力を十分に活用することができません。
下の表に示すように、YOLO11nは EfficientDet-d0(34.6)よりも高いmAP (39.5)を達成しながら、大幅に高速化しています。さらに驚くべきことに、YOLO11mは、はるかに重いEfficientDet-d5(51.5mAP)の精度に匹敵しますが、T4GPU 上では約14倍高速に動作します(4.7 ms vs 67.86 ms)。この圧倒的なスピードアドバンテージにより、YOLO11 高解像度のビデオストリームをリアルタイムで処理することができます。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Ultralytics 優位性
技術的な指標は非常に重要ですが、開発者の経験やエコシステムのサポートもプロジェクトの成功には同様に重要です。Ultralytics 、MLOpsのライフサイクル全体を簡素化する包括的なツールスイートを提供し、リサーチ中心のEfficientDetリポジトリよりも明確な利点を提供します。
- 使いやすさ: Ultralytics Python APIと CLIはシンプルに設計されています。EfficientDetでは複雑な設定ファイルやTensorFlow依存関係管理が必要になることが多いのに対し、わずか数行のコードで最先端のモデルをロード、トレーニング、デプロイすることができます。
- 整備されたエコシステム: Ultralytics モデルは、活発なコミュニティと頻繁なアップデートに支えられています。GitHubリポジトリから広範なドキュメントまで、開発者は豊富なリソース、チュートリアル、サポートチャンネルにアクセスできます。
- トレーニング効率: YOLO11 11は高速収束のために最適化されています。トレーニング時間を短縮する効率的なデータロードとオーグメンテーション戦略をサポートしています。さらに、旧アーキテクチャやトランスフォーマーベースのモデルと比較してメモリ要件が低いため、コンシューマーグレードのGPUでもCUDA メモリを使い切ることなくトレーニングが可能です。
- 展開の柔軟性:フレームワークは、以下のような様々なフォーマットへのモデルのエクスポートをネイティブにサポートしています。 ONNX, TensorRTCoreML、OpenVINO含む様々なフォーマットへのモデルのエクスポートをネイティブにサポートしています。これにより、YOLO11 モデルは、クラウドサーバーからRaspberry Piのようなエッジデバイスまで、どこにでもデプロイすることができます。
YOLO11ハンズオン
Ultralytics APIのシンプルさを体験してください。次の例は、事前にトレーニングされたYOLO11 モデルを読み込み、画像に対して推論を実行する方法を示しています:
from ultralytics import YOLO
# Load a pre-trained YOLO11n model
model = YOLO("yolo11n.pt")
# Run inference on an image source
results = model("path/to/image.jpg")
# Display the results
results[0].show()
結論
EfficientDetもYOLO11 、コンピュータビジョンにおける画期的な成果である。EfficientDetは、スケーラブルなアーキテクチャ設計のための貴重な参考資料であり続け、理論的なFLOPが主な制約となるニッチなアプリケーションに適している。
しかし、現代のコンピュータ・ビジョン・アプリケーションの大部分では、そのようなアプリケーションは存在しない、 Ultralytics YOLO11の方が優れています。そのアーキテクチャは、特にほとんどの生産環境で使用されるGPU ハードウェア上で、精度と速度のはるかに優れたバランスを実現します。多目的なマルチタスクフレームワーク、堅牢なエコシステム、比類のない使いやすさと組み合わせることで、YOLO11 開発者が自信を持って高性能AIソリューションを構築し、展開できるようにします。
その他の比較
物体検出モデルの状況をさらに理解するために、これらの追加比較を検討してみてください: