YOLO11 vs EfficientDet: 包括的な技術比較
コンピュータービジョンプロジェクトに最適なニューラルネットワークを選択するには、利用可能なアーキテクチャへの深い理解が必要です。本ガイドでは、Ultralytics YOLO11とGoogleのEfficientDetの間で詳細な技術比較を行います。両者のアーキテクチャの違い、パフォーマンス指標、学習効率、そして理想的なデプロイメントシナリオを調査し、機械学習ワークロードにおける意思決定を支援します。
モデルの背景と仕様
どちらのモデルもディープラーニングの領域に多大な影響を与えてきましたが、それぞれ設計思想やAI開発の時代が異なります。
YOLO11の詳細
著者: Glenn Jocher および Jing Qiu 組織: Ultralytics 日付: 2024-09-27 GitHub: https://github.com/ultralytics/ultralytics ドキュメント: https://docs.ultralytics.com/models/yolo11/
EfficientDetの詳細
著者: Mingxing Tan, Ruoming Pang, および Quoc V. Le 組織: Google 日付: 2019-11-20 Arxiv: https://arxiv.org/abs/1911.09070 GitHub: https://github.com/google/automl/tree/master/efficientdet ドキュメント: https://github.com/google/automl/tree/master/efficientdet#readme
コンピュータービジョンモデルを扱う際、モデルそのものと同じくらい周辺のエコシステムが重要です。Ultralyticsエコシステムは、広範なドキュメント、活発なコミュニティサポート、そしてONNXやTensorRTといった形式へのシームレスなエクスポート機能を提供し、比類のない開発者体験を実現します。
アーキテクチャの革新
EfficientDet: BiFPNとCompound Scaling
2019年後半に導入されたEfficientDetは、計算コストを最小限に抑えつつ精度を最大化することを目的としていました。これは主に2つのメカニズムによって達成されています。第一に、深さ、幅、解像度を統合的にスケーリングするEfficientNetバックボーンを使用している点です。第二に、双方向特徴ピラミッドネットワーク(BiFPN)を導入したことで、マルチスケールの特徴融合を簡単かつ高速に行えるようになった点です。
当時としては非常に効率的でしたが、EfficientDetはTensorFlowのAutoMLライブラリに依存しているため、柔軟性に欠ける場合があります。研究者は、最新のモジュール式PyTorchベースのフレームワークと比較して、モデルの枝刈り(プルーニング)やカスタム修正が困難であると感じることがよくあります。
YOLO11: 強化された特徴抽出と汎用性
YOLO11は、物体検出アーキテクチャにおける大きな飛躍を象徴するものです。前身の成功の上に構築されており、洗練されたC3k2ブロックと改善された空間ピラミッドプーリングモジュールを導入しています。これらの強化により特徴抽出能力が向上し、YOLO11は複雑な視覚パターンを並外れた鮮明さで捉えることが可能になりました。
A major advantage of YOLO11 is its versatility. While EfficientDet is strictly an object detection model, YOLO11 natively supports instance segmentation, image classification, pose estimation, and oriented bounding boxes (OBB). Furthermore, YOLO11 boasts incredibly low memory requirements during both training and inference, making it vastly superior to older models and bulky vision transformers when deploying to resource-constrained edge AI environments.
パフォーマンスとベンチマーク
平均精度(mAP)で測定される精度と、推論速度のバランスは、実運用における極めて重要な決定要因です。以下の表は、標準的なCOCOデータセットにおける両モデルファミリーの生パフォーマンスを示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
示されているように、YOLO11は非常に優れたパフォーマンスバランスを実現しています。YOLO11xは最高全体の精度(54.7 mAP)を達成する一方、より小型のYOLO11バリエーションはGPU推論速度で圧倒しています(TensorRTを使用したT4上で最小1.5ms)。
学習効率とエコシステム
Ultralyticsモデルの決定的な特徴の一つは、その使いやすさです。EfficientDetモデルの学習では、複雑なTensorFlowグラフ設定の操作や、込み入った依存関係チェーンの管理が必要になることがよくあります。対照的に、YOLO11はクリーンで完全に現代的なPyTorch基盤の上に構築されています。
この適切に維持されたエコシステムにより、開発者はパッケージをインストールし、事前学習済みモデルを読み込み、数行のコードでカスタムデータセットの学習を開始できます。
Pythonコードの例
以下は、Ultralytics APIのシンプルさを示す、完全に実行可能な例です。このスクリプトは、事前学習済みのYOLO11モデルをダウンロードし、学習を行い、簡単な予測を実行します。
from ultralytics import YOLO
# Initialize a pretrained YOLO11 nano model
model = YOLO("yolo11n.pt")
# Train the model efficiently using the integrated PyTorch engine
# Training efficiency is high, requiring less VRAM than legacy models
results = model.train(data="coco8.yaml", epochs=10, imgsz=640, device="cpu")
# Run real-time inference on a sample image
prediction = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the output bounding boxes
prediction[0].show()未来を見据えて: YOLO26の優位性
YOLO11は極めて強力ですが、新規のグリーンフィールドプロジェクトを開始するチームは、2026年1月にリリースされたUltralytics YOLO26を強く検討すべきです。YOLO26は、デプロイの簡素化とエッジパフォーマンスにおけるパラダイムシフトを表しています。
YOLO26の主な革新技術は以下の通りです:
- エンドツーエンドのNMSフリー設計: 後処理中の非最大値抑制(NMS)を排除することで、YOLO26は一貫した超低遅延を保証します。これは高速なロボティクスや自動運転において極めて重要です。
- 最大43%高速なCPU推論: 専用GPUがない環境へのデプロイにおいて、YOLO26は標準的なプロセッサでのスループットを最大化するように特別に最適化されています。
- MuSGDオプティマイザー: Moonshot AIのKimi K2に触発されたこのハイブリッドオプティマイザーは、LLMの学習の安定性をコンピュータービジョンにもたらし、より高速な収束を可能にします。
- ProgLoss + STAL: これらの改善された損失関数は、小さな物体の認識能力を劇的に向上させます。これは衛星画像分析やドローン映像においてしばしば課題となる点です。
- DFLの削除: Distribution Focal Lossの削除により、エッジデバイスへのモデルエクスポートプロセスが効率化されました。
ユースケースと推奨事項
YOLO11とEfficientDetのどちらを選択するかは、特定のプロジェクト要件、デプロイの制約、およびエコシステムの好みによって決まります。
YOLO11を選択すべき場合
YOLO11は次のような場合に強力な選択肢です:
- 本番環境のエッジデプロイメント: 信頼性と積極的なメンテナンスが最優先される、Raspberry PiやNVIDIA Jetsonなどのデバイス上での商用アプリケーション。
- マルチタスクビジョンアプリケーション: 単一の統合フレームワーク内で、検出、セグメンテーション、ポーズ推定、およびOBBを必要とするプロジェクト。
- 迅速なプロトタイピングとデプロイメント: 合理化されたUltralytics Python APIを使用して、データ収集から本番環境まで迅速に移行する必要があるチーム。
EfficientDetを選択すべき場合
EfficientDetは以下の場合に推奨されます:
- Google CloudおよびTPUパイプライン: Google Cloud Vision APIやTPUインフラストラクチャと深く統合されたシステムで、EfficientDetがネイティブ最適化されている環境。
- Compound Scalingの研究: ネットワークの深さ、幅、解像度のバランスの取れたスケーリングが与える影響を研究することに焦点を当てた学術的なベンチマーク。
- TFLiteによるモバイルデプロイ: Androidまたは組み込みLinuxデバイス向けにTensorFlow Liteへのエクスポートを特に必要とするプロジェクト。
Ultralytics (YOLO26) を選択すべき場合
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:
- NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
- 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。
結論
EfficientDetは、物体検出におけるCompound Scalingの実現可能性を証明した先駆的なアーキテクチャでした。しかし、AI研究の急速な進歩により、より高性能で統合が容易、かつ高速に動作するモデルが登場しています。
堅牢なマルチタスク機能、驚異的なGPU推論速度、そして間違いなく業界で最も開発者に優しいAPIを備えたYOLO11は、現代のビジョンパイプラインにおける明確な勝者です。テクノロジーの最先端を目指す方、特にエッジファーストのデプロイメントを検討している方は、YOLO26にアップグレードすることで、NMSフリーのスピードと比類のない精度の究極の組み合わせを得ることができます。