YOLO11 EfficientDetの比較:包括的な技術比較
急速に進化するコンピュータ・ビジョンにおいて、適切な物体検出モデルを選択することは、成功するAIアプリケーションを構築する上で非常に重要である。このような評価において、しばしば浮上する2つの著名な名前がある。 Ultralytics YOLO11どちらのアーキテクチャも画像内の物体検出の問題を解決することを目的としていますが、根本的に異なる設計哲学、アーキテクチャの革新性、性能の優先順位でこの課題に取り組んでいます。
このガイドでは、開発者や研究者がこの2つのモデルの違いを理解するのに役立つ、詳細な技術比較を提供します。両者のアーキテクチャ、パフォーマンス測定基準、トレーニング方法論、理想的な使用例について探求し、最新の開発がYOLO ファミリーの多用途性とスピードを好むことが多い理由を明らかにします。
Ultralytics YOLO11:リアルタイム・ビジョンの最先端
2024年後半発売、 YOLO11は、Ultralytics有名な「You Only Look Once」アーキテクチャの最新版です。推論レイテンシーと精度の究極のトレードオフを実現するよう設計されており、エッジデバイスからクラウドサーバーまで幅広いリアルタイムアプリケーションに最適です。
技術詳細:
- 著者: Glenn Jocher、Jing Qiu
- 組織Ultralytics
- 日付: 2024-09-27
- GitHubultralytics
- ドキュメントUltralytics YOLO11 ドキュメント
アーキテクチャと主な機能
YOLO11 、これまでの最適化の歴史を基に開発されました。洗練されたアンカーレス検出器設計を採用し、手作業によるアンカーボックスの計算を不要にすることで、トレーニングプロセスを簡素化します。このアーキテクチャには、高度な特徴抽出レイヤーが統合されており、パラメータ総数を削減しながらも、高いmAP値を維持しています。 mAP.
YOLO11 、検出のみに焦点を当てた前任者や競合他社とは異なり、マルチタスク・フレームワークである。単一のモデル・アーキテクチャで、以下のような用途に適応できる:
Ultralytics 優位性
YOLO11 使用する最も大きな利点の一つは、Ultralytics エコシステムである。このモデルは、堅牢なPython APIとCLI、活発なコミュニティによるメンテナンス、MLOps向けツールとのシームレスな統合によってサポートされている。これにより、開発者はコードと格闘する時間を減らし、ソリューションを展開する時間を増やすことができます。
長所
- 比類なきスピード:最適化された GPU推論に最適化され、高解像度ストリームでもリアルタイム性能を実現。
- 汎用性:複数のコンピュータビジョンタスクをネイティブにサポートしているため、セグメンテーションやポーズ推定のためにフレームワークを切り替える必要がありません。
- 使いやすさ: The
ultralyticsパッケージを使えば、わずか数行のコードでトレーニング、検証、デプロイができる。 - メモリ効率:トランスフォーマベースの代替品や古いアーキテクチャと比較して、より少ないCUDA メモリ要件でより高速にトレーニングできるように設計されています。
GoogleEfficientDet:効率化のための最適化
2019年後半にGoogle Brainチームによって導入されたEfficientDetは、物体検出モデルの効率を改善するために設計された。高精度を達成するために必要なパラメータ数と理論計算量(FLOP)の最適化に重点を置いた。
技術詳細:
- 著者: Mingxing Tan、Ruoming Pang、Quoc V. Le
- 組織Google
- Date: 2019-11-20
- Arxiv:EfficientDet:スケーラブルで効率的な物体検出
- GitHubgoogle
- ドキュメントEfficientDet README
アーキテクチャと主な機能
EfficientDetはEfficientNetのバックボーン上に構築され、2つの重要なコンセプトを導入している:
- BiFPN (Bi-directional Feature Pyramid Network):マルチスケール特徴の統合を容易にする特徴融合層で、入力特徴に異なる重み付けを行い、その重要性を学習する。
- 複合スケーリング:D0(最小)からD7(最大)までのモデルファミリーを作成し、ネットワークの解像度、深さ、幅を均一にスケールする方法。
長所と短所
EfficientDetはパラメータ効率に優れており、YOLOv3のような古いモデルよりも少ないパラメータで高い精度を達成することができます。EfficientDetは非常にスケーラブルであるため、ユーザーは理論FLOPs予算に合ったモデルサイズを選択することができます。
しかし、EfficientDetには、最新の配備状況において顕著な限界がある:
- GPU 推論の速度低下:FLOPsでは効率的ですが、EfficientDetで広範に使用されている深さ方向に分離可能な畳み込みは、YOLO モデルで使用されている密な畳み込みと比較して、GPUでの最適化が不十分であることがよくあります。その結果、推論の待ち時間が長くなります。
- 範囲が狭い:主にオブジェクト検出器であり、YOLO11見られるOBBやポーズ推定のような複雑なタスクに対するネイティブで統一されたサポートがない。
- 複雑なツール:オリジナルのリポジトリは研究指向TensorFlow)で、Ultralytics エコシステムの特徴である洗練されたユーザーフレンドリーなAPIやデプロイツールがない。
パフォーマンス比較
YOLO11 EfficientDetを比較すると、最も顕著な違いはGPU ハードウェア上での実際の推論速度にある。EfficientDetがFLOPsを最小化するのに対し、YOLO11 レイテンシを最小化します。レイテンシはリアルタイムアプリケーションにとって最も重要な指標です。
下の表は、このギャップを示しています。例えば、YOLO11nは、精度(+4.9mAP)と速度(T4GPU2.6倍高速)の両方でEfficientDet-d0を上回っています。YOLO11xは、EfficientDet-d7よりも優れた精度を提供しながら、11倍以上高速です。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
結果の分析
- リアルタイム機能: YOLO11 、GPU上のすべてのモデルサイズにおいて、真のリアルタイム推論機能を提供するのに対し、EfficientDetは、その大きなバリエーション(d4-d7)において、リアルタイムのフレームレート(30 FPSまたは~33ms)を維持するのに苦労している。
- 精度とスピードの比較:同等の精度ポイント(例えば47.0mAP)では、YOLO11 改良型(YOLO11s)はEfficientDetの同等型(EfficientDet-d3)よりも劇的に速い。
- トレーニングの効率化: Ultralytics モデルは通常、収束が速く、ハードウェアアクセラレーションをより効果的に利用できるため、カスタムデータセットでのトレーニングに必要なコストと時間が削減されます。
理想的なユースケース
Ultralytics YOLO11を選択する場合
YOLO11 11は、現代のコンピュータビジョンプロジェクトの大部分、特に速度、精度、開発のしやすさのバランスを必要とするプロジェクトに最適です。
- エッジAIとロボティクス: NVIDIA JetsonやRaspberry Piのような、ナビゲーションや衝突回避のようなタスクのために低遅延が譲れないデバイスに展開する。
- 商用アプリケーション:信頼性とスピードがROIに直接影響する小売分析、自動製造、安全監視。
- マルチタスクシステム:例えば、作業員が安全装置を着用しているかどうか(検出)や、姿勢が正しいかどうか(ポーズ推定)をチェックするような、バウンディングボックス以上のものを必要とするプロジェクト。
- 迅速な開発:ユーザーフレンドリーなAPIと豊富なドキュメントを使用して、迅速に反復開発を行う必要があるチーム。
EfficientDetを選ぶとき
EfficientDetは、特定のニッチなシナリオにおいて、依然として適切である:
- アカデミック・ベンチマーク複合スケーリングまたはBiFPNアーキテクチャの特定の効果を研究する研究者。
- 厳しいFLOPs制約:レイテンシやメモリ帯域幅ではなく、理論演算回数(FLOPs)が唯一の制限要因であるような、極めて制約の多いCPU 環境。
使いやすさ:Ultralytics コード体験
YOLO11 特徴の一つは、シームレスな開発者体験です。レガシーモデルは複雑な設定ファイルや定型コードを必要とすることが多いが、Ultralytics ワークフローを数行の直感的なPython効率化する。
ここでは、事前に訓練されたYOLO11 モデルをロードして推論を実行する方法を簡単に説明する:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Display the results
results[0].show()
このシンプルさは、カスタムデータのトレーニングにも適用される:
# Train the model on a custom dataset (e.g., COCO8)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
エコシステム・サポート
Ultralytics 、一般的なデータセットやツールとのシームレスな統合を提供します。お客様が Roboflowを使用している場合でも TensorRTを使用している場合でも、エコシステムはパイプライン全体をサポートするように構築されています。
結論
EfficientDetはモデルのスケーリングと効率性において重要な概念を導入した、 Ultralytics YOLO11は、今日の実用的なコンピュータ・ビジョンのニーズに対する優れた選択肢です。YOLO11は、以下の魅力的な組み合わせを提供します:
- 優れたパフォーマンス:最新のハードウェアでより速い推論速度と高い精度を実現。
- 汎用性の向上:検出、セグメンテーション、ポーズなどのための統一されたフレームワーク。
- より良いユーザビリティ:優れたドキュメンテーションとコミュニティ・サポートを備えた、整備されたエコシステム。
堅牢で高性能、スケーラブルなビジョンAIアプリケーションの構築を目指す開発者にとって、YOLO11 11は成功に必要なパワーと柔軟性を提供します。
その他のモデル比較
YOLO11 他の主要アーキテクチャーとの比較をご覧ください: