YOLO EfficientDet:現代的な物体検出技術への深い探求
コンピュータビジョンの進化は、様々な現実世界の要求に合わせて設計された強力なアーキテクチャの数々を生み出してきた。大規模なスケーラビリティを優先するフレームワークがある一方、リアルタイム推論速度に重点を置くものもある。本技術比較では、物体検出問題の解決に向けた異なるアプローチを示す、極めて影響力のある2つのモデル、DAMO-YOLOとEfficientDetを探求する。 両モデルのアーキテクチャを詳細に分析し、ベンチマーク性能を比較した上で、新たにリリースUltralytics 現代の生産環境展開において最適な選択肢である理由を究明する。
アーキテクチャの概要
両モデルとも効率と精度のトレードオフに対処するよう設計されているが、その目的達成には根本的に異なるメカニズムに依存している。
YOLO: 神経アーキテクチャ探索を高速化する
リアルタイム検出の限界を押し広げるべく開発されたYOLO 、自動化された探索技術YOLO 、低遅延環境向けに最適化された高効率ネットワークを構築する。
YOLO :
著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
組織:Alibaba Group
日付: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:YOLO
YOLO 速度と精度の両方を最適化するニューラルアーキテクチャ検索(NAS)バックボーンを基盤YOLO 高い推論速度を維持しながら特徴融合を強化するRepGFPN(再パラメータ化汎用特徴ピラミッドネットワーク)を導入しています。さらに、そのZeroHead設計は、検出ヘッドに通常伴う計算オーバーヘッドを最小限に抑えます。 本モデルはさらに、AlignedOTA(整列最適輸送割当)とディスティレーション強化の恩恵を受け、最小規模の変種モデルでさえ大規模モデルから豊かな表現を学習することを保証します。
効率的検出: 複合スケーリングによるスケーラビリティ
速度優先のアプローチとは対照的に、EfficientDetは様々な計算リソース予算にわたる体系的なスケーラビリティに焦点を当てている。
EfficientDet 詳細:
著者: Mingxing Tan, Ruoming Pang, and Quoc V. Le
組織:Google
日付: 2019-11-20
Arxiv:https://arxiv.org/abs/1911.09070
GitHub:google
EfficientDetは、多階層特徴量の融合を容易かつ高速に行うBiFPN(双方向特徴ピラミッドネットワーク)を導入する。 従来の手法が層やチャネルを恣意的に追加してアーキテクチャをスケールアップするのとは異なり、EfficientDetは複合スケーリング手法を採用。バックボーン、特徴ネットワーク、ボックス/クラス予測ネットワークの解像度、深さ、幅を同時に均一にスケールします。これにより、高性能ハードウェアでは最先端の精度を達成しつつ、制約のある環境向けに小型化されたバリエーションを提供します。
パフォーマンスとメトリクスの比較
これらのモデルを並べて比較すると、純粋な精度と推論速度のトレードオフが明らかになる。下表は主要な性能指標をまとめ、YOLO推論能力 がEfficientDetモデルファミリーとどのように比較されるかを示している。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
上記のように、EfficientDet-d7は最高の総合精度を達成しており、厳密なクラウドベースのアプリケーションに適している。一方、YOLO GPU 上で大幅に低いレイテンシを維持しながら高い競争力のある精度を提供し、リアルタイムエッジ展開における有力な候補となる。
ユースケースと推奨事項
YOLO 、具体的なプロジェクト要件、デプロイメント上の制約、およびエコシステムの選好によって決まります。
DAMO-YOLOを選択するタイミング
YOLO 以下に最適YOLO :
- 高スループット動画解析:固定NVIDIA GPU 上で高FPS動画ストリームを処理し、バッチ1スループットを主要指標とする。
- 産業用製造ライン:専用ハードウェア上でGPU 厳しい制約があるシナリオ。例:組立ラインにおけるリアルタイム品質検査。
- ニューラルアーキテクチャ探索研究:自動化されたアーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化バックボーンが検出性能に及ぼす影響の検討。
EfficientDetを選択するタイミング
EfficientDetは以下に推奨されます:
- Google およびTPU : Google Vision API またはTPU と深く統合されたシステムで、EfficientDet がネイティブ最適化を実現します。
- 複合スケーリング研究:バランスの取れたネットワークの深さ、幅、および解像度スケーリングの効果を研究する学術的ベンチマーク。
- TFLiteによるモバイル展開: Android 組み込みLinuxデバイス向けにTensorFlow エクスポートを特に必要とするプロジェクト。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
現代の選択肢:Ultralytics
YOLO ずれも学術的な重要なマイルストーンではあるものの、実環境での導入にはよりバランスの取れた、機能豊富で開発者向けのアプローチが求められることが多い。Ultralytics まさにこの点で新たな業界標準を打ち立てている。
2026年1月にリリースされたYOLO26は、その前身となるモデル群の遺産を継承しつつ、 Ultralytics YOLO11 、 YOLOv8といったモデルを基盤とし、物体検出へのアプローチにおいてパラダイムシフトをもたらします。
エンドツーエンドのシンプルさ
YOLO26はネイティブな NMSを採用しています。後処理段階におけるノン・マキシマム・サプレッション(NMS)——長年オブジェクト検出器のボトルネックとなってきた処理——を排除することで、特にエッジハードウェアにおいて、より簡素で大幅に高速なデプロイメントパイプラインを実現します。
比類なき性能と汎用性
YOLO26は速度の向上だけでなく、トレーニングの安定性と精度を再定義します。LLMトレーニングの革新に着想を得た、SGD ミューオンSGD 融合したハイブリッド手法「MuSGDオプティマイザー」を導入し、劇的に高速な収束速度と優れたトレーニング効率を実現します。 RT-DETRとは異なり、YOLO26は驚くほど低いメモリ要件を維持し、コンシューマー向けハードウェアでのトレーニングを可能にします。
さらに、YOLO26はProgLoss + STALを組み込み、ドローン航空写真やロボティクスなどのユースケースで重要な小規模物体認識を大幅に改善しました。低消費電力デバイス向けに最適化するため、YOLO26は分布焦点損失(DFL)を削除し、前世代と比較して CPU 最大43%高速化しました。
エコシステムと使いやすさ
EfficientDetのようなモデルにおける最大の障壁の一つは、複雑な統合プロセスです。これに対し、Ultralytics は整備されたエンドツーエンドのエコシステムを提供します。統一されたAPIにより、ユーザーは検出、インスタンスセグメンテーション、姿勢推定、画像分類、方向付き境界ボックス(OBB)の間を容易に切り替えることができます。
Ultralytics Python を使用したYOLO26のトレーニングと推論の実行は、以下の通り非常に簡単です:
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run ultra-fast NMS-free inference
predictions = model.predict("image.jpg")
結論
YOLO 検討YOLO 、ニューラルアーキテクチャ探索と複合スケーリングのトレードオフに関する優れた知見を提供する一方で、現代の開発者は学術研究と実運用環境のギャップを埋めるツールを必要としている。
使いやすさ、活発なオープンソースコミュニティ、そして速度と精度の妥協のないバランスを優先する開発者にとって、Ultralytics 決定的な選択肢です。NMSアーキテクチャ、低いトレーニングオーバーヘッド、そして包括Ultralytics とのシームレスな統合により、次なるコンピュータビジョンプロジェクトのための究極のフレームワークとなります。