DAMO-YOLO vs EfficientDet:現代の物体検出に関する技術的詳細分析
コンピュータビジョンの進化により、現実世界の様々な需要に合わせた強力なアーキテクチャが数多く生み出されてきました。大規模なスケーラビリティを優先するフレームワークがある一方で、リアルタイムの推論速度を重視するものもあります。本技術比較では、物体検出という課題に対する異なるアプローチを示す、非常に影響力の強い2つのモデルである DAMO-YOLO と EfficientDet について詳しく解説します。それぞれのアーキテクチャを分析し、ベンチマーク性能を比較した上で、なぜ新しくリリースされた Ultralytics YOLO26 が現代の製品展開において最適な選択肢であるのかを明らかにします。
アーキテクチャの概要
両モデルとも効率と精度のトレードオフに取り組むために設計されましたが、その目的を達成するためのメカニズムは根本的に異なります。
DAMO-YOLO:ニューラルアーキテクチャ探索による高速化
リアルタイム検出の限界を押し広げるために開発された DAMO-YOLO は、自動探索技術を活用し、低レイテンシ環境に適した極めて効率的なネットワークを構築します。
DAMO-YOLO の詳細:
著者:Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
組織:Alibaba Group
日付:2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
DAMO-YOLO は、速度と精度の両方を最適化するニューラルアーキテクチャ探索(NAS)バックボーンを中心に構築されています。特徴融合を強化しつつ高い推論速度を維持する RepGFPN(Reparameterized Generalized Feature Pyramid Network)を導入しました。さらに、その ZeroHead 設計により、検出ヘッドに通常伴う計算オーバーヘッドを最小限に抑えています。このモデルは、AlignedOTA(Aligned Optimal Transport Assignment)と蒸留強化の恩恵も受けており、最小のバリエーションであっても大規模モデルから豊かな表現を学習できるようになっています。
EfficientDet:複合スケーリングによるスケーラビリティ
速度優先のアプローチとは対照的に、EfficientDet は様々な計算リソース予算に対する体系的なスケーラビリティに重点を置いています。
EfficientDet の詳細:
著者:Mingxing Tan, Ruoming Pang, and Quoc V. Le
組織:Google Brain
日付:2019-11-20
Arxiv:https://arxiv.org/abs/1911.09070
GitHub:https://github.com/google/automl/tree/master/efficientdet
EfficientDet は、簡単かつ高速なマルチスケール特徴融合を可能にする BiFPN(Bidirectional Feature Pyramid Network)を導入しました。レイヤーやチャネルを任意に追加してアーキテクチャを拡張する従来の手法とは異なり、EfficientDet はバックボーン、特徴ネットワーク、およびボックス/クラス予測ネットワークの解像度、深さ、幅を同時に一律でスケーリングする複合スケーリング手法を採用しています。これにより、ハイエンドハードウェアで最高水準の精度を達成しながら、制約のある環境向けに小型のバリエーションを提供することが可能となっています。
パフォーマンスとメトリクスの比較
これら2つのモデルを並べて比較すると、純粋な精度と推論速度の間のトレードオフが明確になります。以下の表は主要な性能指標をまとめたもので、DAMO-YOLO の推論能力 が EfficientDet モデルファミリー と比較してどのような立ち位置にあるかを示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
上記で確認できるように、EfficientDet-d7 は最高レベルの総合精度を達成しており、厳格なクラウドベースのアプリケーションに適しています。一方で、DAMO-YOLO シリーズは、GPU ハードウェア上で非常に低いレイテンシで高い競争力のある精度を提供するため、リアルタイムのエッジ展開においてより強力な候補となります。
ユースケースと推奨事項
DAMO-YOLO と EfficientDet のどちらを選択するかは、特定のプロジェクト要件、展開制約、およびエコシステムの好みによって決まります。
DAMO-YOLOを選択すべきとき
DAMO-YOLOが推奨されるケースは以下の通りです:
- 高スループットビデオ分析: バッチ1のスループットが主要な指標となる、固定されたNVIDIA GPUインフラストラクチャ上で高FPSビデオストリームを処理する場合。
- 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェア上で厳しいGPUレイテンシ制約があるシナリオ。
- ニューラルアーキテクチャ探索の研究: 検出性能に対する自動アーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化バックボーンの影響を研究する場合。
EfficientDetを選択すべき場合
EfficientDetは以下の場合に推奨されます:
- Google CloudおよびTPUパイプライン: Google Cloud Vision APIやTPUインフラストラクチャと深く統合されたシステムで、EfficientDetがネイティブ最適化されている環境。
- Compound Scalingの研究: ネットワークの深さ、幅、解像度のバランスの取れたスケーリングが与える影響を研究することに焦点を当てた学術的なベンチマーク。
- TFLiteによるモバイルデプロイ: Androidまたは組み込みLinuxデバイス向けにTensorFlow Liteへのエクスポートを特に必要とするプロジェクト。
Ultralytics (YOLO26) を選択すべき場合
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:
- NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
- 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。
現代の代替手段:Ultralytics YOLO26
DAMO-YOLO と EfficientDet はどちらも学術的な大きなマイルストーンですが、現実世界の展開には、よりバランスが取れており、機能が豊富で、開発者に優しいアプローチが求められることがよくあります。そこで Ultralytics YOLO26 が、業界の新しいスタンダードを確立します。
2026年1月にリリースされた YOLO26 は、Ultralytics YOLO11 や YOLOv8 などの前身モデルのレガシーを継承し、物体検出 へのアプローチにおいてパラダイムシフトをもたらします。
YOLO26 は、ネイティブな End-to-End NMS-Free Design を特徴としています。物体検出において長年ボトルネックとなっていた後処理中の NMS(Non-Maximum Suppression)を排除することで、YOLO26 は特にエッジハードウェアにおいて、よりシンプルで劇的に高速な展開パイプラインを提供します。
比類なきパフォーマンスと汎用性
YOLO26 は速度を改善するだけでなく、学習の安定性と精度を再定義します。LLM 学習のイノベーションに着想を得た SGD と Muon のハイブリッドである MuSGD Optimizer を導入しており、これにより劇的に高速な収束率と優れた学習効率を実現しています。RT-DETR のような重い Transformer ベースの代替モデルとは異なり、YOLO26 は驚くほど低いメモリ要件を維持しており、民生グレードのハードウェアでも学習が可能です。
さらに、YOLO26 には ProgLoss + STAL が組み込まれており、ドローンの航空画像 やロボット工学などのユースケースにおいて不可欠な小物体認識を大幅に向上させています。低電力デバイス向けに最適化するために、YOLO26 は Distribution Focal Loss (DFL) を削除し、前世代と比較して CPU 推論を最大 43% 高速化 しています。
エコシステムと使いやすさ
EfficientDet のようなモデルにおける最大のハードルの1つは、統合プロセスの複雑さです。対照的に、Ultralytics Platform は、メンテナンスの行き届いたエンドツーエンドのエコシステムを提供します。統一された API により、ユーザーは検出、インスタンスセグメンテーション、姿勢推定、画像分類、および 指向性バウンディングボックス (OBB) を簡単に切り替えることができます。
Ultralytics Python パッケージを使用して YOLO26 で学習および推論を実行するのがどれほど簡単かを以下に示します。
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run ultra-fast NMS-free inference
predictions = model.predict("image.jpg")結論
DAMO-YOLO vs EfficientDet を比較検討することは、ニューラルアーキテクチャ探索と複合スケーリングの間のトレードオフを理解する上で素晴らしい洞察を与えてくれますが、現代の開発者には、学術的な研究と生産現場の現実とのギャップを埋めるツールが必要です。
使いやすさ、活発なオープンソースコミュニティ、そして速度と精度の妥協のないバランスを優先する開発者にとって、Ultralytics YOLO26 は決定的な選択肢です。その NMS フリーのアーキテクチャ、低い学習オーバーヘッド、そして包括的な Ultralytics エコシステム とのシームレスな統合は、あなたの次のコンピュータビジョンプロジェクトにとって究極のフレームワークとなります。