DAMO-YOLO 対 EfficientDet: 最新の物体検出に関する技術的な詳細分析

コンピュータビジョンの進化は、様々な現実世界の要求に合わせて設計された強力なアーキテクチャの数々を生み出してきた。大規模なスケーラビリティを優先するフレームワークがある一方、リアルタイム推論速度に重点を置くものもある。本技術比較では、物体検出問題の解決に向けた異なるアプローチを示す、極めて影響力のある2つのモデル、DAMO-YOLOとEfficientDetを探求する。両モデルのアーキテクチャを詳細に分析し、ベンチマーク性能を比較した上で、新たにリリースUltralytics 現代の生産環境展開において最適な選択肢である理由を究明する。

アーキテクチャの概要

両モデルは効率と精度のトレードオフに取り組むように設計されましたが、その目標を達成するために根本的に異なるメカニズムに依存しています。

DAMO-YOLO: ニューラルアーキテクチャ探索による高速化

リアルタイムdetectの限界を押し広げるために開発されたDAMO-YOLOは、自動探索技術を活用して、低遅延環境に特化した高効率ネットワークを構築します。

DAMO-YOLO詳細:
著者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
組織: Alibaba Group
日付: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLOは、速度と精度の両方を最適化するニューラルアーキテクチャ探索 (NAS) バックボーンを中心に構築されています。特徴融合を強化しつつ高い推論速度を維持するRepGFPN (Reparameterized Generalized Feature Pyramid Network) を導入しています。さらに、そのZeroHead設計は、通常detection headに関連する計算オーバーヘッドを最小限に抑えます。このモデルは、AlignedOTA (Aligned Optimal Transport Assignment) と蒸留強化の恩恵も受けており、最小のバリアントでさえもより大きなモデルから豊かな表現を学習することを保証します。

DAMO-YOLOの詳細

EfficientDet: 複合スケーリングによるスケーラビリティ

速度優先のアプローチとは対照的に、EfficientDetはさまざまな計算予算全体で体系的なスケーラビリティに焦点を当てています。

EfficientDetの詳細:
著者: Mingxing Tan, Ruoming Pang, Quoc V. Le
所属: Google Brain
日付: 2019-11-20
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet

EfficientDetは、簡単かつ迅速なマルチスケール特徴融合を可能にするBiFPN（双方向特徴ピラミッドネットワーク）を導入しています。レイヤーやチャネルを任意に追加してアーキテクチャをスケールアップする従来のメソッドとは異なり、EfficientDetはバックボーン、特徴ネットワーク、およびボックス/クラス予測ネットワークの解像度、深さ、幅を同時に均一にスケーリングする複合スケーリング手法を使用しています。これにより、ハイエンドハードウェアで最先端の精度を達成しつつ、制約のある環境向けに小型のバリアントを提供できます。

EfficientDetの詳細について。

パフォーマンスとメトリクスの比較

これらのモデルを並べて比較すると、純粋な精度と推論速度のトレードオフが明らかになる。下表は主要な性能指標をまとめ、YOLO推論能力がEfficientDetモデルファミリーとどのように比較されるかを示している。

モデル	サイズ ^{(ピクセル)}	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

上記で示されているように、EfficientDet-d7は最高の全体的な精度を達成しており、厳密なクラウドベースのアプリケーションに適しています。対照的に、DAMO-YOLOシリーズは、GPUハードウェアで大幅に低い遅延で非常に競争力のある精度を提供するため、リアルタイムエッジ展開にとってより強力な候補となります。

ユースケースと推奨事項

DAMO-YOLOとEfficientDetのどちらを選択するかは、特定のプロジェクト要件、デプロイ制約、およびエコシステムの好みに依存します。

DAMO-YOLOを選択するタイミング

DAMO-YOLOは以下のような場合に強力な選択肢となります。

高スループットビデオ分析: バッチ1スループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェアにおける厳格なGPUレイテンシー制約があるシナリオです。
ニューラルアーキテクチャ探索研究: 自動化されたアーキテクチャ探索（MAE-NAS）と効率的な再パラメータ化されたバックボーンがdetect性能に与える影響を研究しています。

EfficientDetを選択するタイミング

EfficientDetは以下の用途に推奨されます。

Google CloudおよびTPUパイプライン: EfficientDetがネイティブ最適化されているGoogle Cloud Vision APIまたはTPUインフラストラクチャと深く統合されたシステム。
複合スケーリング研究：バランスの取れたネットワークの深さ、幅、解像度のスケーリング効果を研究することに焦点を当てた学術的なベンチマーク。
TFLiteを介したモバイルデプロイメント: Androidまたは組み込みLinuxデバイス向けにTensorFlow Liteのエクスポートを特に必要とするプロジェクト。

Ultralytics YOLO26）を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

現代の選択肢：Ultralytics

YOLO ずれも学術的な重要なマイルストーンではあるものの、実環境での導入にはよりバランスの取れた、機能豊富で開発者向けのアプローチが求められることが多い。Ultralytics まさにこの点で新たな業界標準を打ち立てている。

2026年1月にリリースされたYOLO26は、その前身となるモデル群の遺産を継承しつつ、 Ultralytics YOLO11 、 YOLOv8といったモデルを基盤とし、物体検出へのアプローチにおいてパラダイムシフトをもたらします。

エンドツーエンドのシンプルさ

YOLO26はネイティブな NMSを採用しています。後処理段階におけるノン・マキシマム・サプレッション（NMS）——長年オブジェクト検出器のボトルネックとなってきた処理——を排除することで、特にエッジハードウェアにおいて、より簡素で大幅に高速なデプロイメントパイプラインを実現します。

比類なき性能と汎用性

YOLO26は速度の向上だけでなく、トレーニングの安定性と精度を再定義します。LLMトレーニングの革新に着想を得た、SGD ミューオンSGD 融合したハイブリッド手法「MuSGDオプティマイザー」を導入し、劇的に高速な収束速度と優れたトレーニング効率を実現します。 RT-DETRとは異なり、YOLO26は驚くほど低いメモリ要件を維持し、コンシューマー向けハードウェアでのトレーニングを可能にします。

さらに、YOLO26はProgLoss + STALを組み込み、ドローン航空写真やロボティクスなどのユースケースで重要な小規模物体認識を大幅に改善しました。低消費電力デバイス向けに最適化するため、YOLO26は分布焦点損失（DFL）を削除し、前世代と比較して CPU 最大43%高速化しました。

エコシステムと使いやすさ

EfficientDetのようなモデルにおける最大の障壁の一つは、複雑な統合プロセスです。これに対し、Ultralytics は整備されたエンドツーエンドのエコシステムを提供します。統一されたAPIにより、ユーザーは検出、インスタンスセグメンテーション、姿勢推定、画像分類、方向付き境界ボックス（OBB）の間を容易に切り替えることができます。

Ultralytics Python を使用したYOLO26のトレーニングと推論の実行は、以下の通り非常に簡単です：

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run ultra-fast NMS-free inference
predictions = model.predict("image.jpg")

YOLO26についてさらに詳しく

結論

YOLO 検討YOLO 、ニューラルアーキテクチャ探索と複合スケーリングのトレードオフに関する優れた知見を提供する一方で、現代の開発者は学術研究と実運用環境のギャップを埋めるツールを必要としている。

使いやすさ、活発なオープンソースコミュニティ、そして速度と精度の妥協のないバランスを優先する開発者にとって、Ultralytics YOLO26は決定的な選択肢です。そのNMSフリーアーキテクチャ、低いトレーニングオーバーヘッド、そして包括的なUltralyticsエコシステムとのシームレスな統合は、次のコンピュータービジョンプロジェクトにとって究極のフレームワークとなります。