Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLOとEfficientDetの比較:現代の物体検出に関する技術的な深掘り#

コンピュータビジョンの進化は、現実世界の多様な要求に合わせた強力なアーキテクチャの数々を生み出してきました。大規模なスケーラビリティを優先するフレームワークもあれば、リアルタイムの推論速度を重視するものもあります。本技術比較では、物体検出という課題に対する異なるアプローチを示す、極めて影響力の大きい2つのモデル、DAMO-YOLOEfficientDetを探求します。両者のアーキテクチャを詳細に分析し、ベンチマーク性能を比較した上で、なぜ新しくリリースされたUltralytics YOLO26が現代のプロダクション展開において最適な選択肢となるのかを解説します。

Link to this sectionアーキテクチャの概要#

両モデルとも効率と精度のトレードオフに取り組むよう設計されていますが、その目標達成のために採用しているメカニズムは根本的に異なります。

Link to this sectionDAMO-YOLO:ニューラルアーキテクチャ探索による高速化#

リアルタイム検出の限界を押し広げるために開発されたDAMO-YOLOは、自動探索技術を活用して、低レイテンシ環境に最適化された極めて効率的なネットワークを構築します。

DAMO-YOLOの詳細:
著者:Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
組織:Alibaba Group
日付:2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLOは、速度と精度の両方を最適化するニューラルアーキテクチャ探索(NAS)バックボーンを中心に構築されています。RepGFPN(Reparameterized Generalized Feature Pyramid Network)を採用しており、高い推論速度を維持しながら特徴融合を強化します。さらに、そのZeroHead設計により、検出ヘッドに伴う計算オーバーヘッドを最小限に抑えています。また、本モデルはAlignedOTA(Aligned Optimal Transport Assignment)と蒸留による強化の恩恵を受けており、最も小さなモデルバリアントであっても、より大きなモデルから豊かな表現を学習できるようにしています。

DAMO-YOLOの詳細はこちら

Link to this sectionEfficientDet:コンパウンドスケーリングによるスケーラビリティ#

速度を最優先するアプローチとは対照的に、EfficientDetは様々な計算リソース予算に対する体系的なスケーラビリティに焦点を当てています。

EfficientDetの詳細:
著者:Mingxing Tan, Ruoming Pang, Quoc V. Le
組織:Google Brain
日付:2019-11-20
Arxiv:https://arxiv.org/abs/1911.09070
GitHub:https://github.com/google/automl/tree/master/efficientdet

EfficientDetは、簡便かつ高速なマルチスケール特徴融合を可能にするBiFPN(Bidirectional Feature Pyramid Network)を導入しています。レイヤーやチャンネルを任意に追加する従来のスケーリング手法とは異なり、EfficientDetは、バックボーン、特徴ネットワーク、ボックス/クラス予測ネットワークの解像度、深さ、幅を同時に均一にスケーリングするコンパウンドスケーリング手法を採用しています。これにより、ハイエンドなハードウェアで最高水準の精度を達成しつつ、リソースの限られた環境向けに小型のバリアントを提供することが可能です。

EfficientDetについて詳しく知る

Link to this sectionパフォーマンスと指標の比較#

これら2つのモデルを比較すると、純粋な精度と推論速度の間のトレードオフが明確になります。以下の表は主要な性能メトリクスをまとめたもので、DAMO-YOLOの推論能力EfficientDetモデルファミリーを比較したものです。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

上記からわかるように、EfficientDet-d7は全体として最高の精度を達成しており、厳格なクラウドベースのアプリケーションに適しています。一方で、DAMO-YOLOシリーズは、GPUハードウェアにおいて極めて低いレイテンシで非常に競争力のある精度を提供しており、リアルタイムのエッジ展開においてより強力な候補となります。

Link to this sectionユースケースと推奨事項#

DAMO-YOLOとEfficientDetの選択は、特定のプロジェクト要件、展開制約、およびエコシステムの好みによって決まります。

Link to this sectionDAMO-YOLOを選択すべきケース#

DAMO-YOLOは以下のような場合に強力な選択肢となります。

  • 高スループットビデオ解析: バッチサイズ1でのスループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
  • 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェア上での厳格なGPUレイテンシ制約があるシナリオ。
  • Neural Architecture Searchの研究: 自動化されたアーキテクチャ探索 (MAE-NAS) や効率的な再パラメータ化バックボーンが検出パフォーマンスに与える影響の研究。

Link to this sectionEfficientDetを選択すべき場合#

EfficientDetは以下の場合に推奨されます:

  • Google CloudおよびTPUパイプライン: Google Cloud Vision APIやTPUインフラストラクチャと深く統合されたシステムであり、EfficientDetのネイティブ最適化が活かせる環境。
  • 複合スケーリング研究: ネットワークの深さ、幅、解像度のスケーリングバランスが与える影響を調査することに焦点を当てた学術的なベンチマーク。
  • TFLite経由のモバイルデプロイ: Androidまたは組み込みLinuxデバイス向けにTensorFlow Liteのエクスポートを特に必要とするプロジェクト。

Link to this sectionUltralytics (YOLO26) を選択すべき時#

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。

  • NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
  • CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
  • 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。

Link to this section現代的な代替手段: Ultralytics YOLO26#

DAMO-YOLOとEfficientDetはどちらも学術的な大きなマイルストーンですが、現実世界の導入においては、よりバランスが取れており、機能が充実した、開発者にとって使いやすいアプローチが求められます。ここでUltralytics YOLO26が新たな業界標準を確立します。

2026年1月にリリースされたYOLO26は、Ultralytics YOLO11YOLOv8といった先行モデルのレガシーの上に構築されており、物体検出への取り組み方にパラダイムシフトをもたらします。

エンドツーエンドのシンプルさ

YOLO26はネイティブなエンドツーエンドのNMSフリー設計を備えています。長年物体検出器を悩ませてきたボトルネックである後処理中の非最大値抑制(NMS)を排除することにより、YOLO26は特にエッジハードウェアにおいて、よりシンプルで大幅に高速な展開パイプラインを提供します。

Link to this section比類なき性能と汎用性#

YOLO26は速度の向上だけでなく、学習の安定性と精度を再定義します。LLM学習の革新に着想を得たSGDとMuonのハイブリッドであるMuSGD Optimizerを導入しており、劇的に高速な収束率と優れた学習効率を実現します。RT-DETRのようなリソース消費の大きいTransformerベースの代替手段とは異なり、YOLO26は非常に低いメモリ要件を維持し、一般消費者向けのハードウェアでも学習が可能です。

さらに、YOLO26はProgLoss + STALを組み込んでおり、ドローンによる航空画像やロボット工学などのユースケースにおいて不可欠な、小物体認識の精度を大幅に向上させました。低消費電力デバイス向けに最適化するため、YOLO26はDistribution Focal Loss(DFL)を削除し、前世代と比較して最大43%のCPU推論の高速化を実現しました。

Link to this sectionエコシステムと使いやすさ#

EfficientDetのようなモデルの最大のハードルの一つは、その複雑な統合プロセスです。対照的に、Ultralytics Platformは、適切にメンテナンスされたエンドツーエンドのエコシステムを提供します。統合されたAPIにより、ユーザーは検出、インスタンスセグメンテーション姿勢推定画像分類、および指向性境界ボックス(OBB)を容易に切り替えることができます。

Ultralytics Pythonパッケージを使用してYOLO26の学習と推論を実行するのがいかに簡単かを示します。

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run ultra-fast NMS-free inference
predictions = model.predict("image.jpg")

YOLO26の詳細はこちら

Link to this section結論#

DAMO-YOLO vs EfficientDetを探求することは、ニューラルアーキテクチャ探索とコンパウンドスケーリングの間のトレードオフに関する優れた洞察を提供しますが、現代の開発者には学術研究と生産の現実とのギャップを埋めるツールが必要です。

使いやすさ、活発なオープンソースコミュニティ、そして速度と精度の妥協のないバランスを優先する開発者にとって、Ultralytics YOLO26が決定的な選択肢です。そのNMSフリーのアーキテクチャ、低い学習オーバーヘッド、そして包括的なUltralyticsエコシステムとのシームレスな統合は、次世代のコンピュータビジョンプロジェクトにとって究極のフレームワークとなります。

コントリビューター

コメント