コンテンツにスキップ

YOLO:アンカーフリーとNAS駆動型物体検出器の比較

リアルタイム物体検出技術の進化は、アンカーベースからアンカーフリーアーキテクチャへ、手動設計のバックボーンから自動化されたニューラルアーキテクチャ検索(NAS)へと、数多くのパラダイムシフトを経験してきた。本包括的な技術比較では、この進化の道程における二つの重要なYOLO分析する。 両モデルのアーキテクチャ革新、学習手法、性能トレードオフを検証するとともに、現代の開発者にとって比類なき選択肢Ultralytics の優位性を明らかにする。

YOLOX:アンカー不要パラダイムの先駆者

2021年7月18日、Megviiの鄭格(Zheng Ge)、劉松涛(Songtao Liu)、王峰(Feng Wang)、李澤明(Zeming Li)、孫健(Jian Sun)により発表されたYOLOXは、アンカーフリー設計をYOLO に統合することに成功し、重要な転換点となった。ArXivに掲載された詳細な技術報告書で説明されているように、YOLOXは学術研究と産業展開の間のギャップを埋めることを目的としていた。

主要なアーキテクチャ革新

YOLOXは、その前身モデルを大幅に改善するいくつかの核心的な構造的変化を導入した:

  • アンカーフリーメカニズム: オブジェクトの中心とそのバウンディングボックスの寸法を直接予測することで、YOLOXは設計上のヒューリスティックの数を減らし、複雑なアンカークラスタリングプロセスを簡素化しました。これにより、さまざまなコンピュータビジョンのシナリオに高度に適応できます。
  • デカップルドヘッド: 従来のYOLOモデルは、分類と回帰の両方に単一の結合ヘッドを使用していました。YOLOXはデカップルドヘッドを実装し、分類とローカリゼーションを個別に処理することで、収束が大幅に高速化され、精度が向上しました。
  • SimOTAラベル割り当て: 最適輸送割り当て (OTA) の簡略化されたバージョンが、ポジティブサンプルを動的に割り当て、トレーニング時間を短縮し、中心点割り当ての曖昧さを克服するために使用されました。

ヨロックスの遺産

YOLOXの分離型ヘッド設計は、後続の物体検出器世代に多大な影響を与え、多くの現代モデルにおける標準機能となった。

YOLOXの詳細について。

DAMO-YOLO: 大規模な自動アーキテクチャ探索

Xianzhe XuとAlibaba Groupの研究チームによって開発されたDAMO-YOLOは、2022年11月23日に発表されました。彼らのArXiv論文で詳述されているように、このモデルは、速度と精度のパレートフロンティアを押し広げるために、ニューラルアーキテクチャ探索(NAS)を大いに活用しました。

主要なアーキテクチャ革新

DAMO-YOLOの戦略は、効率的な構造の設計を自動化することに基づいて構築されました。

  • MAE-NASバックボーン: 多目的進化的アルゴリズムを利用することで、DAMO-YOLOは、特定の遅延予算に合わせてカスタマイズされた高効率のバックボーンを発見しました。特にTensorRTのようなフレームワークにエクスポートされた場合に顕著です。
  • 効率的なRepGFPN: 異なる空間解像度間での特徴融合を大幅に強化するヘビーネック設計は、航空画像解析や様々なスケールのオブジェクトをdetectする際に非常に有益です。
  • ZeroHead: モデル全体の平均精度 (mAP) を犠牲にすることなく、計算上の冗長性を削減する簡素化された予測ヘッド。
  • AlignedOTAと蒸留: 高度なラベル割り当てと教師-生徒間の知識蒸留を組み込み、小さな生徒モデルから最大限のパフォーマンスを引き出します。

DAMO-YOLOの詳細

パフォーマンスとメトリクスの比較

これら2つのモデルを比較する際には、パラメータ数、必要なFLOPs、およびレイテンシプロファイルを検討する必要があります。以下は、複数のスケYOLO YOLOXYOLO の比較ベンチマークデータです。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

両モデルとも優れた結果を達成しているが、注意点がある。YOLOXは分離されたヘッドの慎重な調整を必要とし、YOLO蒸留への依存度が高いため、カスタムデータセットでの再学習には膨大なGPU を必要とするなど、非常にリソース集約的である。

ユースケースと推奨事項

YOLOXとDAMO-YOLOのどちらを選択するかは、特定のプロジェクト要件、デプロイの制約、およびエコシステムの好みによって異なります。

YOLOXを選択すべき時

YOLOXは以下に最適な選択肢です:

  • アンカーフリー検出研究: YOLOXのクリーンなアンカーフリーアーキテクチャをベースラインとして使用し、新しい検出ヘッドや損失関数を実験する学術研究。
  • 超軽量エッジデバイス: YOLOX-Nanoバリアントの極めて小さいフットプリント(0.91Mパラメータ)が重要となるマイクロコントローラーやレガシーモバイルハードウェアへのデプロイ。
  • SimOTAラベル割り当て研究: 最適輸送ベースのラベル割り当て戦略と、それがトレーニング収束に与える影響を調査する研究プロジェクト。

DAMO-YOLOを選択するタイミング

DAMO-YOLOは以下のような用途に推奨されます。

  • 高スループットビデオ分析: バッチ1スループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
  • 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェアにおける厳格なGPUレイテンシー制約があるシナリオです。
  • ニューラルアーキテクチャ探索研究: 自動化されたアーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化されたバックボーンがdetect性能に与える影響を研究しています。

Ultralytics YOLO26)を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

  • NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
  • CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
  • 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

Ultralytics :YOLO26のご紹介

YOLOXYOLO 重要な歴史的マイルストYOLO 、現代の開発者は最先端の精度と比類のない使いやすさを兼ね備えたソリューションを求めている。Ultralytics まさにこの領域を変革する存在だ。2026年1月にリリースされたYOLO26は、NMSモデルの遺産を基盤とし、速度・精度・開発者体験の究極のバランスを実現する。

YOLO26を選ぶ理由

統合されたUltralytics は、以下を提供することで断片化された学術リポジトリを凌駕します:

  • エンドツーエンドのNMSフリー設計: YOLO26は、推論中のNon-Maximum Suppression (NMS) をネイティブに排除します。これにより、非常に高速で予測可能なレイテンシが実現され、エッジデプロイメントや自動運転車にとって不可欠です。
  • DFLの削除: Distribution Focal Lossを削除することで、YOLO26はエッジデバイスへのエクスポートプロセスを簡素化し、軽量アプリケーションのメモリ要件を大幅に削減します。
  • MuSGDオプティマイザ: YOLO26は、ハイブリッドSGDとMuonオプティマイザによりLLMトレーニングの革新を取り入れ、揺るぎないトレーニングの安定性と超高速な収束を保証します。
  • 最大43%高速なCPU推論: 徹底的な構造最適化により、YOLO26は高価なGPUハードウェアを必要とせず、CPU上で驚異的な速度で動作します。
  • Advanced Loss Functions: ProgLoss + STALの統合は、小さなオブジェクトの認識に大幅な改善をもたらし、ドローン検査やIoT監視のようなタスクに最適です。
  • 多様性: 厳密なdetectであるDAMO-YOLOとは異なり、YOLO26は、単一の統合フレームワーク内で、Instance SegmentationPose EstimationImage Classification、そしてOriented Bounding Box (obb)タスクをネイティブにサポートします。

今すぐ構築を開始

Ultralytics Python を使用すれば、複雑なディスティレーションパイプラインを手動で設定したり、モデルをデプロイするために何百行ものC++コードを書いたりする必要はありません。

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")

YOLO26についてさらに詳しく

検討すべきその他のモデル

コンピュータビジョンのエコシステムは広大です。特定の制約条件に応じて、Ultralytics が完全にサポートする他のアーキテクチャも検討する価値があります:

  • YOLO11: YOLO26の非常に有能な前身モデルであり、小売分析製造品質管理における堅牢性で知られています。
  • YOLOv8: 広範なエッジデプロイメントを普及させた、伝説的で非常に安定したアンカーフリーモデルです。
  • RT-DETR: Baiduが開発したReal-Time DEtection TRansformerであり、グローバルアテンションメカニズムから大きな恩恵を受けるタスクにとって優れた代替手段を提供しますが、より高いトレーニングメモリ要件を伴います。

結論

YOLOXとDAMO-YOLOは共にディープラーニングの進歩に不可欠な概念を提供しました。YOLOXはデカップリングされたアンカーフリーアプローチの有効性を検証し、DAMO-YOLOは自動アーキテクチャ探索の力を実証しました。しかし、実際のプロダクションにおいては、それらの元の研究コードベースの複雑さがアジャイルチームの速度を低下させる可能性があります。

包括的なUltralytics Platformを活用することで、開発者はこれらの障壁を回避できます。YOLO26のエンドツーエンド設計、優れたCPU速度、そして広範なドキュメンテーションにより、最先端のビジョンAIの実現がこれまで以上に身近になりました。スマートシティインフラ、ヘルスケア診断、高度なロボット工学のいずれを構築する場合でも、Ultralyticsは生データから堅牢な実世界展開まで、最も効率的なパスを提供します。


コメント