コンテンツにスキップ

YOLOv9 YOLO:物体検出モデルの技術的比較

コンピュータビジョンの急速な進化により、様々な導入制約や精度要件に合わせて設計された強力なアーキテクチャが数多く生み出されている。この分野における注目すべき2つの成果が YOLOv9(情報ボトルネックへの頑健な対応で高く評価されている)と、ニューラルアーキテクチャ検索(NAS)と効率的な特徴ピラミッドに重点を置いたYOLO

本ガイドでは、YOLOアーキテクチャ上の差異、トレーニング手法、最適な導入シナリオを詳細に技術的に比較します。さらに、Ultralytics 開発から本番環境までシームレスな移行経路を提供する仕組みや、YOLO26のような最新モデルが新規プロジェクトの推奨標準となった理由についても考察します。

アーキテクチャの詳細

各モデルを駆動する中核的なメカニズムを理解することで、なぜそれらが様々な指標において異なるパフォーマンスを示すのかが明らかになる。

YOLOv9: プログラマブル勾配情報

YOLOv9 、データが深層ニューラルネットワークを通過する際に生じる情報損失を直接的に解決するために設計YOLOv9 。

著者: Chien-Yao Wang、Hong-Yuan Mark Liao
所属: 中央研究院 情報科学研究所、台湾
日付: 2024年2月21日
リンク:Arxiv, GitHub, ドキュメント

YOLOv9について詳しくはこちら

YOLOv9 はプログラマブル勾配情報(PGI) と汎用効率層集約ネットワーク(GELAN)YOLOv9 。PGIはフィードフォワード処理中に重要な空間的・意味的情報を保持し、重み更新に用いられる勾配の劣化を防ぐ。 GELANはこれを補完し、パラメータ効率を最大化することで、多くの従来型CNNよりも少ないFLOPsで最先端の平均精度(mAP)を達成することを可能にします。

DAMO-YOLO: NAS駆動の効率性

Alibaba Groupによって開発されたDAMO-YOLOは、異なるアプローチを採用し、自動アーキテクチャ探索を活用して、速度と精度の最適なバランスを見つけます。

著者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang、および Xiuyu Sun
所属: Alibaba Group
日付: 2022年11月23日
リンク:Arxiv, GitHub

DAMO-YOLOの詳細

DAMO-YOLOは、MAE-NAS(Masked Autoencoders for Neural Architecture Search)バックボーンに依拠し、効率的なネットワーク構造を自動的に生成します。堅牢な特徴融合のためにRepGFPN(Reparameterized Generalized Feature Pyramid Network)を利用し、検出ヘッドの計算負荷を最小限に抑える「ZeroHead」設計を採用しています。さらに、ラベル割り当てにはAlignedOTAを組み込み、小規模なバリアントの性能を向上させるために知識蒸留を活用しています。

コンピュータビジョンにおけるNASの役割

ニューラルアーキテクチャサーチ(NAS)は人工ニューラルネットワークの設計を自動化する。YOLO高効率モデルを生成できる一方で、アーキテクチャ空間の探索には膨大な計算資源を必要とする場合が多く、YOLOv9のようなモデルのより決定論的な設計思想とは対照的である。

パフォーマンスとメトリクスの比較

物体検出モデルを選択する際には、精度、速度、および計算リソースの消費量のバランスを取ることが極めて重要である。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

分析

  • 精度対パラメータ数: YOLOv9は一般的に、優れたパラメータ対精度比を示します。例えば、YOLOv9cは25.3Mのパラメータで53.0% mAPを達成する一方、DAMO-YOLOlは50.8% mAPを達成しますが、より多くのパラメータ(42.1M)を必要とします。
  • 推論速度: DAMO-YOLOのアーキテクチャは、T4 GPUで競争力のあるTensorRT推論速度を提供し、中間層ではYOLOv9をわずかに上回ります。しかし、YOLOv9のFLOPsとパラメータ数の効率性は、優れたGPUメモリ効率につながります。
  • メモリ要件: YOLOv9を含むUltralytics YOLOモデルは、複雑なNAS生成モデルや重いTransformerアーキテクチャと比較して、トレーニングと推論の両方で通常メモリ使用量が少なく、制約のあるエッジハードウェアへのデプロイメントが非常に容易になります。

Ultralyticsエコシステムの利点

理論的な指標は重要ですが、実際の運用がプロジェクトの成功を大きく左右します。この点において、Ultralytics とその包括的なソフトウェアエコシステムは、YOLOのような単体のリポジトリを凌駕しています。

使いやすさとトレーニング効率

YOLOv9 トレーニングには最小限の定型処理しか必要としません。Ultralytics Python データ拡張、分散トレーニング、ハードウェア最適化といった複雑なプロセスを抽象化します。

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

対照的に、DAMO-YOLOを利用するには、その独自のトレーニングパイプラインに特有の厳格な設定ファイルや複雑な依存関係チェーンを操作する必要があることが多く、学習曲線が急になる傾向があります。

タスクを横断する汎用性

Ultralyticsモデルの特長は、その本質的な汎用性です。標準的なバウンディングボックスdetectを超えて、Ultralyticsフレームワークは、インスタンスセグメンテーション姿勢推定画像分類、およびOriented Bounding Box (OBB) detectなどのタスクをシームレスにサポートします。DAMO-YOLOは2D物体detectに厳密に最適化されており、他の視覚パラダイムに適応するには大幅な再設計が必要です。

エッジデバイスへのエクスポート

Ultralytics 、ワンクリックでモデルをTensorRTOpenVINO、CoreMLなどへのワンクリックモデルエクスポートを提供することでデプロイメントパイプラインを簡素化し、ターゲットハードウェアに関わらず最高のパフォーマンスを保証します。

ユースケースと推奨事項

YOLOv9とDAMO-YOLOのどちらを選択するかは、特定のプロジェクト要件、デプロイの制約、およびエコシステムの好みによって異なります。

YOLOv9を選択すべき時

YOLOv9 以下のような場合に有力な選択肢YOLOv9 :

  • 情報ボトルネック研究: プログラマブル勾配情報(PGI)および汎用効率的層集約ネットワーク(GELAN)アーキテクチャを研究する学術プロジェクトです。
  • 勾配フロー最適化研究: トレーニング中の深層ネットワーク層における情報損失の理解と軽減に焦点を当てた研究。
  • 高精度detectベンチマーク: YOLOv9の強力なCOCOベンチマーク性能が、アーキテクチャ比較の参照点として必要とされるシナリオ。

DAMO-YOLOを選択するタイミング

DAMO-YOLOは以下のような用途に推奨されます。

  • 高スループットビデオ分析: バッチ1スループットが主要な指標となる、固定のNVIDIA GPUインフラストラクチャ上での高FPSビデオストリーム処理。
  • 産業用製造ライン: 組立ラインでのリアルタイム品質検査など、専用ハードウェアにおける厳格なGPUレイテンシー制約があるシナリオです。
  • ニューラルアーキテクチャ探索研究: 自動化されたアーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化されたバックボーンがdetect性能に与える影響を研究しています。

Ultralytics YOLO26)を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

  • NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
  • CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
  • 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

未来:YOLO26への移行

YOLOv9 YOLO 歴史的な重要なマイルストーンYOLO 、現代のコンピュータビジョンはネイティブのエンドツーエンドアーキテクチャへと移行している。新たな開発においては、 YOLO26 が推奨される標準です。

2026年にリリースされたYOLO26は、前世代の成功を基盤とし、精度と導入の簡便性の両面で飛躍的な向上を実現しています。

YOLO26の主要なイノベーション

  • エンドツーエンドのNMSフリー設計: YOLO26はNon-Maximum Suppression (NMS)後処理を完全に排除します。これにより、ネイティブにエンドツーエンドの合理化されたデプロイメントパイプラインが構築され、これはYOLOv10で最初に開拓された画期的な進歩です。
  • DFLの削除: Distribution Focal Lossが削除されたことで、エクスポートが簡素化され、エッジデバイスおよび低電力デバイスとの互換性が向上します。
  • 最大43%高速なCPU推論: 複雑な後処理を削除し、コア畳み込みを最適化することで、YOLO26 は専用GPUを持たないエッジコンピューティングシナリオに特に適しています。
  • MuSGD オプティマイザ: LLMトレーニングイノベーションから着想を得て、YOLO26はSGDとMuonのハイブリッド (MuSGD) を利用し、より安定したトレーニング実行と著しく高速な収束時間を保証します。
  • ProgLoss + STAL: これらの高度な損失関数は、小さなオブジェクトの認識において顕著な強化をもたらし、YOLO26を高高度航空画像やIoTデバイスに最適にします。

現在調査中の方へ YOLO11 または YOLOv8 を調査している場合、YOLO26へのアップグレードにより、現在利用可能な最も最適化された最先端のビジョンAIフレームワークを活用できることが保証されます。

概要

適切なモデルの選択は、特定の運用上の制約に依存します。

  • DAMO-YOLOは、NAS駆動型最適化への魅力的な洞察を提供し、そのRepGFPNアーキテクチャが輝く非常に特定のハードウェアプロファイルで競争力のある速度を実現します。
  • YOLOv9は、きめ細かな視覚的詳細の保持に焦点を当てる研究者にとって優れた選択肢であり、そのPGIアーキテクチャを活用して深層ネットワークにおける情報損失を防ぎます。
  • Ultralytics YOLO26 は、現代のエンタープライズおよび研究アプリケーションにとって決定的な選択肢として確立されています。その比類ない使いやすさ、NMS-freeアーキテクチャ、および最先端のMuSGDトレーニング最適化により、コンピュータービジョン分野で最も信頼性が高く、正確で、デプロイしやすいモデルとなっています。

コメント