コンテンツにスキップ

YOLOv7 YOLOv9:リアルタイム物体検出の進化

コンピュータビジョンの分野は急速な進化を遂げており、YOLO You Only Look Once)ファミリーはリアルタイム物体検出において常に先導的な役割を果たしてきた。この系譜における二つの重要なマイルストーンは YOLOv7(2022年7月発表)と YOLOv9である。両アーキテクチャは中央研究院情報科学研究所の研究者によって開発されたが、深層学習最適化の異なる世代を体現している。

本ガイドでは、これら2つの強力なモデルについて技術的な比較を行い、アーキテクチャ上の革新点、パフォーマンス指標、Ultralytics 理想的なユースケースを分析します。

アーキテクチャの革新

これらのモデル間の核心的な違いは、深層ネットワークにおける特徴量の伝播と勾配の流れをどのように管理するかにある。

YOLOv7: フリービーの袋

著者:Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao YOLOv7はE-ELAN(拡張効率的層集約ネットワーク)を導入した。このアーキテクチャは、最短および最長の勾配経路を制御することで、ネットワークがより多様な特徴を学習することを可能にする。

YOLOv7 「Bag-of-Freebies」でYOLOv7 これは推論コストを増加させずに精度を向上させる一連の学習手法の集合体YOLOv7 。これには再パラメータ化技術や補助ヘッドの監督が含まれ、学習中にモデルがより優れた表現を学習するのを助けるが、モデルエクスポート時には高速なデプロイのために統合または削除される。

YOLOv7について詳しくはこちら

YOLOv9: プログラマブル勾配情報

YOLOv9は、Chien-Yao WangとHong-Yuan Mark Liaoによって開発され、深層ネットワークに内在する「情報ボトルネック」問題に対処します。データが層を順に通過する過程で、入力情報が失われることが頻繁に発生します。YOLOv9 、彼らのArxiv論文で詳述されている二つの画期的な概念YOLOv9 :

  1. GELAN(汎用効率的層集約ネットワーク):CSPNetとELANの強みを組み合わせ、パラメータ効率を最大化するアーキテクチャ。
  2. PGI(プログラマブル勾配情報):ネットワークの重みを更新するための信頼性の高い勾配を生成する補助的な監督フレームワークであり、モデルがネットワークの深さ全体を通じて重要な情報を保持することを保証する。

YOLOv9について詳しくはこちら

パフォーマンス分析

アーキテクチャを選択する際、開発者は平均精度(mAP)、推論速度、計算コスト(FLOPs)のバランスを考慮する必要があります。以下の表はCOCO 性能差を比較したものです。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

主なポイント

  • 効率性:YOLOv9mはYOLOv7lと同等の精度(51.4%mAP)を達成しつつ、パラメータ数を約45%削減(20.0M vs 36.9M)し、FLOPsを大幅に低減している。
  • 速度:ミリ秒単位の処理が求められるリアルタイムアプリケーションにおいて、YOLOv9tはエッジデバイスに適した驚異的な速度(T4TensorRT2.3ms)を実現します。
  • 精度:YOLOv9eは検出精度において限界を押し広げ、55.6%mAPを達成し、高精度を要求するタスクにおいて優れた性能を発揮します。

Ultralyticsエコシステムの利点

YOLOv7 YOLOv9どちらを選択する場合でも、Ultralytics Python を通じて利用することで、統一された効率的な体験が得られます。

使いやすさとトレーニング

Ultralytics 、PyTorch 複雑なトレーニングループをUltralytics 。開発者は単一の文字列引数を変更するだけでアーキテクチャを切り替えられ、ハイパーパラメータ調整と実験を簡素化します。

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model (or substitute with "yolov7.pt")
model = YOLO("yolov9c.pt")

# Train on the COCO8 dataset with efficient memory management
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate performance
metrics = model.val()

メモリとリソース管理

Ultralytics 大きな利点は、メモリ使用量の最適化です。多くのTransformerベースのモデル(DETRのバリエーションなど)や従来の二段階検出器とは異なり、Ultralytics YOLO CUDA 急増を最小化するよう設計されています。これにより研究者はコンシューマー向けGPUでより大きなバッチサイズを使用可能となり、ハイエンドモデルトレーニングへのアクセスが民主化されます。

統合データセット管理

Ultralytics データセットのダウンロードとフォーマットを自動的にUltralytics 。標準的なデータセット(例: COCO8Objects365などの標準データセットで、複雑なデータローダーを記述することなくすぐにトレーニングを開始できます。

現実世界のアプリケーション

YOLOv7を選択すべき時

YOLOv7 、レガシー互換性が重要なシステムにおいて、YOLOv7 堅牢な選択肢YOLOv7 。

  • 確立されたパイプライン:2022年頃のC++エクスポートパイプラインに既に統合されているプロジェクトは、YOLOv7を使い続ける方が容易である可能性があります。
  • 汎用検出:絶対的な最小パラメータ数が主要な制約条件ではない標準的な映像解析において、YOLOv7 優れた性能を発揮する。

YOLOv9を選択すべき時

YOLOv9 、優れたパラメータ効率のため、新規デプロイメントには一般的に推奨YOLOv9 。

  • エッジコンピューティング:GELANの軽量性により、YOLOv9 ストレージと演算能力が限られる組み込みシステムやモバイルアプリケーションにYOLOv9 です。
  • 医療画像診断:PGIアーキテクチャは、医療画像における微小な異常を検出する際に極めて重要な、細粒度の情報を保持するのに役立ちます。
  • 空中監視:改良された特徴保持機能により、高高度ドローン画像から車両や家畜などの小さな物体を検出することが可能となる。

次世代:YOLO26

YOLOv9 優れたYOLOv9 、AI分野はさらに高い簡素性と高速化へと向かっています。ここに登場するのが、Ultralytics 最新バージョン「YOLO26」です。

YOLO26はエンドツーエンドNMS設計によりパラダイムシフトをもたらす。非最大抑制(NMS)を排除することで、YOLO26は推論パイプラインにおける主要なボトルネックを解消し、デプロイを簡素化する。 TensorRT およびONONNXXへのデプロイを簡素化します。

  • MuSGDオプティマイザー:LLMトレーニングにおける革新(Moonshot AIのKimi K2など)に着想を得て、YOLO26はより速い収束と高い安定性を実現するためMuSGDオプティマイザーを採用しています。
  • エッジ最適化:ディストリビューション焦点損失(DFL)の廃止とProgLoss + STALなどの最適化された損失関数により、YOLO26はCPU上で最大43%高速化され、エッジAIの最適な選択肢となっています。
  • 汎用性:検出に特化した従来モデルとは異なり、YOLO26は姿勢推定セグメンテーション、および方向付きバウンディングボックス(OBB)をネイティブにサポートします。

YOLO26についてさらに詳しく

結論

YOLOv7 YOLOv9 YOLOv7 、コンピュータビジョンの進歩に大きくYOLOv9 。YOLOv7 2022年に速度と精度の面で高い基準をYOLOv7 、YOLOv9 2024年に勾配の流れとパラメータ効率を改善する新たなアーキテクチャ変更YOLOv9 。

今日の開発者にとって、選択肢は通常 YOLOv9 の効率性、あるいはNMSアーキテクチャとCPU 備えた最先端のYOLO26が選ばれる傾向にあります。堅牢なUltralytics のサポートにより、スマートシティ監視から農業用ロボティクスまで、特定の制約条件に最適なモデルをこれらの選択肢から切り替える作業は、これまでになく容易になりました。


コメント