YOLOv9 .YOLOv7:最先端物体検出技術の進化をたどる
急速に進歩するコンピュータビジョン分野において、効率的で正確なアプリケーションを構築するには、最新のアーキテクチャを常に把握することが不可欠です。本比較では、YOLO You Only Look Once)シリーズの二つの重要なマイルストーン、 YOLOv9:2024年初頭に導入され、革新的な勾配最適化技術を採用したモデル。 YOLOv7(2022年にリアルタイム検出の標準を確立したモデル)を比較検討します。両モデルは物体検出の分野に新たな地平を切り開き、研究者や開発者双方に独自の強みを提供しています。
性能ベンチマーク
以下の表は、COCO YOLOv7 性能指標をまとめたものです。YOLOv7 2022年に速度と精度の高い基準YOLOv7 一方、YOLOv9 特にパラメータ効率において、これらの限界をさらに押し広げるアーキテクチャの改良YOLOv9 。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
YOLOv9: プログラマブル勾配情報
YOLOv9 、深層学習アーキテクチャが情報の流れを管理する方法における転換点をYOLOv9 。2024年2月にChien-Yao WangとHong-Yuan Mark Liaoによって発表されたこの手法は、データが深層を通過する際に失われる「情報のボトルネック」問題に対処するものである。
主要なアーキテクチャ革新
YOLOv9 核となる革新はPGI(プログラマブル勾配情報) YOLOv9 。PGIは補助的な監督フレームワークを提供し、トレーニングプロセス全体を通じて主枝が重要な特徴情報を保持することを保証する。これはGELAN(汎用効率的層集約ネットワーク)アーキテクチャによって補完され、CSPNetなどの従来手法を超えるパラメータ利用率の最適化を実現する。
- 著者: Chien-Yao Wang、Hong-Yuan Mark Liao
- 組織:中央研究院情報科学研究所
- 日付: 2024年2月21日
- リンク:Arxiv,GitHub
YOLOv7: トレーニング可能なBag-of-Freebies
YOLOv7 、2022年7月のリリース時点で最速かつ最高精度を誇るリアルタイム物体検出器としてYOLOv7 。推論コストを増加させることなく精度を向上させる最適化手法である複数の「bag-of-freebies」を導入した。
主要なアーキテクチャ革新
YOLOv7 はE-ELAN(拡張効率的層集約ネットワーク)にYOLOv7 、最短および最長の勾配経路を制御することでネットワークがより多様な特徴を学習できるようにした。また、深さと幅を同時に調整するモデルスケーリング技術を先駆的に導入し、様々なハードウェア制約への高い適応性を実現した。
- 著者:王建耀、アレクセイ・ボチコフスキー、廖宏源(マーク・リャオ)
- 組織:中央研究院情報科学研究所
- 日付:2022年7月6日
- リンク:Arxiv,GitHub
比較分析: アーキテクチャとユースケース
精度と形状保持
YOLOv9 、小型または遮蔽された物体の検出YOLOv7 、YOLOv9 YOLOv7 回る性能を発揮する。PGIフレームワークは勾配の希薄化を防止し、微小な異常の検出漏れが致命的となり得る医療画像解析において特に有益である。YOLOv7 汎用検出においてYOLOv7 堅牢な選択肢YOLOv7 、非常に深いネットワークにおける極端な情報ボトルネックでは若干の困難を伴う可能性がある。
推論速度と効率
両モデルともリアルタイムアプリケーション向けに設計されているが、YOLOv9 パラメータと精度のバランスがYOLOv9 。例えばYOLOv9c はYOLOv7xと同等の精度を達成しつつ、パラメータ数(2530万対7130万)とFLOPsを大幅に削減している。YOLOv9 、エッジAIカメラなどメモリ帯域幅が制約となるデバイスへの展開YOLOv9 。
デプロイの柔軟性
Ultralytics 移植性で知られています。YOLOv9 YOLOv7 の両方は、 ONNX や TensorRTUltralytics Python に簡単にエクスポートでき、研究から実運用までの流れを効率化します。
トレーニング効率
Ultralytics 大きな利点は、トレーニング中のメモリ使用量の最適化です。Ultralyticsネイティブ統合されたYOLOv9、効率的なデータローダーとメモリ管理の恩恵を受けます。これにより開発者は、コンシューマー向けGPU(例:RTX 3060や4070)上で競争力のあるモデルをトレーニングでき、トランスフォーマーを多用するアーキテクチャや最適化されていないリポジトリで頻発するメモリ不足(OOM)エラーに遭遇することはありません。
現実世界のアプリケーション
これらのモデルの選択は、多くの場合、特定のデプロイメント環境に依存します。
- 自動運転車:YOLOv7 は自動運転シナリオで広範にテストされ、高フレームレートでの歩行者や交通標識の検出における信頼性を実証している。
- 医療画像診断:YOLOv9 腫瘍や骨折の検出など、深層を通じた微細な詳細の保持が極めて重要な医療画像処理において優れた性能を発揮する。
- 小売分析: 在庫管理のために、 YOLOv9 は優れた特徴統合能力を活用し、棚に密集して配置された商品の計数において高い精度を提供します。
- スマートシティ:交通監視システムは YOLOv7の実証済みの安定性と速度を活用し、リアルタイム交通管理に不可欠な性能を発揮します。
Ultralyticsの利点
Ultralytics 内でいずれかのモデルを使用することで、スタンドアロン実装に比べて明確な利点が得られます:
- 使いやすさ:統一されたAPIにより、 YOLOv7、YOLOv9、および新しいモデルをたった1行のコードで切り替えることができます。
- よく整備されたエコシステム:活発なコミュニティサポートと頻繁な更新により、最新の PyTorch バージョンCUDA 。
- 汎用性:検出機能に加え、Ultralytics インスタンスセグメンテーション、姿勢推定、方向付き境界ボックス(OBB)タスクをサポートしており、新たなツールを習得することなくプロジェクトの範囲を拡張できます。
コード例:Ultralyticsを使用したトレーニング
どちらのモデルのトレーニングもシームレスです。カスタムデータセットYOLOv9 トレーニングする方法は以下の通りです:
from ultralytics import YOLO
# Load a model (YOLOv9c or YOLOv7)
model = YOLO("yolov9c.pt") # or "yolov7.pt"
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model
model.val()
YOLO26による将来を見据えた対策
YOLOv9 YOLOv7 強力なツールですが、この分野は急速に進化しています。2026年1月にリリースされた最新のYOLO26は、コンピュータビジョンの最先端技術を表しています。
YOLO26はネイティブなエンドツーエンドNMS設計を採用し、後処理の遅延を排除することでよりシンプルな展開を実現します。エッジ互換性を高めるため分布焦点損失(DFL)を排除し、LLMトレーニングに着想を得たSGD ミューオンのハイブリッドであるMuSGDオプティマイザーを導入することで、これまでにない安定性を実現しています。ProgLoss + STALなどの専用損失関数により、YOLO26は微小物体認識性能を大幅に向上させ、新たな高性能アプリケーションにおける推奨選択肢となっています。
他の選択肢を探している方へ、 YOLO11 や RT-DETR といったモデルも、UlUltralytics yticsのドキュメント内で特定のユースケース向けに独自の利点を提供しています。