YOLOv9 YOLOv7:現代の物体検出技術への深い考察
リアルタイム物体検出技術の進化は、計算効率と高精度とのバランスを追求する継続的な取り組みによって推進されてきた。この道のりにおける二つの画期的なアーキテクチャYOLOv9 YOLOv7 YOLOv9 、いずれも台湾・中央研究院情報科学研究所の研究者によって開発された。YOLOv7 革新的な学習可能なフリービーの袋YOLOv7 一方で、より新しいYOLOv9 深層学習の情報ボトルネックYOLOv9 真正面からYOLOv9 。
この包括的な技術比較では、両モデルのアーキテクチャ上の差異、性能指標、および理想的な導入シナリオを検証し、機械学習エンジニアや研究者が自身のコンピュータビジョンパイプラインに最適なツールを選択する手助けをします。
パフォーマンスとメトリクスの比較
これらのモデルを比較する際、純粋な性能と効率性が重要な要素となる。以下の表は、COCO (mAP)と計算要件の詳細を示す。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
パフォーマンスバランス
YOLOv9cが、YOLOv7x(53.1mAP)とほぼ同等の精度(53.0mAP)を達成しつつ、パラメータ数(25.3M vs 71.3M)とFLOPsを大幅に削減している点に注目してください。これは現代のアーキテクチャにおけるパフォーマンスバランスの改善を示しています。
YOLOv9: 情報のボトルネックを解決する
2024年初頭に登場YOLOv9 、深層ニューラルネットワークが各層を通じてデータを保持する方法をYOLOv9 変えた。
- 著者: Chien-Yao Wang and Hong-Yuan Mark Liao
- 組織:中央研究院情報科学研究所
- 日付: 2024年2月21日
- Resources:Arxiv Paper | GitHub Repository
アーキテクチャの革新
YOLOv9 、汎用効率化層集約ネットワーク(GELAN)とプログラマブル勾配情報(PGI)YOLOv9 。GELANはCSPNetとELANの長所を組み合わせ、パラメータ効率と計算コストを最適化し、少ないパラメータ数で高精度を確保する。PGIは深層ネットワークにおけるデータ損失を防ぐ補助的監督フレームワークであり、学習過程における重み更新のための信頼性の高い勾配を生成する。
長所と限界
YOLOv9 主な強みはYOLOv9 膨大な計算オーバーヘッドを伴わずに微妙な特徴を抽出YOLOv9 、医療画像解析など高い特徴忠実度が求められるタスクにおいて非常に優れた能力を発揮する。ただし、トレーニング時の複雑なPGI構造は、より統一されたフレームワークと比較して、初心者がアーキテクチャをカスタマイズする際に困難を伴う可能性がある。
YOLOv7:フリービーの袋の先駆者
2022年にリリースされたYOLOv7 、消費者向けハードウェアで実現可能な新たな基準をYOLOv7 、リアルタイム推論速度を大幅に向上させる構造的革新をもたらした。
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織:中央研究院情報科学研究所
- 日付:2022年7月6日
- Resources:Arxiv Paper | GitHub Repository
アーキテクチャの革新
YOLOv7核心的な貢献は、拡張効率的層集約ネットワーク(E-ELAN)である。このアーキテクチャにより、モデルはより多様な特徴を継続的に学習できる。YOLOv7 「学習可能なフリービーの袋」——計画的再パラメータ化畳み込みや動的ラベル割り当てといったYOLOv7 。これらの手法は、デプロイ時の推論コストを追加することなく、トレーニング中のモデルの精度を向上させる。
長所と限界
YOLOv7 リアルタイムエッジ処理向けに高度にYOLOv7 、レガシーシステムや古いCUDA 依然として定番モデルである。現在の主な制約は、新世代モデルと比較してパラメータサイズが大きい点だ。性能比較表が示す通り、最高水準の精度を達成するには重厚なYOLOv7xモデルが必要であり、同等の現代的アーキテクチャと比較して大幅にGPU 消費する。
Ultralytics のUltralytics :効率化された導入
YOLOv9 YOLOv7 YOLOv9 オリジナル研究リポジトリは優れた学術的基盤YOLOv7 、これらのモデルを実稼働環境に展開するのは複雑な場合があります。これらを統合するには ultralytics パッケージは比類のない 使いやすさ.
統合されたUltralytics Platformを利用することで、開発者は、直感的なPython API、活発なコミュニティサポート、堅牢な実験trackを備えた、適切に維持されたエコシステムの恩恵を受けられます。
YOLO26による将来を見据えた対策
新しいコンピュータビジョンプロジェクトを始めるなら、新しくリリースされた YOLO26 をYOLOv9 YOLOv7よりも優先して検討することを強く推奨します。新たな最先端標準としてリリースされたYOLO26は、画期的な進歩をもたらします:
- エンドツーエンドのNMSフリー設計: 非最大抑制後処理を排除することで、デプロイの複雑さとレイテンシを劇的に削減します。
- CPU推論が最大43%高速化: エッジコンピューティング環境向けに最適化されており、専用GPUがなくてもアプリケーションがスムーズに動作することを保証します。
- MuSGDオプティマイザ: LLMトレーニングに触発されたハイブリッドオプティマイザで、非常に安定した収束を実現し、トレーニング時間を短縮します。
- DFLの削除: Distribution Focal Lossの削除によりモデルのエクスポートが簡素化され、低消費電力モバイルデバイスとの互換性が向上します。
- ProgLoss + STAL: 小オブジェクト detect の性能を大幅に向上させ、航空画像および監視にとって最高の選択肢となります。
エコシステム内で人気の代替手段には以下が含まれます Ultralytics YOLOv8 および YOLO11が含まれます。これらはいずれも、インスタンスセグメンテーションや 姿勢推定といったタスクにおいて非常に高い汎用性を提供します。
実装例
これらのアーキテクチャのいずれかをトレーニングおよびエクスポートすることは、統一されたAPIにより驚くほど簡単です。以下のコードは、Ultralytics 特徴である合理化されたトレーニング効率を示しています。
from ultralytics import YOLO
# Initialize YOLOv9 or the recommended YOLO26 model
model = YOLO("yolov9c.pt") # Swap with "yolo26n.pt" for faster edge performance
# Train on a custom dataset with built-in data augmentation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)
# Export the trained model to ONNX format for deployment
model.export(format="onnx")
メモリ要件
コンシューマー向けハードウェアでのトレーニングでは、メモリ効率が極めて重要です。Ultralytics YOLOv9 Ultralytics 、VRAM使用量の急増を抑えるよう大幅に最適化されています。これに対し、トランスフォーマーベースのモデル(RT-DETR)は、トレーニング中に深刻なメモリ肥大化に陥ることが多いのです。
実世界での応用例と理想的な使用事例
これらのアーキテクチャの選択は、多くの場合、本番環境の特定の制約が決め手となります。
YOLOv9を使用するタイミング: YOLOv9は、微細な詳細の保持が必要な環境で優れています。その堅牢な特徴抽出は、棚に密集した製品を数える小売分析や、小さな葉の初期段階の作物病害を特定することが重要となる農業アプリケーションに理想的です。
YOLOv7を使用するタイミング: YOLOv7は、レガシー展開パイプラインにとって依然として有力な候補です。古いハードウェアシステム(Google Coral Edge TPUの特定の世代など)に統合する場合、YOLOv7のシンプルなCNNアーキテクチャは、新しいモデルのより複雑な勾配ブランチよりもコンパイルが容易である可能性があります。
YOLO26を使用するタイミング(推奨): 自律ドローンからスマートシティの交通管理まで、あらゆる現代の展開において、YOLO26は優れた選択肢です。そのNMSフリーアーキテクチャは、安全性が重要なロボティクスに不可欠な決定論的な推論時間を保証し、その高精度はYOLOv9とYOLOv7の両方を全体的に上回ります。