YOLOv7 YOLOv9:現代の物体検出技術への深い探求
リアルタイム物体検出の技術は急速に進化しており、新たなイテレーションごとにエッジデバイスとクラウドサーバー双方の可能性の限界を押し広げています。コンピュータビジョンプロジェクトのアーキテクチャを評価する際、開発者は確立されたベンチマークと新たなイノベーションを頻繁に比較します。この包括的なガイドでは、YOLO 二つの重要なマイルストーンを比較します: YOLOv7 と YOLOv9を比較します。
当社は、各モデルのアーキテクチャ上の革新点、性能指標、および理想的な導入シナリオを分析し、お客様のアプリケーションに最適なモデル選択を支援します。さらに、Ultralytics これらのモデルを統合し、トレーニング、検証、導入を容易にする仕組みについても解説します。
モデル系統と技術仕様
これらのモデルの起源と設計思想を理解することは、その能力を理解する上で不可欠な背景を提供する。両モデルは共通の研究系譜を共有するが、異なるアーキテクチャ上のボトルネックをターゲットとしている。
YOLOv7:フリービーの袋の先駆者
2022年半ばに発表されたYOLOv7 、高い信頼性と高度な最適化を実現したアーキテクチャとしてYOLOv7 。構造的再パラメータ化と「学習可能なフリービーの袋」アプローチを導入し、平均精度(mAP)を損なうことなく高い推論速度を維持している。
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織:台湾中央研究院情報科学研究所
- 日付:2022年7月6日
- Arxiv:2207.02696
- GitHub:WongKinYiu/yolov7
アーキテクチャの革新: YOLOv7は、拡張効率層集約ネットワーク(E-ELAN)を特徴としており、カーディナリティを拡張、シャッフル、マージすることで、モデルがより多様な特徴を学習できるようにします。この設計により、優れたGPU利用率と推論レイテンシが実現されます。しかし、最新のイテレーションと比較して、複雑なトレーニング実行中にかなりのメモリを必要とする場合があります。
YOLOv9: 情報のボトルネックを解決する
2024年初頭に同じ研究チームによって発表YOLOv9 、深層ニューラルネットワークに内在する「情報ボトルネック」YOLOv9 。データが深層を通過する過程で、重要な詳細が失われることが頻繁にある。YOLOv9 根本的に新しい層設計を通じてこれをYOLOv9 。
- 著者: Chien-Yao Wang and Hong-Yuan Mark Liao
- 組織:台湾中央研究院情報科学研究所
- 日付: 2024年2月21日
- Arxiv:2402.13616
- GitHub:WongKinYiu/yolov9
アーキテクチャの革新: YOLOv9は、プログラマブル勾配情報(PGI)と汎用効率層集約ネットワーク(GELAN)を導入しています。PGIは、信頼性の高い勾配が保持され、重みを正確に更新するためにフィードバックされることを保証します。GELANはパラメータ効率を最大化し、YOLOv9がその前身よりも大幅に少ないFLOPsで高精度を達成できるようにします。
パフォーマンス分析
アーキテクチャを選択する際、AIエンジニアは精度、推論速度、計算コストのバランスを考慮する必要があります。以下の表は、標準的なCOCO におけるこれらのモデルの性能差を比較したものです。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
主なポイント
- パラメータ効率: YOLOv9mは、YOLOv7lの精度(51.4% mAP)に匹敵しながら、ほぼ45%少ないパラメータ(20.0M対36.9M)を使用します。この大幅な削減により、YOLOv9mはメモリ制約のあるエッジAIデバイスへのデプロイがはるかに容易になります。
- マイクロデプロイメント: YOLOv9t (tiny) バリアントの導入により、リアルタイム制約が絶対的な環境向けに、驚異的な速度 (T4 TensorRTで2.3ms) が提供されます。
- 最大精度: 精度が最重要となるアプリケーションでは、YOLOv9eはdetect精度を55.6% mAPまで高め、YOLOv7xを大幅に上回ります。
コンピュータビジョンプロジェクトの将来を見据えた設計
YOLOv9 、新たにリリースされたYOLO26は決定的な飛躍を遂げている。YOLO26はNMSを導入し、複雑な後処理を排除CPU 最大43%向上させた。革新的なMuSGDオプティマイザと 強化されたProgLoss + STAL損失関数を活用することで、YOLO26は比類のないトレーニング安定性と小物体検出精度を実現している。
Ultralyticsの利点
モデルアーキテクチャの選択は最初のステップに過ぎません。モデルを取り巻くソフトウェアエコシステムが、プロトタイプから本番環境への移行速度を決定します。Ultralytics Python APIを介してこれらのモデルを統合することは、開発者と研究者にとって大きなメリットとなります。
使いやすさとトレーニング効率
従来、YOLOv7 トレーニングYOLOv7 複雑なデータ準備と高度にカスタマイズされたスクリプトYOLOv7 。Ultralytics こうした深層学習の複雑性を抽象化します。開発者は最小限のコードでアーキテクチャの切り替え、ハイパーパラメータ調整の実験、インテリジェントなデータ拡張パイプラインの利用を容易に行えます。
さらに、Ultralytics トレーニングおよび推論時のメモリ使用量を Ultralytics 。重いトランスフォーマーモデル(例: RT-DETR)とは異なり、Ultralytics YOLO トレーニング速度が大幅に向上し、CUDA の必要量が大幅に削減されるため、コンシューマー向けGPUに最適です。
コード例: 効率化されたトレーニング
Ultralytics 、最先端モデルのトレーニングがシームレスに行えます。以下に、YOLOv9 トレーニングと検証方法を示す完全実行可能な例を示します:
from ultralytics import YOLO
# Initialize the model (you can swap 'yolov9c.pt' with 'yolov7.pt' or 'yolo26n.pt')
model = YOLO("yolov9c.pt")
# Train the model on the COCO8 sample dataset
train_results = model.train(
data="coco8.yaml",
epochs=50,
imgsz=640,
device="0", # Use GPU 0 if available
batch=16, # Optimized batch size for memory efficiency
)
# Validate the model's performance on the validation set
metrics = model.val()
# Export the trained model to ONNX format for deployment
model.export(format="onnx")
あらゆるタスクにおいて比類なき汎用性
よく整備されたエコシステムは、多様なコンピュータービジョンタスクへのアクセスを意味します。YOLOv7は主に物体検出用に構築されましたが(後に他のタスク向けに実験的なフォークも登場)、現代のUltralyticsモデルは、汎用性を念頭に置いてネイティブに構築されています。そのまますぐに、インスタンスセグメンテーション、姿勢推定、画像分類、およびOriented Bounding Box (OBB) detectをシームレスに実行できます。
理想的なユースケースとアプリケーション
YOLOv7 YOLOv9 の選択は、YOLOv9 、特定の業界の制約やハードウェアの可用性によって決まります。
YOLOv7を活用すべきタイミング
- レガシーエッジデプロイメント: YOLOv7のE-ELANアーキテクチャ向けにすでに高度に調整および最適化されているハードウェア環境では、産業用IoTにとって堅牢な選択肢であり続けます。
- 交通監視: YOLOv7の高いフレームレートと実証済みの安定性は、スマートシティインフラストラクチャやリアルタイム交通管理に優れています。
- ロボット統合: 動的な環境をナビゲートするには低レイテンシ処理が必要であり、YOLOv7のバリアントが extensively テストされてきたシナリオです。
YOLOv9を活用すべきタイミング
- 医用画像: YOLOv9のPGIアーキテクチャは、ディープ層を通じて微細な詳細を保持する点で優れており、腫瘍検出のような複雑な医用画像解析タスクを分析する際に極めて重要です。
- 密集した小売分析: 小売店の棚に密集して陳列された商品をtrackおよびカウントする場合、YOLOv9の機能統合は優れたAPを提供し、誤検出を削減します。
- Aerial and Drone Imagery: YOLOv9mのパラメータ効率により、ドローン上での高解像度画像処理が可能になり、バッテリー寿命を消耗することなく野生生物保護や農業監視を支援します。
結論
YOLOv7とYOLOv9は両方ともコンピュータビジョンの歴史にその地位を確立しています。YOLOv7はリアルタイム処理のための重要な最適化を導入し、一方YOLOv9は構造的な深層学習のボトルネックに取り組み、パラメータ効率を最大化しました。
しかし、今日新たなプロジェクトを始める開発者にとって、Ultralytics を活用すること——特に次世代モデルである YOLO11やYOLO26といった次世代モデルを活用することが、速度、精度、開発者体験のバランスにおいて最も有利な選択肢となります。MuSGDオプティマイザの導入や、ハードウェア互換性向上のためのディストリビューションフォーカルロス(DFL)の廃止といった革新により、Ultralytics ビジョンAI専門家にとって最もアクセスしやすく強力なツールを提供しUltralytics 。