YOLOv7 YOLOv9:現代の物体検出技術への深い探求
リアルタイム物体検出の技術は急速に進化しており、新たなイテレーションごとにエッジデバイスとクラウドサーバー双方の可能性の限界を押し広げています。コンピュータビジョンプロジェクトのアーキテクチャを評価する際、開発者は確立されたベンチマークと新たなイノベーションを頻繁に比較します。この包括的なガイドでは、YOLO 二つの重要なマイルストーンを比較します: YOLOv7 と YOLOv9を比較します。
当社は、各モデルのアーキテクチャ上の革新点、性能指標、および理想的な導入シナリオを分析し、お客様のアプリケーションに最適なモデル選択を支援します。さらに、Ultralytics これらのモデルを統合し、トレーニング、検証、導入を容易にする仕組みについても解説します。
モデル系統と技術仕様
これらのモデルの起源と設計思想を理解することは、その能力を理解する上で不可欠な背景を提供する。両モデルは共通の研究系譜を共有するが、異なるアーキテクチャ上のボトルネックをターゲットとしている。
YOLOv7:フリービーの袋の先駆者
2022年半ばに発表されたYOLOv7 、高い信頼性と高度な最適化を実現したアーキテクチャとしてYOLOv7 。構造的再パラメータ化と「学習可能なフリービーの袋」アプローチを導入し、平均精度(mAP)を損なうことなく高い推論速度を維持している。
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織:台湾中央研究院情報科学研究所
- 日付:2022年7月6日
- Arxiv:2207.02696
- GitHub:WongKinYiu/yolov7
アーキテクチャの革新: YOLOv7 拡張効率的層集約ネットワーク(E-ELAN)YOLOv7 、カーディナリティの拡張・シャッフル・統合によりモデルが多様な特徴量を学習可能とする。この設計GPU 推論遅延が大幅に改善される。ただし、複雑なトレーニング実行時には最新モデルと比較して多大なメモリを必要とする場合がある。
YOLOv9: 情報のボトルネックを解決する
2024年初頭に同じ研究チームによって発表YOLOv9 、深層ニューラルネットワークに内在する「情報ボトルネック」YOLOv9 。データが深層を通過する過程で、重要な詳細が失われることが頻繁にある。YOLOv9 根本的に新しい層設計を通じてこれをYOLOv9 。
- 著者: Chien-Yao Wang and Hong-Yuan Mark Liao
- 組織:台湾中央研究院情報科学研究所
- 日付: 2024年2月21日
- Arxiv:2402.13616
- GitHub:WongKinYiu/yolov9
建築的革新: YOLOv9 プログラマブル勾配情報(PGI)と汎用効率的層集約ネットワーク(GELAN)YOLOv9 。PGIは信頼性の高い勾配が保持され、正確に重みを更新するためにフィードバックされることを保証する。GELANはパラメータ効率を最大化し、YOLOv9 先行モデルよりも大幅に少ないFLOPsで高精度YOLOv9 可能にする。
パフォーマンス分析
アーキテクチャを選択する際、AIエンジニアは精度、推論速度、計算コストのバランスを考慮する必要があります。以下の表は、標準的なCOCO におけるこれらのモデルの性能差を比較したものです。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
主なポイント
- パラメータ効率:YOLOv9mはYOLOv7lと同等の精度(51.4%mAP)を実現しながら、パラメータ数を約45%削減(20.0M vs 36.9M)しています。この大幅な削減により、メモリ制約のあるエッジAIデバイスへのYOLOv9mの展開が格段に容易になりました。
- マイクロデプロイメント:YOLOv9t(小型)バリアントの導入により驚異的な速度を実現(T4で2.3ms TensorRT)で驚異的な速度を実現し、リアルタイム制約が絶対的な環境に対応します。
- 最高精度:精度が最優先される用途において、YOLOv9eは検出精度を55.6%mAPまで高め、YOLOv7xを大幅に上回る性能を発揮します。
コンピュータビジョンプロジェクトの将来を見据えた設計
YOLOv9 、新たにリリースされたYOLO26は決定的な飛躍を遂げている。YOLO26はNMSを導入し、複雑な後処理を排除CPU 最大43%向上させた。革新的なMuSGDオプティマイザと 強化されたProgLoss + STAL損失関数を活用することで、YOLO26は比類のないトレーニング安定性と小物体検出精度を実現している。
Ultralyticsの利点
モデルアーキテクチャの選択は最初のステップに過ぎません。モデルを取り巻くソフトウェアエコシステムが、プロトタイプから本番環境への移行速度を決定します。Ultralytics Python を介したこれらのモデルの統合は、開発者や研究者にとって大きな利点をもたらします。
使いやすさとトレーニング効率
従来、YOLOv7 トレーニングYOLOv7 複雑なデータ準備と高度にカスタマイズされたスクリプトYOLOv7 。Ultralytics こうした深層学習の複雑性を抽象化します。開発者は最小限のコードでアーキテクチャの切り替え、ハイパーパラメータ調整の実験、インテリジェントなデータ拡張パイプラインの利用を容易に行えます。
さらに、Ultralytics トレーニングおよび推論時のメモリ使用量を Ultralytics 。重いトランスフォーマーモデル(例: RT-DETR)とは異なり、Ultralytics YOLO トレーニング速度が大幅に向上し、CUDA の必要量が大幅に削減されるため、コンシューマー向けGPUに最適です。
コード例:効率化されたトレーニング
Ultralytics 、最先端モデルのトレーニングがシームレスに行えます。以下に、YOLOv9 トレーニングと検証方法を示す完全実行可能な例を示します:
from ultralytics import YOLO
# Initialize the model (you can swap 'yolov9c.pt' with 'yolov7.pt' or 'yolo26n.pt')
model = YOLO("yolov9c.pt")
# Train the model on the COCO8 sample dataset
train_results = model.train(
data="coco8.yaml",
epochs=50,
imgsz=640,
device="0", # Use GPU 0 if available
batch=16, # Optimized batch size for memory efficiency
)
# Validate the model's performance on the validation set
metrics = model.val()
# Export the trained model to ONNX format for deployment
model.export(format="onnx")
あらゆるタスクにおいて比類なき汎用性
適切に維持されたエコシステムは、多様なコンピュータービジョンタスクへのアクセスを意味します。YOLOv7 主に物体検出向けにYOLOv7 (後続の実験的フォークで他のタスクにも対応)、Ultralytics 汎用性をネイティブに備えています。そのままの状態で、インスタンスセグメンテーション、姿勢推定、画像分類、オリエンテッドバウンディングボックス(OBB)検出をシームレスに実行できます。
理想的なユースケースとアプリケーション
YOLOv7 YOLOv9 の選択は、YOLOv9 、特定の業界の制約やハードウェアの可用性によって決まります。
YOLOv7を活用すべきタイミング
- レガシーエッジデプロイメント: YOLOv7E-ELANアーキテクチャ向けに既に高度に調整・最適化されたハードウェア環境においては、産業用IoT向けの堅牢な選択肢であり続ける。
- 交通監視: YOLOv7フレームレートと実証済みの安定性は、スマートシティインフラとリアルタイム交通管理に最適です。
- ロボティクス統合:動的な環境をナビゲートするには低遅延処理が必要であり、このシナリオではYOLOv7 厳しくテストされてきた。
YOLOv9を活用すべきタイミング
- 医療画像処理: YOLOv9 PGIアーキテクチャは、深層を通じた微細なディテールの保持に極めてYOLOv9 、腫瘍検出のような複雑な医療画像解析タスクを分析する際に極めて重要である。
- 高密度小売分析:小売棚に密集して陳列された商品の追跡・計数において、YOLOv9機能統合は優れた精度を提供し、偽陰性を低減します。
- 航空写真とドローン画像:YOLOv9mのパラメータ効率性により、ドローン上での高解像度画像処理が可能となり、バッテリー寿命を消耗することなく野生生物保護や農業モニタリングを支援します。
結論
YOLOv7 YOLOv9 YOLOv7 、コンピュータビジョン史における確固たる地位をYOLOv9 。YOLOv7 リアルタイム処理のための重要な最適化YOLOv7 、YOLOv9 構造的な深層学習のボトルネックYOLOv9 パラメータ効率を最大化した。
しかし、今日新たなプロジェクトを始める開発者にとって、Ultralytics を活用すること——特に次世代モデルである YOLO11やYOLO26といった次世代モデルを活用することが、速度、精度、開発者体験のバランスにおいて最も有利な選択肢となります。MuSGDオプティマイザの導入や、ハードウェア互換性向上のためのディストリビューションフォーカルロス(DFL)の廃止といった革新により、Ultralytics ビジョンAI専門家にとって最もアクセスしやすく強力なツールを提供しUltralytics 。