YOLOv9 YOLOv7:現代の物体検出技術への深い考察
リアルタイム物体検出技術の進化は、計算効率と高精度とのバランスを追求する継続的な取り組みによって推進されてきた。この道のりにおける二つの画期的なアーキテクチャYOLOv9 YOLOv7 YOLOv9 、いずれも台湾・中央研究院情報科学研究所の研究者によって開発された。YOLOv7 革新的な学習可能なフリービーの袋YOLOv7 一方で、より新しいYOLOv9 深層学習の情報ボトルネックYOLOv9 真正面からYOLOv9 。
この包括的な技術比較では、両モデルのアーキテクチャ上の差異、性能指標、および理想的な導入シナリオを検証し、機械学習エンジニアや研究者が自身のコンピュータビジョンパイプラインに最適なツールを選択する手助けをします。
パフォーマンスとメトリクスの比較
これらのモデルを比較する際、純粋な性能と効率性が重要な要素となる。以下の表は、COCO (mAP)と計算要件の詳細を示す。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
パフォーマンスバランス
YOLOv9cが、YOLOv7x(53.1mAP)とほぼ同等の精度(53.0mAP)を達成しつつ、パラメータ数(25.3M vs 71.3M)とFLOPsを大幅に削減している点に注目してください。これは現代のアーキテクチャにおけるパフォーマンスバランスの改善を示しています。
YOLOv9: 情報のボトルネックを解決する
2024年初頭に登場YOLOv9 、深層ニューラルネットワークが各層を通じてデータを保持する方法をYOLOv9 変えた。
- 著者: Chien-Yao Wang and Hong-Yuan Mark Liao
- 組織:中央研究院情報科学研究所
- 日付: 2024年2月21日
- リソース:Arxiv論文|GitHubリポジトリ
建築イノベーション
YOLOv9 、汎用効率化層集約ネットワーク(GELAN)とプログラマブル勾配情報(PGI)YOLOv9 。GELANはCSPNetとELANの長所を組み合わせ、パラメータ効率と計算コストを最適化し、少ないパラメータ数で高精度を確保する。PGIは深層ネットワークにおけるデータ損失を防ぐ補助的監督フレームワークであり、学習過程における重み更新のための信頼性の高い勾配を生成する。
長所と限界
YOLOv9 主な強みはYOLOv9 膨大な計算オーバーヘッドを伴わずに微妙な特徴を抽出YOLOv9 、医療画像解析など高い特徴忠実度が求められるタスクにおいて非常に優れた能力を発揮する。ただし、トレーニング時の複雑なPGI構造は、より統一されたフレームワークと比較して、初心者がアーキテクチャをカスタマイズする際に困難を伴う可能性がある。
YOLOv7:フリービーの袋の先駆者
2022年にリリースされたYOLOv7 、消費者向けハードウェアで実現可能な新たな基準をYOLOv7 、リアルタイム推論速度を大幅に向上させる構造的革新をもたらした。
- 著者: Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao
- 組織:中央研究院情報科学研究所
- 日付:2022年7月6日
- リソース:Arxiv論文|GitHubリポジトリ
建築イノベーション
YOLOv7核心的な貢献は、拡張効率的層集約ネットワーク(E-ELAN)である。このアーキテクチャにより、モデルはより多様な特徴を継続的に学習できる。YOLOv7 「学習可能なフリービーの袋」——計画的再パラメータ化畳み込みや動的ラベル割り当てといったYOLOv7 。これらの手法は、デプロイ時の推論コストを追加することなく、トレーニング中のモデルの精度を向上させる。
長所と限界
YOLOv7 リアルタイムエッジ処理向けに高度にYOLOv7 、レガシーシステムや古いCUDA 依然として定番モデルである。現在の主な制約は、新世代モデルと比較してパラメータサイズが大きい点だ。性能比較表が示す通り、最高水準の精度を達成するには重厚なYOLOv7xモデルが必要であり、同等の現代的アーキテクチャと比較して大幅にGPU 消費する。
Ultralytics のUltralytics :効率化された導入
YOLOv9 YOLOv7 YOLOv9 オリジナル研究リポジトリは優れた学術的基盤YOLOv7 、これらのモデルを実稼働環境に展開するのは複雑な場合があります。これらを統合するには ultralytics パッケージは比類のない 使いやすさ.
Ultralytics を活用することで、開発者は直感的なPython 、活発なコミュニティサポート、堅牢な実験追跡機能を備えた、よく整備されたエコシステムの恩恵を受けられます。
YOLO26による将来を見据えた対策
新しいコンピュータビジョンプロジェクトを始めるなら、新しくリリースされた YOLO26 をYOLOv9 YOLOv7よりも優先して検討することを強く推奨します。新たな最先端標準としてリリースされたYOLO26は、画期的な進歩をもたらします:
- エンドツーエンドNMS:非最大抑制後処理を排除し、導入の複雑さと遅延を劇的に低減します。
- 最大43%高速CPU : エッジコンピューティング環境向けに最適化され、専用GPUがなくてもアプリケーションがスムーズに動作します。
- MuSGDオプティマイザ:LLMトレーニングに着想を得たハイブリッドオプティマイザ。極めて安定した収束を実現し、トレーニング時間を短縮します。
- DFL除去:ディストリビューション・フォーカル・ロスを除去することでモデルエクスポートを簡素化し、低電力モバイルデバイスとの互換性を向上。
- ProgLoss + STAL:小物体検出の性能を劇的に向上させ、航空画像および監視用途における最良の選択肢となります。
エコシステム内で人気の代替手段には以下が含まれます Ultralytics YOLOv8 および YOLO11が含まれます。これらはいずれも、インスタンスセグメンテーションや 姿勢推定といったタスクにおいて非常に高い汎用性を提供します。
実装例
これらのアーキテクチャのいずれかをトレーニングおよびエクスポートすることは、統一されたAPIにより驚くほど簡単です。以下のコードは、Ultralytics 特徴である合理化されたトレーニング効率を示しています。
from ultralytics import YOLO
# Initialize YOLOv9 or the recommended YOLO26 model
model = YOLO("yolov9c.pt") # Swap with "yolo26n.pt" for faster edge performance
# Train on a custom dataset with built-in data augmentation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)
# Export the trained model to ONNX format for deployment
model.export(format="onnx")
メモリ要件
コンシューマー向けハードウェアでのトレーニングでは、メモリ効率が極めて重要です。Ultralytics YOLOv9 Ultralytics 、VRAM使用量の急増を抑えるよう大幅に最適化されています。これに対し、トランスフォーマーベースのモデル(RT-DETR)は、トレーニング中に深刻なメモリ肥大化に陥ることが多いのです。
実世界での応用例と理想的な使用事例
これらのアーキテクチャの選択は、多くの場合、本番環境の具体的な制約条件によって決まります。
YOLOv9: YOLOv9 、微細な詳細情報の保持が求められる環境でYOLOv9 。堅牢な特徴抽出能力により、小売分析における棚上の密集した商品の計数や、小さな葉の初期段階の作物病害の識別が重要な農業用途に最適です。
YOLOv7の使用タイミング: YOLOv7 レガシーなデプロイメントパイプラインにおいて有力な選択肢YOLOv7 。古いハードウェアシステム(特定の世代Google TPUなど)に統合する場合、YOLOv7 のシンプルなCNNアーキテクチャは、より複雑な勾配分岐を持つ新しいモデルよりもコンパイルが容易であるYOLOv7
YOLO26の使用推奨シーン: 自律型ドローンからスマートシティの交通管理まで、あらゆる現代的な導入環境においてYOLO26が最適な選択肢です。NMSアーキテクチャにより決定論的な推論時間を保証し、安全性が極めて重要なロボティクスに不可欠です。さらにその高精度は、YOLOv7 凌駕しています。