YOLOv9 YOLO11比較:アーキテクチャの進化とパフォーマンス分析
コンピュータビジョンの世界は急速な技術革新によって定義され、そのモデルは精度、スピード、効率の限界に挑み続けている。この比較では、物体検出における2つの重要なマイルストーンを探ります: YOLOv9新しいアーキテクチャコンセプトを導入した研究に特化したモデル、YOLOv9と Ultralytics YOLO11は、実世界での汎用性を考慮して設計された、最新の量産可能な進化型である。
一方 YOLOv9は理論的なブレークスルーを通じてディープラーニングの情報ボトルネックに対処することに焦点を当てている、 Ultralytics YOLO11は、使いやすさ、効率性、Ultralytics エコシステムへのシームレスな統合に重点を置きながら、最先端の(SOTA)性能を洗練させています。
パフォーマンス指標:スピードと正確さ
以下の表は、COCO データセットで評価された主要なパフォーマンスメトリクスの直接比較を示しています。モデルを選択する際には、推論速度および計算コスト(FLOPs)に対して平均平均精度mAP)のバランスをとることが極めて重要です。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
データが示すように、YOLO11 優れた効率を示している。例えば、YOLO11nモデルはYOLOv9tモデル(38.3%)よりも高いmAP (39.5%)を達成しながら、使用するFLOP数が少なく、GPU上で大幅に高速に動作します。最大のYOLOv9eモデルは、未加工の精度ではわずかに勝っているものの、YOLO11lの2倍近い推論時間を必要とするため、リアルタイムの推論シナリオではYOLO11 より現実的な選択肢となる。
YOLOv9:情報のボトルネックに対処する
YOLOv9 、データがディープ・ニューラル・ネットワークを通過する際の情報損失の問題を解決するという、特定の学術的目標を掲げてリリースされた。そのアーキテクチャは、トレーニング中に勾配情報を保持する必要性に大きく影響されている。
技術的詳細:
著者Chien-Yao Wang, Hong-Yuan Mark Liao
Organization:Institute of Information Science, Academia Sinica, Taiwan
Date:2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Docsultralytics
主な建築上の特徴
YOLOv9 核となる技術革新は、プログラマブル勾配情報(PGI)と一般化された効率的なレイヤ集約ネットワーク(GELAN)である。
- PGI:この補助的な監督フレームワークは、深い層が信頼できる勾配情報を受け取ることを保証し、ディープネットワークの収束をしばしば妨げる「情報ボトルネック」を緩和する。
- GELAN:このアーキテクチャは、CSPNetとELANの長所を組み合わせることでパラメータ効率を最適化し、柔軟な計算スケーリングを可能にする。
アカデミック・フォーカス
YOLOv9 、ディープラーニング理論、特に畳み込みニューラルネットワークにおける勾配フローと情報保存に興味を持つ研究者にとって、優れたケーススタディとなる。
Ultralytics YOLO11:多用途性と効率性の融合
YOLOv8の遺産 YOLOv8YOLO11 、プロダクション指向のコンピュータ・ビジョンの最高峰である。ベンチマークスコアだけでなく、実用的な展開性、使いやすさ、マルチタスク能力も考慮して設計されています。
技術的詳細:
著者Glenn Jocher、Jing Qiu
組織:Ultralytics
日付:2024-09-27
GitHubultralytics
Docsyolo11
主な建築上の特徴
YOLO11 、計算オーバヘッドを最小限に抑えながら、特徴抽出を最大化するように設計された洗練されたアーキテクチャを導入している。YOLO11は、小さな物体を検出するために重要な、異なるスケールにまたがる特徴の統合を改善する、強化されたバックボーンとネック構造を採用している。
このモデルはまた、トレーニング中の収束を高速化するために改良された頭部設計を特徴としています。研究中心のモデルとは異なり、YOLO11 11は、検出、セグメンテーション、分類、姿勢推定、およびOBB(Oriented Bounding Boxes)をネイティブにサポートする統一されたフレームワークで構築されている。
詳細な比較ポイント
使いやすさとエコシステム
最も大きな違いのひとつは、ユーザーエクスペリエンスにある。 Ultralytics YOLO11は「開発者ファースト」の考え方で設計されています。データ注釈、データセット管理、モデルエクスポートのためのツールを含む、より広範なUltralytics エコシステムとシームレスに統合されています。
- YOLO11: を使用して、数行のコードでトレーニング、検証、デプロイが可能です。
ultralyticsPython パッケージまたはCLI。頻繁なアップデート、豊富なドキュメント、そして大規模なコミュニティの恩恵を受けています。 - YOLOv9: Ultralytics ライブラリでサポートされていますが、オリジナルの実装といくつかの高度な設定は、基礎となる研究論文をより深く理解する必要があるかもしれません。
メモリ要件とトレーニング効率
効率的なリソース利用は、Ultralytics モデルの特徴です。YOLO11 、多くのトランスフォーマーベースの代替品や古いYOLO 反復と比較して、トレーニング中に必要な CUDA メモリが少なくなるように最適化されています。これにより、開発者はコンシューマーグレードのハードウェアでより大きなバッチサイズをトレーニングすることができ、開発サイクルを加速することができます。
さらに、YOLO11 11は、すべてのタスクに対して、すぐに利用可能で高品質な事前学習済みの重みを提供し、転移学習が高速かつ効果的に行われることを保証する。これは、主にCOCO 検出に焦点を当てた、限られた事前学習済みのチェックポイントを提供する研究モデルとは対照的である。
タスクの多様性
YOLOv9 主に物体検出の功績で知られているが、YOLO11 単一のフレームワークで幅広いコンピュータ・ビジョン・タスクをネイティブにサポートしている:
- インスタンス分割:オブジェクトの正確なマスキング。
- 姿勢推定:骨格のキーポイントを検出する(人間のポーズなど)。
- 分類:画像全体を分類する。
- OBB(Oriented Bounding Boxes):空撮画像に不可欠な回転したオブジェクトの検出。
統一API
YOLO11 タスクの切り替えは、モデルのウェイトファイルを変更するのと同じくらい簡単である(例えば、次のように)。 yolo11n.pt を検出する。 yolo11n-seg.pt セグメンテーションのため)。
コード例比較の実例
以下のPython コードは、Ultralytics フレームワーク内で両方のモデルを簡単にロードして利用できることを示しており、異なるアーキテクチャのテストを簡素化する統一APIを強調しています。
from ultralytics import YOLO
# Load the research-focused YOLOv9 model (compact version)
model_v9 = YOLO("yolov9c.pt")
# Load the production-optimized YOLO11 model (medium version)
model_11 = YOLO("yolo11m.pt")
# Run inference on a local image
# YOLO11 provides a balance of speed and accuracy ideal for real-time apps
results_11 = model_11("path/to/image.jpg")
# Display results
results_11[0].show()
理想的なユースケース
YOLOv9選ぶとき
YOLOv9 、学術研究や、計算コストに関係なく静止画像の最大精度が唯一の優先事項であるシナリオに最適な選択肢です。
- 研究プロジェクト勾配流とニューラルネットワークアーキテクチャの研究。
- ベンチマーキング: mAP 何分の一が重要な競争。
- ハイエンドサーバーの展開:強力なGPU(A100など)が利用可能で、「E」バリアントの高いFLOPを処理できる場合。
Ultralytics YOLO11を選択する場合
YOLO11 11は、商用アプリケーション、エッジコンピューティング、マルチタスクシステムに推奨される。
- エッジAI:速度対重量比が優れているため、NVIDIA JetsonやRaspberry Piのようなデバイスに展開する。
- リアルタイム分析:トラフィック監視、スポーツ分析、レイテンシーが重要な製造品質管理。
- 複雑なパイプライン:検出、セグメンテーション、姿勢推定を同時に必要とするアプリケーション。
- ラピッドプロトタイピング: Ultralytics APIを使用して、コンセプトからデプロイメントへ迅速に移行する必要がある新興企業や企業。
その他のモデル
YOLOv9 YOLO11 11は強力な競争相手だが、Ultralytics ライブラリーは、特定のニーズに合わせた他の様々なモデルをサポートしている:
- YOLOv8: YOLO11信頼できる前身で、今でも広く使われ、サポートされている。
- RT-DETR:精度に優れるが、より多くのメモリを必要とする可能性があるトランスベースの検出器。
- YOLOv10:特定のコンフィギュレーションにおける低レイテンシーを実現するため、NMSトレーニングに焦点を当てた独自のアーキテクチャ。
モデル比較のセクションで、あらゆるオプションをご覧ください。
結論
両アーキテクチャは、コンピュータ・ビジョンにおける重要な成果である。YOLOv9 、ディープネットワークのトレーニングに関する貴重な理論的洞察に貢献している。 Ultralytics YOLO11は、これらの進歩を統合し、堅牢で汎用性が高く、非常に効率的なツールとして世に送り出した。スケーラブルなリアルタイム・アプリケーションの構築を目指す多くの開発者や研究者にとって、YOLO11パフォーマンス、使いやすさ、包括的なエコシステム・サポートのバランスは、優れた選択肢となる。