YOLOv9対YOLO11:現代の物体検出に関する技術的深掘り
コンピュータビジョンの急速な進化により、リアルタイムの物体検出における可能性の限界が絶えず押し広げられています。主要なアーキテクチャを比較すると、YOLOv9と**Ultralytics YOLO11**はそれぞれ異なる技術的ニーズに応える大きな飛躍として際立っています。YOLOv9はディープネットワークの学習中に勾配フローを維持する新しい手法を導入し、一方でYOLO11は比類のない効率性、汎用性、使いやすさによって汎用ビジョンエコシステムに革命をもたらしました。
本稿では、次期AIプロジェクトに最適なモデルを選択できるよう、両者のアーキテクチャ、パフォーマンス指標、メモリ要件、理想的なデプロイシナリオについて包括的に技術比較します。
YOLOv9とYOLO11は優れたモデルですが、新しくリリースされたYOLO26は次なる飛躍を象徴するモデルです。デプロイを簡素化するエンドツーエンドのNMSフリー設計、CPU推論速度が最大43%向上、そして迅速な収束を実現する革新的なMuSGDオプティマイザを備えています。すべての新規本番プロジェクトには、YOLO26を強く推奨します。
技術仕様と作成者
これらのモデルの系譜を理解することは、アーキテクチャ上の決定やフレームワーク依存関係を知る上で重要な文脈となります。
YOLOv9
YOLOv9は、ディープラーニングの情報ボトルネックに関する学術的な側面に強く焦点を当て、カスタムネットワークブロックを通じて最大の特徴忠実度を優先しました。
- 著者: Chien-Yao Wang および Hong-Yuan Mark Liao
- 組織: 中央研究院 情報科学研究所
- 日付: 2024年2月21日
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
Ultralytics YOLO11
YOLO11は、最高レベルの精度、実運用環境でのデプロイ速度、マルチタスクの汎用性のバランスに焦点を当て、本番環境向けにゼロから設計されました。
- 著者: Glenn Jocher および Jing Qiu
- 組織: Ultralytics
- 日付: 2024年9月27日
- GitHub: https://github.com/ultralytics/ultralytics
アーキテクチャの革新
YOLOv9におけるプログラマブル勾配情報
YOLOv9は、Generalized Efficient Layer Aggregation Network (GELAN) とともに、プログラマブル勾配情報 (PGI) という概念を導入しました。ニューラルネットワークが深くなるにつれ、フィードフォワードプロセス中に重要な詳細が失われる情報ボトルネックに悩まされることがよくあります。PGIは信頼性の高い勾配更新を提供して微細な空間情報を保持することでこれに対処し、GELANはパラメータ効率を最大化します。これにより、YOLOv9は高い特徴忠実度を必要とするタスクに特に適していますが、ポストプロセッシングで標準的な非最大値抑制 (NMS) に依存しているため、エッジデバイスでレイテンシが発生する可能性があります。
YOLO11における効率化の追求
YOLO11は長年の基礎研究の上に構築され、高度に最適化されたアーキテクチャを実現しています。計算オーバーヘッドを削減しつつ特徴抽出を最大化することで、以前の反復を改善しました。CPUパフォーマンスのボトルネックとなる従来のNMSパイプラインとは異なり、YOLO11はレイテンシと精度の間で驚異的なバランスを実現する洗練された検出ヘッドを使用しています。さらに、YOLO11はモデル学習および推論時のメモリ使用量が、重いTransformerモデルと比較して本質的に低くなっています。後者は学習が遅く、膨大なCUDAメモリを必要とする傾向があります。
パフォーマンス指標の比較
標準的なCOCO datasetでこれらのモデルを比較すると、両者とも驚異的な能力を発揮しますが、純粋なパラメータ数と動作速度の間でトレードオフが発生します。
YOLOパフォーマンス指標の詳細な内訳は以下の通りです。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
結果の分析
- 速度とハードウェア効率: YOLO11は推論速度において常にYOLOv9を上回ります。例えば、YOLO11nはNVIDIA T4 GPUとTensorRTを使用して驚異的な1.5msを達成しており、厳格なリアルタイムパイプラインにおいて極めて有効です。
- 計算要件: YOLO11モデルは一般的に必要なFLOPsが少なくなっており(例:YOLO11mで68.0B、YOLOv9mで76.3B)、これはRaspberry Piやモバイルハードウェアのようなバッテリー駆動のエッジデバイスでの消費電力削減に直結します。
- 精度の互角性: YOLOv9eは絶対mAPにおいてYOLO11xをわずかに上回りますが(55.6対54.7)、YOLO11は大幅に少ないレイテンシでピーク精度に到達します(11.3ms対16.77ms)。これは実際の導入において、より有利なパフォーマンスバランスを示しています。
エコシステムと使いやすさ
生の指標も重要ですが、フレームワークのエコシステムがプロジェクトの成功を左右することも多くあります。ここでこそ、Ultralyticsの利点が真に輝きます。
オリジナルのYOLOv9リポジトリは、最先端の研究実装を提供する非常に専門的なものです。一方、Ultralytics Platformとその対応するオープンソースパッケージは、合理化されたユーザー体験、シンプルなAPI、そして市場投入までの時間を大幅に短縮する広範なドキュメントを提供します。
マルチタスクの汎用性
YOLOv9は主にバウンディングボックス検出に焦点を当てています。対照的に、YOLO11は以下のタスクをネイティブでサポートする統一されたマルチタスクの強力なモデルです:
シームレスなデプロイ
Using the Ultralytics ecosystem allows developers to seamlessly export models to an array of formats with a single line of Python code. Whether targeting ONNX, OpenVINO, TFLite, or CoreML, the transition from training to production is effortless.
from ultralytics import YOLO
# Load a highly efficient YOLO11 model
model = YOLO("yolo11n.pt")
# Train rapidly on a custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to OpenVINO for Intel CPU acceleration
model.export(format="openvino")理想的な使用ケース
YOLOv9を利用すべき場面
YOLOv9は、研究重視の環境や、ハードウェアのレイテンシが主な制約条件ではない状況において、極めて高い特徴忠実度を優先するプロジェクトにとって素晴らしいツールです。そのGELANアーキテクチャは、わずかなピクセル変化の検出が不可欠な医療画像分析において非常に有利に働く可能性があります。
なぜYOLO11が優れた選択肢なのか
開発者、エンジニア、およびプロダクションチームには、YOLO11を強く推奨します。これは、高速かつスケーラブルなデプロイを要求される環境でその真価を発揮します:
- スマートリテール分析: 標準的なIntelプロセッサを使用して、製品や顧客をシームレスに追跡します。
- 自律型ドローン: 低FLOPアーキテクチャがバッテリー寿命を維持しつつ、堅牢な小型物体検出を実現します。
- 動的なプロジェクト: 最初は検出から始まり、後に姿勢推定やセグメンテーションが必要になるようなワークフローに最適です。
未来への展望:次なる進化
YOLO11はその世代における最先端を象徴していますが、コンピュータビジョンの展望は進化し続けています。AIの境界線を探求するユーザーは、**YOLO26**にも目を向けるべきです。
YOLOv10で最初に探求されたエンドツーエンドのNMSフリー設計を先駆的に採用し、YOLO26は前例のない学習安定性のためにMuSGDオプティマイザ(SGDとMuonのハイブリッド)を導入しました。エクスポートを簡素化するためにDistribution Focal Loss (DFL) を削除し、ProgLossやSTALといった高度な損失メカニズムを備えたことで、YOLO26は最大43%のCPU推論高速化を実現しています。現代のプロジェクトにとって、学術的な革新性と本番環境で即戦力となる信頼性の究極の組み合わせを提供します。さらに、Ultralytics YOLOv8のような旧システムからアップグレードするチームにとっても、統一されたUltralytics APIのおかげで、YOLO26やYOLO11への移行は完全に摩擦のないものとなるでしょう。