コンテンツにスキップ

YOLO11 .YOLOv9: アーキテクチャと性能の徹底比較

適切な物体検出モデルの選択は、コンピュータビジョンアプリケーションの速度、精度、スケーラビリティに影響を与える重要な決定です。本ガイドでは、 YOLO11(Ultralytics強力な進化版)と YOLOv9(プログラマブル勾配情報PGIで知られるアーキテクチャ)の包括的な技術比較を提供します。

両モデルは視覚モデルの歴史において重要な飛躍を遂げているが、AI開発の分野においてそれぞれ異なるニーズに対応している。

モデル概要

YOLO11

YOLO11 堅牢なUltralytics を基盤とし、計算効率と検出精度のバランスを最適化しています。汎用性が高く、本番環境対応のモデルとして設計されており、最新のMLOpsワークフローとシームレスに統合されます。

  • 著者: Glenn Jocher、Jing Qiu
  • 組織:Ultralytics
  • 日付:2024年9月
  • 焦点:リアルタイム処理速度、使いやすさ、幅広いタスク対応(検出、セグメンテーション、分類、姿勢推定、OBB)。

YOLO11の詳細について。

YOLOv9

YOLOv9 深層ネットワークにおける情報損失に対処するため、GELAN(Generalized Efficient Layer Aggregation Network)やPGIといった新たな概念を導入した。学術ベンチマークでは高い精度を達成する一方、学習にはより多くの計算リソースを必要とする場合が多い。

  • 著者: Chien-Yao Wang and Hong-Yuan Mark Liao
  • 組織: Institute of Information Science, Academia Sinica, Taiwan
  • 日付:2024年2月
  • 焦点:深層CNNにおけるパラメータ効率の最大化と情報ボトルネックの低減

YOLOv9について詳しくはこちら

パフォーマンス分析

これらのモデルを評価する際には、レイテンシ(速度)と mAP (精度)のトレードオフが最も重要です。Ultralytics 、YOLO11 最適化しYOLO11 エッジデバイスとGPUの両方で優れたスループットYOLO11

主要指標比較

以下の表はCOCO における性能差を強調しています。YOLO11 、リアルタイム推論アプリケーションにとって重要な要素である大幅に低いレイテンシで、同等かそれ以上の精度YOLO11 点に注目してください。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

データの解釈

YOLOv9eは精度の上限(55.6%mAP)を押し上げる一方で、速度に大きな代償を伴う(16.77ms vs YOLO11xの11.3ms)。ほとんどの商用アプリケーションでは、 YOLO11 ファミリーはより実用的な「最適なバランス」を提供し、高fps動画ストリームを処理可能な速度で高精度を実現します。

アーキテクチャの違い

根本的な違いは設計思想にある。YOLOv9 勾配の流れに対する深い理論的改善にYOLOv9 に対し、YOLO11 展開と汎用性に向けた実践的なエンジニアリングにYOLO11 。

YOLOv9: PGIとGELAN

YOLOv9 、データが深層を通過する際に意味情報が失われるのを防ぐため、プログラマブル勾配情報(PGI) YOLOv9 。これは本質的に、学習時には補助的な監督ブランチを提供し、推論時にはそれを除去する仕組みである。GELANアーキテクチャと組み合わせることで、軽量でありながら高精度なモデルを実現する。この特性は、ニューラルアーキテクチャ探索や勾配フロー研究する者にとって非常に興味深い対象となっている。

YOLO11: 改良版C3k2およびC2PSA

YOLO11 、GPU 向けに最適化されたC3k2ブロックYOLO11 。これは過去のバージョンで使用されたCSPボトルネックの改良版である。さらにC2PSA(空間的注意機構を備えたクロスステージ部分積分)を組み込み、複雑なシーンにおける重要な特徴への注目能力を強化している。このアーキテクチャは、特徴抽出能力を損なうことなくFLOPsを削減するよう特別に調整されており、その結果として上記の印象的な速度指標が実現されている。

トレーニング効率とエコシステム

Ultralytics を選択する最も重要な利点の一つは、その周辺エコシステムである。

使いやすさとドキュメント

YOLO11 トレーニングYOLO11 最小限の定型コードYOLO11 。Ultralytics Python がこのプロセスを標準化しているため、初心者でも利用可能です。一方、YOLOv9 、ネイティブ実装ではより複雑な設定ファイルや手動設定が必要になる場合があります。

from ultralytics import YOLO

# Load a YOLO11 model
model = YOLO("yolo11n.pt")

# Train on COCO8 with just one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

メモリ要件

Ultralytics メモリ効率の高さで知られています。 YOLO11 は、限られたCUDA を持つコンシューマー向けハードウェアでのトレーニングに最適化されています。これは、バックプロパゲーション段階でメモリ肥大化の問題を抱える多くのトランスフォーマーベースのモデルや旧式アーキテクチャに対して明確な優位性です。

タスクを横断する汎用性

YOLOv9 主に物体検出器YOLOv9 、 YOLO11 はマルチタスクの強力なツールです。同じフレームワーク内で、シームレスに以下のタスクを切り替えることができます:

ビジョンAIの未来:YOLO26

最先端技術を求める開発者向けに、Ultralytics YOLO26を Ultralytics 。このモデルはYOLO11 YOLOv10の両方から得た知見を組み込み、次世代のビジョンAIを体現しています。

YOLO26は ネイティブにエンドツーエンドNMS設計を採用しており、非最大抑制(NMS)の後処理が不要です。これにより推論速度が向上し、デプロイメントパイプラインが簡素化されます。また、SGD 融合したハイブリッド最適化アルゴリズムMuSGDを利用し、大規模言語モデル(LLM)のトレーニングと同様の安定した学習ダイナミクスを実現します。ProgLoss + STALなどの最適化された損失関数により、YOLO26は小型物体検出に特に優れており、2026年以降における最良の選択肢となります。

YOLO26についてさらに詳しく

理想的なユースケース

YOLOv9を選択すべき時

  • 学術研究:CNNの情報保持と勾配プログラミングの理論的限界を研究するのに最適である。
  • 静的画像解析:医療画像(例:腫瘍検出)のようなシナリオにおいて、推論速度よりも単一フレームから最大限の詳細を抽出することが優先される場合。

YOLO11を選択すべき時

  • エッジAIの展開:Raspberry PiやNVIDIA などのデバイスに最適で、TensorRT TFLite といったエクスポート形式が不可欠TFLite
  • 商用生産:信頼性、速度、サポートが重要な小売分析、スマートシティ監視、または製造品質管理向け。
  • 複合パイプライン:単一の統合APIを使用して複数のビジョンタスク(例:人物の検出とその姿勢推定)を必要とするアプリケーション向け。

結論

YOLO11 YOLOv9 どちらも、コンピュータビジョンエンジニアの武器庫における優れたYOLOv9 。しかし、ほとんどの現実世界のアプリケーションにおいては、 YOLO11 (およびより新しいYOLO26)は、速度、精度、開発者体験の優れたバランスを提供します。活発なUltralytics と頻繁な更新に支えられ、プロジェクトが将来性があり効率的であることを保証します。

さらに詳しく調べるには、これらのモデルを RT-DETR や軽量な YOLOv10 アーキテクチャの検討も興味深いでしょう。


コメント