YOLO11対YOLOv9:包括的な技術比較
コンピュータビジョンの世界は絶えず進化しており、新しいアーキテクチャがリアルタイム物体検出の可能性を広げています。この進化における2つの重要なマイルストーンが、Ultralytics YOLO11とYOLOv9です。どちらのモデルも優れたパフォーマンスを発揮しますが、ディープラーニングの推論とトレーニングにおける核心的な課題の解決に対して、異なるアプローチをとっています。
本ガイドでは、YOLO11とYOLOv9の技術的な比較を包括的に提供します。両者のアーキテクチャ、パフォーマンス指標、および理想的なデプロイシナリオを分析し、次期AIプロジェクトに最適なモデルを選択するための手助けをします。
モデルの概要
Ultralytics YOLO11
YOLO11は、プロダクション環境向けに設計された、高度に最適化された多用途モデルです。最先端の精度と、エッジコンピューティングや大規模デプロイにおける実用的な要件とのバランスを両立させています。
- 著者: Glenn Jocher および Jing Qiu
- 組織: Ultralytics
- 日付: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- ドキュメント: https://docs.ultralytics.com/models/yolo11/
YOLOv9
YOLOv9は、深層ニューラルネットワークにおける情報損失を軽減するための新しい概念を導入した強力な学術的貢献であり、特徴抽出の理論的進歩に重点を置いています。
- 著者: Chien-Yao Wang および Hong-Yuan Mark Liao
- 組織: 台湾 中央研究院 情報科学研究所
- 日付: 2024-02-21
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- ドキュメント: https://docs.ultralytics.com/models/yolov9/
アーキテクチャの革新
YOLOv9: プログラマブル勾配情報
YOLOv9は、深層ネットワークの層を通過する際にデータが失われる「情報ボトルネック」問題に取り組んでいます。この解決のため、著者らはPGI(Programmable Gradient Information)とGELAN(Generalized Efficient Layer Aggregation Network)を導入しました。PGIは、バックプロパゲーション中に重みを更新するために使用される勾配に完全な情報が含まれることを保証し、非常に正確な特徴表現をもたらします。GELANアーキテクチャはパラメータ効率を最大化し、YOLOv9が比較的軽量な構造で高い精度を実現することを可能にしています。
YOLO11:エコシステムと効率性
YOLOv9が勾配フローに焦点を当てる一方、YOLO11は現実世界の堅牢性と汎用性を追求して設計されています。これは、Transformerを多用する代替モデルと比較して、トレーニング中のCUDAメモリ要件を大幅に削減するために、基本的なYOLOアーキテクチャを改良したものです。さらに、YOLO11は単なる物体検出器ではなく、インスタンスセグメンテーション、画像分類、姿勢推定、および指向性バウンディングボックス (OBB)をネイティブでサポートしています。
YOLO11の最大の強みの一つは、Ultralytics Platformへの統合です。これにより、データ読み込み、オーギュメンテーション、分散学習の複雑さが単一のAPIに抽象化されています。
パフォーマンスの比較
本番環境向けにモデルを選択する際は、mAP(平均精度)、推論速度、パラメータ数の間のトレードオフを評価することが重要です。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
表に見られるように、YOLOv9eは最高クラスの総合精度を達成しており、学術的なベンチマークに最適です。しかし、YOLO11は全体を通して優れた速度対精度の比率を提供します。例えば、YOLO11mは4.7ms(TensorRT)で51.5 mAPを達成し、同サイズのYOLOv9mよりも高速です。
学習手法とエコシステム
開発者体験は、両フレームワーク間で大きく異なります。
YOLOv9の学習
YOLOv9の学習には、高度にカスタマイズされた研究用コードの操作、特定の依存関係バージョンの管理、複雑なコマンドライン引数の利用が必要となることがよくあります。強力ではありますが、スピードが求められるエンタープライズ環境ではハードルとなる可能性があります。
YOLO11の学習
YOLO11は、適切に保守されたUltralytics Python APIを活用しており、シームレスな「ゼロから完成まで」の体験を提供します。その効率的な学習プロセスは、すぐに利用可能な学習済み重みと優れたコミュニティサポートによって支えられています。
from ultralytics import YOLO
# Load a pre-trained YOLO11 small model
model = YOLO("yolo11s.pt")
# Train on a custom dataset with built-in augmentations
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX format for deployment
model.export(format="onnx")開発者はわずか3行のPythonコードで、モデルの読み込み、最適化されたデフォルトのハイパーパラメータでの学習開始、およびONNXやTensorRTのようなフレームワークへのモデルのエクスポートを行い、エッジデプロイを実現できます。
実世界の応用例
YOLOv9を選択すべき場合
YOLOv9は、深層学習アーキテクチャを探求しようとする研究者にとって素晴らしい選択肢です。そのPGIフレームワークは、高密度データセットで極めて高い精度が要求される高速な小売分析などに理想的であり、デプロイの複雑さよりもアルゴリズムの性能が優先される場面に向いています。
YOLO11を選択すべき場合
YOLO11は、本番環境のための究極のツールです。その合理化された物体検出機能は、スマートシティの交通管理や、Raspberry Pi、NVIDIA Jetsonといったエッジデバイスに最適です。さらに、様々なタスクに対応できる汎用性は、単一の開発パイプラインで製造現場でのセグメンテーションからスポーツ分析での姿勢推定までをカバーできることを意味します。
最先端の技術:YOLO26の登場
YOLO11とYOLOv9は素晴らしいモデルですが、AIの分野は急速に進化しています。今日新しいプロジェクトを始める開発者には、UltralyticsはYOLO26(2026年1月リリース)を強く推奨します。これはコンピュータビジョンの限界をさらに押し広げるものです。
YOLO26は、近年のイノベーションの最高傑作をプロダクション対応の強力なパッケージに統合しています。
- エンドツーエンドのNMSフリー設計: YOLO26はNMS(非最大値抑制)のポストプロセッシングをネイティブで排除しており、デプロイパイプラインが大幅に簡素化・高速化されます。
- DFLの削除: Distribution Focal Lossを削除することで、低電力マイクロコントローラーやエッジAIアクセラレータとの互換性を確保しています。
- MuSGDオプティマイザ: LLM学習のイノベーションから着想を得たMuSGDオプティマイザ(SGDとMuonのハイブリッド)は、安定した学習と高速な収束を実現します。
- 最大43%高速なCPU推論: 専用GPUを搭載していないエッジコンピューティングデバイス向けに特別に最適化されています。
- ProgLoss + STAL: これらの改善された損失関数は、小さな物体の認識能力を劇的に向上させており、農業モニタリングや航空画像分析において極めて重要です。
多様なアーキテクチャを探求したいユーザーは、Transformerベースのトラッキング用のRT-DETRや、ゼロショットのオープンボキャブラリー検出用のYOLO-Worldも検討するとよいでしょう。
結論
YOLO11とYOLOv9は、コンピュータビジョンの歴史に確固たる地位を築きました。YOLOv9は、最大の特徴保持を実現するための優れたアーキテクチャ革新を提供します。しかし、エンタープライズAIアプリケーションからモバイルエッジデバイスに至るまで、圧倒的多数の現実世界のデプロイメントにおいては、YOLO11の使いやすさ、メモリ効率、そして汎用的なタスクサポートが他にはない利点を提供します。業界が前進する中、新しいYOLO26を採用することは、今日のシステムが利用可能な最も高速で信頼性の高い推論を実行していることを保証するものです。