YOLOv9対YOLOX:現代の物体検出に関する技術的深掘り
コンピュータビジョンの分野は、リアルタイム物体検出アーキテクチャの急速な進化を目の当たりにしてきました。本ガイドでは、YOLOv9とYOLOXを包括的に比較し、それらのアーキテクチャの革新性、性能指標、および学習手法を分析します。製造業におけるAI向けのスマートアプリケーションを構築している場合でも、予測モデリングを検討している場合でも、これらのモデルを理解することは、次のデプロイメントに向けて十分な情報に基づいた意思決定を行う助けとなるでしょう。
アーキテクチャの革新
YOLOv9: プログラマブル勾配情報
YOLOv9は、ディープニューラルネットワークに固有の情報ボトルネック問題に対処することで、パラダイムシフトをもたらしました。その中核となる革新技術には、プログラマブル勾配情報(PGI)と汎用効率的レイヤー集約ネットワーク(GELAN)が含まれます。
- 著者: Chien-Yao Wang および Hong-Yuan Mark Liao
- 組織: 台湾 中央研究院 情報科学研究所
- 日付: 2024年2月21日
- Arxiv: 2402.13616
- GitHub: WongKinYiu/yolov9
フィードフォワードプロセスの過程で重要な特徴データを保持することで、YOLOv9はバックプロパゲーション中に重みを更新するために使用される勾配の精度を維持します。このアーキテクチャは特徴抽出に優れており、航空画像や詳細な医療スキャンに見られるような、複雑な環境下での小さな物体の検出に非常に高い能力を発揮します。
YOLOX:研究と産業の架け橋
2021年半ばにリリースされたYOLOXは、YOLOシリーズをアンカーフリー設計へと移行させました。分類タスクと位置特定タスクを分離するデカップルドヘッドを導入し、SimOTAラベル割り当て戦略を利用して学習の収束性を向上させました。
- 著者: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
- 組織: Megvii
- 日付: 2021年7月18日
- Arxiv: 2107.08430
- GitHub: Megvii-BaseDetection/YOLOX
YOLOXはその当時、画期的な成果を上げ、優れた平均精度(mAP)を達成し、アンカーボックスのハイパーパラメータ調整を不要にしましたが、その基盤となるアーキテクチャは、パラメータ数と特徴保持のバランスをより最適化した現代のネットワークに取って代わられています。
YOLOXと最新のUltralyticsモデルは両方ともアンカーフリー設計を採用しており、ハイパーパラメータ調整の複雑さを軽減し、多様なデータセット全体での汎化性能を向上させています。
性能分析
これらのモデルをMS COCOベンチマークで比較すると、YOLOv9の進歩は明らかです。YOLOv9は、精度とFLOPsのバランスにおいて一貫して優れた結果を達成しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
YOLOXは極端なエッジケース向けにYOLOX-Nanoのような軽量バリエーションを提供していますが、YOLOv9のバリエーションは純粋な精度において、同サイズのYOLOXモデルを一貫して上回ります。例えば、YOLOv9mはパラメータ数が半分以下(20.0M 対 54.2M)でありながら、51.4%のmAPを達成しており、YOLOXlの49.7%を上回ります。
Ultralyticsの利点
モデルの選択にはアーキテクチャの理論以上のものが関わります。モデルを取り巻くエコシステムが、開発スピードとデプロイメントの成功を左右するからです。Ultralyticsエコシステム内でYOLOv9を利用することで、比類のない使いやすさと強力なコミュニティサポートが得られます。
従来の元の研究リポジトリとは異なり、Ultralyticsフレームワークは複雑なパイプラインを簡素化する統一されたPython APIを提供します。学習に必要なGPUメモリは他の多くの代替手段よりも大幅に少なく、驚異的な学習効率を実現します。
from ultralytics import YOLO
# Initialize the YOLOv9c model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export the optimized model to TensorRT format
model.export(format="engine")物体検出、インスタンスセグメンテーション、姿勢推定など、複数のタスクに対する組み込みサポートにより、コードベース全体を変更することなく、コンピュータビジョンソリューションを迅速に方向転換できます。
実世界の応用例
これらのモデルの特定の強みは、それぞれ異なる現実世界のアプリケーションに合わせて最適化されています。
高速リテールアナリティクス
リアルタイムの製品認識を必要とする現代のリテール環境では、YOLOv9が優れています。複雑な特徴の詳細を保持するその能力は、混雑した棚の上で視覚的に似た製品を識別する必要がある小売におけるAIのデプロイメントに最適です。
レガシーエッジデプロイメント
厳しいハードウェア制限や、新しい集約ブロックに対応できない特殊なNPUによって管理されるシナリオでは、YOLOX-Nanoがニッチな需要を満たすことがあります。その純粋で削ぎ落とされた畳み込みパターンは、リソースが極めて限られたマイクロコントローラにおいて好まれることがあります。
自律型ロボティクス
ロボット工学のナビゲーションにおいて、小さな物体を見逃すことは致命的となり得ます。YOLOv9内のGELANアーキテクチャは、小さく遠くにある障害物の特徴がネットワークの深い層で失われないようにするため、自動車におけるAIアプリケーションのような重要な安全環境において、古いモデルよりも優れた性能を発揮します。
ユースケースと推奨事項
YOLOv9とYOLOXのどちらを選ぶかは、特定のプロジェクト要件、デプロイメントの制約、およびエコシステムの好みによって決まります。
YOLOv9を選択すべき場合
YOLOv9は次のような場合に適した選択肢です:
- 情報のボトルネック研究: プログラマブル勾配情報 (PGI) および Generalized Efficient Layer Aggregation Network (GELAN) アーキテクチャを研究する学術プロジェクト。
- 勾配フロー最適化の研究: 学習中の深層ネットワーク層における情報の損失を理解し、軽減することに焦点を当てた研究。
- 高精度検出のベンチマーク: アーキテクチャ比較の基準点として、YOLOv9の強力なCOCOベンチマークパフォーマンスが必要なシナリオ。
YOLOXを選択すべき場合
YOLOXは以下の場合に推奨されます:
- アンカーフリー検出の研究: YOLOXのクリーンでアンカーフリーなアーキテクチャを、新しい検出ヘッドや損失関数の実験のためのベースラインとして使用する学術研究。
- 超軽量エッジデバイス: マイクロコントローラーやレガシーなモバイルハードウェアへのデプロイ。YOLOX-Nanoバリアントの極めて小さなフットプリント(0.91Mパラメータ)が不可欠な場合。
- SimOTAラベル割り当ての研究: 最適輸送ベースのラベル割り当て戦略と、それが学習の収束に与える影響を調査する研究プロジェクト。
Ultralytics (YOLO26) を選択すべき場合
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:
- NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
- 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。
未来: YOLO26の登場
YOLOv9は素晴らしいマイルストーンを表していますが、本番環境の要求は常に限界を押し広げています。新しくリリースされた**YOLO26**は、現代のビジョンAIにおける決定的な標準です。
YOLO26は、ネイティブなエンドツーエンドのNMSフリー設計により、デプロイメントパイプラインを完全に再活性化します。後処理中に複雑な非最大値抑制(NMS)を行う必要をなくすことで、大幅に低い推論レイテンシを実現します。
さらに、YOLO26には、SGDとMuonのハイブリッドである画期的なMuSGDオプティマイザが組み込まれており、LLM学習の革新技術を取り入れることで、非常に安定した迅速な収束を提供します。Distribution Focal Loss(DFL)を削除することで、YOLO26は前世代と比較して最大43%高速なCPU推論を達成しており、エッジデバイスやエンタープライズ環境へのデプロイメントにおいて絶対的な最良の選択肢となっています。ProgLossとSTALによる小物体認識の顕著な改善により、YOLO26はYOLOXとYOLOv9の両方を効果的に上回ります。
現代のアーキテクチャを模索しているエンジニアには、Ultralyticsスイート内の強力な代替手段として、YOLO11やRT-DETRをチェックすることも推奨します。Ultralyticsプラットフォーム上の最新モデルの比類のないパフォーマンスを活用して、プロジェクトの将来性を確実に確保してください。