Link to this sectionYOLOv9 と YOLOX の比較#
コンピュータビジョン分野では、リアルタイム物体検出アーキテクチャの急速な進化が続いています。本ガイドでは、YOLOv9 と YOLOX を包括的に比較し、それらのアーキテクチャにおける革新、パフォーマンス指標、およびトレーニング手法を分析します。製造におけるAI 用のスマートアプリケーションを構築する場合や、予測モデリング を調査する場合でも、これらのモデルを理解することは、次回のデプロイメントに向けて情報に基づいた意思決定を行うのに役立ちます。
Link to this sectionアーキテクチャの革新#
Link to this sectionYOLOv9: プログラマブル勾配情報#
YOLOv9 は、深層ニューラルネットワーク固有の情報ボトルネック問題に対処することで、パラダイムシフトをもたらしました。その中核となる革新技術には、PGI(Programmable Gradient Information)と GELAN(Generalized Efficient Layer Aggregation Network)が含まれます。
- 著者: Chien-Yao Wang および Hong-Yuan Mark Liao
- 組織: 台湾 中央研究院 情報科学研究所
- 日付: 2024年2月21日
- Arxiv: 2402.13616
- GitHub: WongKinYiu/yolov9
YOLOv9 は、フィードフォワード処理中に重要な特徴データを保持することで、バックプロパゲーション時に重みを更新するために使用される勾配の精度を維持します。このアーキテクチャは 特徴抽出 に優れており、航空画像 や詳細な医療スキャンに見られるような、複雑な環境下での小さな物体検出において非常に高い能力を発揮します。
Link to this sectionYOLOX:研究と産業の橋渡し#
2021年中頃にリリースされた YOLOX は、YOLO シリーズをアンカーフリー設計へと移行させました。分類タスクと位置特定タスクを分離するデカップリングヘッドを導入し、学習の収束を改善するために SimOTA ラベル割り当て戦略を利用しました。
- 著者: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
- 組織: Megvii
- 日付: 2021年7月18日
- Arxiv: 2107.08430
- GitHub: Megvii-BaseDetection/YOLOX
YOLOX は当時画期的であり、優れた 平均精度(mAP) を達成し、アンカーボックスのハイパーパラメータ調整を不要にしましたが、その基盤となるアーキテクチャは、パラメータ数と特徴保持のバランスをより最適化した現代のネットワークに追い越されています。
YOLOX と新しい Ultralytics モデルはどちらもアンカーフリー設計を採用しており、ハイパーパラメータ調整の複雑さを軽減し、多様なデータセット全体での汎用性を向上させています。
Link to this sectionパフォーマンス分析#
MS COCO ベンチマーク全体でこれらのモデルを比較すると、YOLOv9 の進歩が明らかになります。YOLOv9 は、精度と FLOPs の間で一貫してより優れたトレードオフを実現しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
YOLOX には極端なエッジケース向けに YOLOX-Nano のような軽量版がありますが、YOLOv9 の各バリエーションは、純粋な 精度 において同サイズの YOLOX モデルを一貫して上回ります。例えば、YOLOv9m はパラメータ数が半分以下(20.0M 対 54.2M)でありながら、YOLOXl の 49.7% に対して 51.4% の mAP を達成しています。
Link to this sectionUltralyticsの利点#
モデルを選択する際には、アーキテクチャの理論だけではなく、それを取り巻くエコシステムが開発速度とデプロイメントの成功を左右します。Ultralytics エコシステム 内で YOLOv9 を利用することは、比類のない 使いやすさ と強力なコミュニティサポートを提供します。
従来のオリジナルの研究用リポジトリとは異なり、Ultralytics フレームワークは複雑なパイプラインを簡素化する統一された Python API を提供します。トレーニングに必要な GPUメモリ は多くの代替手段よりも劇的に少なく、驚異的な トレーニング効率 を提供します。
from ultralytics import YOLO
# Initialize the YOLOv9c model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export the optimized model to TensorRT format
model.export(format="engine")物体検出、インスタンスセグメンテーション、および 姿勢推定 を含む複数のタスクに対する組み込みサポートにより、コードベース全体を変更することなく、コンピュータビジョンソリューションを迅速に方向転換できます。
Link to this section実際のアプリケーション#
これらのモデルの具体的な強みは、それぞれ異なる実世界のアプリケーションに適しています。
Link to this section高速小売分析#
リアルタイムの製品認識を必要とする現代の小売環境において、YOLOv9 は優れています。複雑な特徴の詳細を保持する能力があるため、混雑した棚の上で視覚的に類似した製品を区別する必要がある 小売におけるAI のデプロイメントに最適です。
Link to this sectionレガシーなエッジデプロイメント#
厳しいハードウェア制限や、新しい集約ブロックに対応できない特殊な NPU によって支配されるシナリオでは、YOLOX-Nano がニッチな役割を果たすことがあります。その純粋で削ぎ落とされた畳み込みパターンは、リソースが極めて限られた マイクロコントローラ で好まれる場合があります。
Link to this section自律型ロボティクス#
ロボットのナビゲーションにおいて、小さな物体を見落とすことは致命的となり得ます。YOLOv9 内の GELAN アーキテクチャは、小さくて遠くにある障害物の特徴がネットワークの深い層で見失われないようにするため、自動車におけるAI アプリケーションのような重要な安全環境において、古いモデルよりも優れたパフォーマンスを発揮します。
Link to this sectionユースケースと推奨事項#
YOLOv9 と YOLOX のどちらを選択するかは、特定のプロジェクト要件、デプロイメントの制約、およびエコシステムの優先順位に依存します。
Link to this sectionYOLOv9を選択すべき場合#
YOLOv9は以下の場合に強力な選択肢となります:
- 情報ボトルネック研究: Programmable Gradient Information (PGI)およびGeneralized Efficient Layer Aggregation Network (GELAN)アーキテクチャを研究する学術プロジェクト。
- 勾配フロー最適化の研究: トレーニング中の深層ネットワーク層における情報損失の理解と軽減に重点を置いた研究。
- 高精度検出ベンチマーク: アーキテクチャ比較の基準点として、YOLOv9の強力なCOCOベンチマークパフォーマンスが必要とされるシナリオ。
Link to this sectionYOLOXを選択すべき時#
YOLOXが推奨されるケース:
- アンカーフリー検出研究: 新しい検出ヘッドや損失関数を実験するためのベースラインとして、YOLOXのクリーンでアンカーフリーなアーキテクチャを使用する学術研究。
- 超軽量エッジデバイス: YOLOX-Nanoバリアントの非常に小さなフットプリント(0.91Mパラメータ)が不可欠な、マイクロコントローラやレガシーモバイルハードウェアへのデプロイ。
- SimOTAラベル割り当ての研究: 最適輸送に基づくラベル割り当て戦略と、それが学習の収束に与える影響を調査する研究プロジェクト。
Link to this sectionUltralytics (YOLO26) を選択すべき時#
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最良の組み合わせを提供します。
- NMSフリーのエッジ展開: Non-Maximum Suppression後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: GPUアクセラレーションを利用できないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となる場合。
- 小さな物体の検出: aerial drone imageryやIoTセンサー分析のような困難なシナリオで、ProgLossとSTALが微小な物体の検出精度を大幅に向上させる場合。
Link to this section未来への展望: YOLO26の登場#
YOLOv9 は印象的なマイルストーンを象徴していますが、プロダクション環境の需要は絶えず限界を押し広げています。新しくリリースされた YOLO26 は、現代のビジョンAIにおける決定的な標準を象徴しています。
YOLO26 は、ネイティブな エンドツーエンドの NMS フリー設計 により、デプロイメントパイプラインを完全に活性化します。ポストプロセッシング中の複雑な NMS(Non-Maximum Suppression)を不要にすることで、推論レイテンシ を大幅に低減します。
さらに、YOLO26 は画期的な MuSGD オプティマイザ を組み込んでいます。これは、LLM トレーニングのイノベーションを取り入れた SGD と Muon のハイブリッドであり、信じられないほど安定した迅速な収束を提供します。Distribution Focal Loss (DFL) を排除することで、YOLO26 は前身モデルと比較して最大 43% 高速な CPU 推論 を達成し、エッジデバイスやエンタープライズ環境でのデプロイメントに最も適した選択肢となっています。ProgLoss と STAL を通じた小さな物体の認識における顕著な改善により、YOLO26 は YOLOX と YOLOv9 の両方を実質的に取って代わる存在です。
現代のアーキテクチャを探索しているエンジニアの皆様には、Ultralytics スイート内の強力な代替手段として YOLO11 と RT-DETR をチェックすることをお勧めします。Ultralytics プラットフォーム上の最新モデルの比類なきパフォーマンスを活用し、プロジェクトの将来性を確保してください。