YOLOX対YYOLOv9v9:高性能物体検出の進化
急速に進歩するコンピュータビジョン分野において、適切な物体検出モデルを選択することは、精度、速度、導入の複雑さのバランスを取る上で極めて重要です。本比較では、YOLO 二つの重要なマイルストーン、すなわち2021年に発表された頑健なアンカーフリー検出器であるYOLOXとYOLOv9(優れた特徴保持を実現するプログラマブル勾配情報(PGI)を導入した2024年アーキテクチャ)を比較検討する。
YOLOX: アンカーフリーの先駆者
YOLOXはアンカーベースのメカニズムからアンカーフリー設計へ移行することで、YOLO における大きな転換点となった。この簡素化により手動でのアンカーボックス調整が不要となり、多様なデータセットやアスペクト比への適応性が向上した。分離型ヘッドと先進的なSimOTAラベル割り当て戦略を組み込むことで、YOLOXは発表時に最先端の性能を達成し、学術研究と産業応用との間のギャップを埋めた。
- 著者: Zheng Ge、Songtao Liu、Feng Wang、Zeming Li、Jian Sun
- 組織:Megvii
- 日付: 2021-07-18
- Arxiv:YOLOX: 2021年にYOLOシリーズを超える
- GitHub:Megvii-BaseDetection/YOLOX
主要なアーキテクチャ機能
- アンカーフリー機構:アンカーボックスのクラスタリングの複雑さを排除し、設計パラメータの数を削減し、汎化性能を向上させる。
- 分離ヘッド:分類と回帰タスクを別々のブランチに分離し、これら二つの目的間の競合を解消するとともに収束速度を向上させる。
- SimOTAラベル割り当て:トレーニングプロセスを最適輸送問題と捉える動的ラベル割り当て戦略であり、IoU 効果的に予測値に真値を割り当てる。
YOLOv9: ディープラーニングのためのプログラマブル勾配
YOLOv9 深層ニューラルネットワークにおける情報損失という根本的な課題に取り組む。ネットワークが深くなるにつれ、前方伝播中に重要な特徴情報が消失する可能性がある。YOLOv9 プログラマブル勾配情報(PGI) と汎用効率的層集約ネットワーク(GELAN) YOLOv9 、ネットワーク層全体で重要なデータを保持する。これにより、特に軽量モデルにおいて検出精度が大幅に向上し、高い効率性を維持している。
- 著者: Chien-Yao Wang and Hong-Yuan Mark Liao
- 組織: 中央研究院 情報科学研究所
- 日付: 2024-02-21
- Arxiv:YOLOv9: Programmable Gradient Informationを使用して学びたいものを学習
- GitHub:WongKinYiu/yolov9
- ドキュメント:Ultralytics YOLOv9 ドキュメント
主要なアーキテクチャ機能
- GELANアーキテクチャ:CSPNetとELANの設計原則を組み合わせ、パラメータ効率と計算速度を最大化することで、様々なハードウェア上でモデルを効果的に実行可能にします。
- プログラマブル勾配情報(PGI):ネットワーク重みを更新するための信頼性の高い勾配を生成する補助的監督フレームワークであり、非常に深いアーキテクチャにおいても主分岐が完全な特徴量を学習することを保証する。
- 可逆関数:データの有効な再構築を保証し、層間で意味情報を保持することで、情報ボトルネック問題を緩和する。
パフォーマンス比較
これらのモデルを評価する際には、 YOLOv9 は、精度対パラメータ比率の面で概してYOLOXを上回ります。YOLOX-xが51.1%という立派な mAPを達成している一方で、より新しいYOLOv9cは53.0mAPでこれを上回り、しかも大幅に少ないパラメータ(25.3M対99.1M)と少ない計算能力で実現しています。 この効率性により、ハードウェアリソースが制約されながらも高精度が求められるリアルタイムアプリケーションにおいて、YOLOv9 よりYOLOv9 となる。
ただし、YOLOXはレガシーなエッジデバイスにおいて依然として高い有用性を保っている。そのシンプルなアンカーフリー設計は、GELANのような新しいモデルに見られる複雑な層の集約を完全にはサポートしない可能性のある特定のモバイルチップセットやNPUアーキテクチャ向けに最適化する場合、より容易であることがある。
詳細な指標
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
効率性のハイライト
YOLOv9cは、最大規模のYOLOX-x(51.1%mAP)よりも高い精度(53.0%mAP)を達成しつつ、パラメータ数を約75%削減していることに注目されたい。これは、これらのリリース間の3年間におけるアーキテクチャ効率の急速な進歩を示している。
Ultralyticsのトレーニングと使いやすさ
開発者にとって重要な差別化要因は、モデルを取り巻くエコシステムである。 YOLOv9Ultralytics 完全に統合されており、使いやすさにおいて大きな優位性を提供します。
Ultralyticsの利点
Ultralytics Python することで、統一された構文で最先端モデルにアクセスできます。複雑なリポジトリのクローン作成やC++オペレータの手動コンパイルは不要です。これはYOLOXのような研究用実装ではしばしば障壁となります。
from ultralytics import YOLO
# Load a model (YOLOv9c or the new YOLO26s)
model = YOLO("yolov9c.pt")
# Train on custom data in one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate performance
metrics = model.val()
この統合により以下の機能が提供されます:
- 効率化されたワークフロー: 検出、セグメンテーション、姿勢推定タスクをシームレスに切り替えられます。
- メモリ効率: Ultralytics パイプラインはコンシューマー向けハードウェア向けに最適化されており、トランスフォーマーベースの代替手法や最適化されていない研究用コードベースと比較して、よりGPU 動作することが多い。
- デプロイ準備:組み込みのエクスポート機能により、学習済みモデルを ONNX、 TensorRT、CoreML、TFLite 。
現実世界のアプリケーション
これらのモデルの中から選択するには、具体的な導入上の制約条件によって異なります。
高速小売分析
エッジデバイス上でリアルタイムの製品認識を必要とする小売環境向けに、 YOLOv9 が優れた選択肢となることが多い。そのGELANアーキテクチャにより、NVIDIA Orin Nanoなどのデバイス上で高いスループットを実現し、大幅な遅延なしに自動レジや棚在庫分析といった機能を実現する。
レガシーモバイル導入
古いモバイルハードウェアや、単純な畳み込みパターンを好む特定のNPUアーキテクチャが関与するシナリオでは、YOLOX-Nanoまたは YOLOX-Tinyが依然として好まれる場合があります。複雑な集約ブロックを伴わない純粋なアンカーフリー設計は、非常に制約の多いマイクロコントローラーやレガシーAndroid 上での量子化やデプロイが容易な場合があるためです。
自律型ロボティクス
衝突回避において精度最大化が最優先されるロボティクス応用分野では、YOLOv9eの優れた特徴保持能力が従来モデルでは達成不可能な安全マージンを提供する。PGIフレームワークは、雑然とした環境でのナビゲーションに不可欠な、特徴抽出プロセスにおける微小障害物の捕捉を保証する。
未来:YOLO26の登場
YOLOv9 卓越した性能YOLOv9 、AI分野は常に進化を続けています。新たにリリースされたYOLO26は、これらの基盤をさらに発展させ、速度と精度の究極のバランスを実現しています。
YOLO26はネイティブなエンドツーエンドNMSを導入し、推論時の非最大抑制(NMS)を完全に不要にしました。これにより、デプロイメントパイプラインが大幅に簡素化され、実行速度が向上します。 さらに、分布焦点損失(DFL)を排除し、新規開発のMuSGDオプティマイザ(SGD ハイブリッド)を採用することで、YOLO26は前世代比最大43%CPU を実現。これにより、現代のエッジコンピューティングに最適な選択肢となっています。
最高水準を求める開発者の皆様には、次期プロジェクトにおいてYOLO26の評価をお勧めします。これにより、コンピュータビジョン分野における最先端の進歩を活用いただけます。
類似モデルを探索する
- YOLO11: YOLO26の強力な前身モデルであり、様々なビジョンタスクにおいて優れた汎用性を提供する。
- RT-DETR:NMSも排除するトランスフォーマーベースの検出器。純粋な推論速度よりも高精度を優先するシナリオに最適。
- YOLOv10:NMSトレーニング手法を初めて導入したYOLO 、現代的なYOLO26アーキテクチャへの架け橋となる。