YOLOv9 vs. YOLOX:技術比較
最適な物体検出モデルの選択は、コンピュータビジョンプロジェクトで望ましい結果を達成するために重要です。モデルは、アーキテクチャ、パフォーマンス、およびリソース要件が大きく異なります。このページでは、ニーズに最適な選択を行うのに役立つように、YOLOv9とYOLOXの主要な機能を分析し、詳細な技術比較を提供します。
YOLOv9:リアルタイムオブジェクト検出の推進
著者: Chien-Yao Wang、Hong-Yuan Mark Liao
所属: Institute of Information Science, Academia Sinica, Taiwan
日付: 2024-02-21
Arxiv: arXiv:2402.13616
GitHub: github.com/WongKinYiu/yolov9
ドキュメント: docs.ultralytics.com/models/yolov9/
Ultralytics YOLOv9は、物体検出における大きな飛躍を意味し、Programmable Gradient Information (PGI)やGeneralized Efficient Layer Aggregation Network (GELAN)のような革新的な技術を導入しています。Chien-Yao WangとHong-Yuan Mark Liaoによって開発されたYOLOv9は、深層ニューラルネットワークにおける情報損失に取り組み、精度と効率の両方を向上させます。Ultralyticsエコシステムに統合されたYOLOv9は、合理化されたユーザーエクスペリエンス、包括的なドキュメント、および堅牢なコミュニティサポートの恩恵を受けています。
アーキテクチャと主な機能
YOLOv9のアーキテクチャは、PGIを使用して深い層を通る重要な情報の流れを維持するように設計されています。これは、深いネットワークで一般的な情報のボトルネックの問題を軽減するのに役立ちます。GELANは、CSPNetとELANの概念に基づいて、パラメータの利用率と計算効率を向上させるためにネットワーク構造を最適化します。これにより、驚くべき効率で最先端のパフォーマンスが得られます。Ultralyticsの実装により、シンプルなPython APIと効率的なトレーニングプロセスで使いやすさが保証され、すぐに利用できる事前トレーニング済みの重みが活用されます。
長所
- 最先端の精度: COCOなどのベンチマークで、主要なmAPスコアを達成し、多くの場合、類似のサイズの他のモデルを上回ります。
- 高い効率: 多くの代替手段と比較して、より少ないパラメータとFLOPsで高い精度を提供し、エッジAI展開に適しています。
- 情報保持: PGIは、情報損失を効果的に軽減し、モデルの学習能力と最終的なパフォーマンスを向上させます。
- Ultralyticsエコシステム: 活発な開発、豊富なリソース、MLOpsのためのUltralytics HUB統合、およびトレーニング中のより低いメモリ要件から恩恵を受けます。
- 多様性: 元の論文は検出に焦点を当てていますが、このアーキテクチャはインスタンスセグメンテーションなどのタスクにも対応できる可能性を示しており、YOLOv8のようなモデルのマルチタスク機能と一致しています。
弱点
- より新しいモデルとして、コミュニティ主導のデプロイメント例の範囲は、長年確立されているモデルと比較して、まだ成長している可能性があります。ただし、Ultralyticsフレームワーク内での統合により、導入が大幅に加速され、堅牢なサポートシステムが提供されます。
YOLOX: High-Performance Anchor-Free Detector
著者: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
所属: Megvii
日付: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
ドキュメント: https://yolox.readthedocs.io/en/latest/
Megviiによって開発されたYOLOXは、シンプルさと高性能を目指すアンカーフリーオブジェクト検出モデルです。YOLOXは、アンカーボックスのメカニズムを取り除くことで、トレーニングパイプラインを簡素化し、設計パラメータの数を減らすため、一般化を改善できます。
アーキテクチャと主な機能
YOLOXは、いくつかの重要なアーキテクチャ上の選択によって特徴付けられます。最も重要なのは、オブジェクト検出をピクセルごとの予測問題として扱うアンカーフリー設計です。その他の主な機能としては、分類タスクとローカリゼーションタスクを分離するデカップルドヘッド、SimOTAと呼ばれる高度なラベル割り当て戦略、MixUpやMosaicのような強力なデータ拡張技術の使用などが挙げられます。
長所
- Anchor-Free Design: アンカーボックスの調整の必要性を排除することで、モデルアーキテクチャとトレーニングプロセスを簡素化します。
- 強力なパフォーマンス: 当時としては、平均適合率(mAP)と推論速度の間の競争力のあるバランスを実現しています。
- スケーラビリティ: YOLOX-NanoからYOLOX-Xまで、さまざまなモデルサイズを提供し、多様な計算リソース全体への展開を可能にします。
弱点
- 新しいモデルに性能で劣る: YOLOXは革新的でしたが、YOLOv9のような新しいモデルによって、精度と効率の両方で上回られています。
- 分断されたエコシステム: オープンソースではありますが、MLOpsのためのUltralytics HUBとのシームレスな統合など、Ultralyticsが提供する統合されたエコシステムと効率化されたツールがありません。
- より高い計算コスト: 特定の精度レベルに対して、より大きなYOLOXモデルは、同等のYOLOv9モデルよりも多くのパラメータとFLOPを持っている傾向があります。
性能比較:YOLOv9 対 YOLOX
COCOデータセットでのパフォーマンスを比較すると、YOLOv9の優位性は精度と効率の両方で明らかです。以下の表は、YOLOv9モデルが、YOLOXモデルよりも少ないパラメータとFLOPで、一貫して高いmAPスコアを達成していることを示しています。たとえば、YOLOv9-Cは25.3Mのパラメータで53.0%のmAPを達成し、YOLOX-L(54.2Mのパラメータで49.7%のmAP)およびYOLOX-X(99.1Mのパラメータで51.1%のmAP)を上回り、大幅に効率的です。最大のモデルであるYOLOv9-Eは、精度を55.6% mAPまで押し上げますが、これはYOLOXが到達できないレベルです。この優れた計算量あたりのパフォーマンスにより、YOLOv9は最新のアプリケーションにとってより強力でリソース効率の高い選択肢となります。
モデル | サイズ (ピクセル) |
mAPval 50-95 |
速度 CPU ONNX (ms) |
速度 T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
理想的なユースケース
YOLOv9
YOLOv9の優れた精度と効率により、パフォーマンスが重要な要求の厳しいアプリケーションに最適です。次のようなシナリオで優れています。
- 高度な運転支援システム(ADAS): 自動運転のために、車両、歩行者、および道路標識を高精度で検出します。
- 高忠実度セキュリティ: 低い誤検知率で、セキュリティシステム内の複雑なシーンを監視します。
- 産業オートメーション: 小さな欠陥を識別することによる、製造業における詳細な品質管理の実行。
- 医療画像処理: 正確な異常の物体検出を提供することにより、医療スキャンの分析を支援。
YOLOX
YOLOXは、精度と速度のバランスが取れていることが求められるアプリケーション、特にアンカーフリー設計が特定のデータセットで利点をもたらす場合に適しています。理想的なユースケースは以下の通りです。
- リアルタイムトラッキング: リアルタイムの物体追跡が必要なロボティクスや監視システムでのアプリケーション。
- 学術研究: そのモジュール式でアンカーフリーな設計は、オブジェクト検出アーキテクチャの研究と実験のための興味深いモデルとなっています。
- エッジ展開: 小型なYOLOX-NanoおよびYOLOX-Tinyバリアントは、リソース制約のあるデバイスに展開できますが、YOLOv9のような新しいモデルは、同じリソースコストでより優れたパフォーマンスを提供することがよくあります。
結論と推奨事項
YOLOv9とYOLOXはどちらも、物体検出の分野に大きく貢献してきました。YOLOXは、アンカーフリーの設計とデカップリングされたヘッドで境界を押し広げ、リアルタイム検出のための強力なベースラインを提供しました。ただし、YOLOv9は、精度と効率の両方で新しい標準を確立しました。その革新的なPGIおよびGELANアーキテクチャにより、より少ない計算リソースで優れたパフォーマンスを達成できます。
最高の性能、効率、使いやすさを求める開発者や研究者にとって、YOLOv9が明確な選択肢です。Ultralyticsエコシステムへの統合により、比類のない利点が提供されます。
- 使いやすさ: 合理化されたPython API、豊富なドキュメント、および簡単なCLIの使用法により、開発が簡素化されます。
- 充実したエコシステム: 活発な開発、強力なコミュニティサポート、頻繁なアップデート、そしてシームレスなMLOpsのためのUltralytics HUBとの統合。
- パフォーマンスバランス: 速度と精度の間で優れたトレードオフを実現し、エッジからクラウドまで、多様な現実世界のシナリオに適しています。
- 学習効率: より高速な学習時間、すぐに利用できる事前学習済みウェイト、効率的なリソース利用が特徴です。
その他のモデルを見る
このページでは YOLOv9 と YOLOX に焦点を当てていますが、コンピュータビジョンの分野は広大です。Ultralytics エコシステム内で利用可能な他の最先端モデルもぜひ検討してください。最新の Ultralytics モデルに関する洞察を得るには、YOLOv9 と YOLOv8 の比較、または確立された業界標準からテクノロジーがどれだけ進歩したかを確認するには、YOLOv9 と YOLOv5 の比較をご覧ください。トランスフォーマーベースのアーキテクチャに興味がある方には、RT-DETR と YOLOv9 の比較で詳細な分析を提供しています。