コンテンツにスキップ

YOLOv9 YOLOX:現代的な物体検出技術への深い考察

コンピュータビジョン分野では、リアルタイム物体検出アーキテクチャが急速に進化している。本ガイドでは YOLOv9とYOLOXの包括的な比較を提供し、両者のアーキテクチャ革新、性能指標、およびトレーニング手法を分析します。製造業向けAIのスマートアプリケーション構築から予測モデリングの探求まで、これらのモデルを理解することは、次回の導入に向けた情報に基づいた意思決定に役立ちます。

アーキテクチャの革新

YOLOv9: プログラマブル勾配情報

YOLOv9 、深層ニューラルネットワークに内在する情報ボトルネック問題に対処することでパラダイムシフトYOLOv9 。その中核となる革新には、プログラマブル勾配情報(PGI)と汎用効率的層集約ネットワーク(GELAN)が含まれる。

  • 著者: Chien-Yao Wang and Hong-Yuan Mark Liao
  • 組織: Institute of Information Science, Academia Sinica, Taiwan
  • 日付: 2024年2月21日
  • Arxiv:2402.13616
  • GitHub:WongKinYiu/yolov9

順伝播処理中に重要な特徴データを保持することで、YOLOv9は、逆伝播中に重みを更新するために使用される勾配が正確であることを保証します。このアーキテクチャは特徴抽出に優れており、複雑な環境で小さなオブジェクトをdetectする能力が非常に高く、航空画像や詳細な医療スキャンなどで見られるようなケースに特に有効です。

YOLOv9について詳しくはこちら

YOLOX: 研究と産業の架け橋

2021年半ばにリリースされたYOLOXは、YOLO をアンカーフリー設計へと移行させた。分類と位置推定タスクを分離するデカップリングヘッドを導入し、SimOTAラベル割り当て戦略を活用して学習収束を改善した。

YOLOXはその時代において画期的であり、優れた平均精度(mAP)を達成しアンカーボックスのハイパーパラメータ調整を不要としたが、その基盤となるアーキテクチャは、パラメータ数と特徴量保持のバランスをより良く取る現代のネットワークによってすでに凌駕されている。

YOLOXの詳細について。

アンカーフリーの進化

YOLOXと新しいUltralyticsモデルは共にアンカーフリー設計を採用しており、ハイパーパラメータチューニングの複雑さを軽減し、多様なデータセットでの汎化性能を向上させます。

パフォーマンス分析

MSCOCO でこれらのモデルを比較すると、YOLOv9 の進歩が明らかYOLOv9 。YOLOv9 精度とFLOPsの間でYOLOv9 優れたトレードオフを達成している。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

YOLOXがYOLOX-Nanoのような軽量版を極端なエッジケース向けに提供する一方で、YOLOv9 純粋な精度において同サイズのYOLOXモデルを一貫して上回る。例えばYOLOv9mはパラメータ数が半分以下(2000万対5420万)であるにもかかわらず、YOLOXlの49.mAP 51.mAP を達成している。

Ultralyticsの利点

モデルの選択は、単なるアーキテクチャ理論以上のものです。それを取り巻くエコシステムが、開発速度とデプロイの成功を左右します。Ultralyticsエコシステム内でYOLOv9を利用することで、比類のない使いやすさと堅牢なコミュニティサポートが提供されます。

従来のオリジナル研究リポジトリとは異なり、Ultralytics は複雑なパイプラインを簡素化する統一されたPython を提供します。トレーニングには多くの代替手段よりも大幅にGPU 必要とし、驚異的なトレーニング効率を実現します。

from ultralytics import YOLO

# Initialize the YOLOv9c model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export the optimized model to TensorRT format
model.export(format="engine")

オブジェクト検出インスタンスセグメンテーション姿勢推定など、複数のタスクに対する組み込みサポートにより、コードベース全体を変更することなく、コンピュータビジョンソリューションを迅速に方向転換できます。

シームレスなエクスポート

エッジへのデプロイですか?Ultralyticsを使用すると、トレーニング済みのモデルをONNXTensorRT、OpenVINOのような高度に最適化された形式に、たった1つのコマンドで簡単にエクスポートできます。

現実世界のアプリケーション

これらのモデルの特定の強みは、それぞれを異なる実世界の用途に適合させます:

高速小売分析

リアルタイムの製品認識を必要とする現代の小売環境において、YOLOv9は優れています。複雑な特徴の詳細を保持するその能力は、混雑した棚で視覚的に類似した製品を区別する必要がある小売業におけるAIの展開に完全に適しています。

レガシーエッジ展開

ハードウェアの制約が厳しいシナリオや、新しい集約ブロックの処理に苦労する特殊なNPUでは、YOLOX-Nanoがニッチな役割を果たす場合がある。純粋で簡素化された畳み込みパターンは、リソースが極めて限られたマイクロコントローラー向けに好まれることがある。

自律ロボティクス

ロボットナビゲーションにおいて、小さなオブジェクトを見落とすことは壊滅的な結果を招く可能性があります。YOLOv9内のGELANアーキテクチャは、小さく遠い障害物の特徴がネットワークの深層で失われないことを保証し、自動車におけるAIアプリケーションのような重要な安全環境において、古いモデルを凌駕します。

ユースケースと推奨事項

YOLOv9とYOLOXのどちらを選択するかは、特定のプロジェクト要件、デプロイの制約、およびエコシステムの好みによって異なります。

YOLOv9を選択すべき時

YOLOv9 以下のような場合に有力な選択肢YOLOv9 :

  • 情報ボトルネック研究: プログラマブル勾配情報(PGI)および汎用効率的層集約ネットワーク(GELAN)アーキテクチャを研究する学術プロジェクトです。
  • 勾配フロー最適化研究: トレーニング中の深層ネットワーク層における情報損失の理解と軽減に焦点を当てた研究。
  • 高精度detectベンチマーク: YOLOv9の強力なCOCOベンチマーク性能が、アーキテクチャ比較の参照点として必要とされるシナリオ。

YOLOXを選択すべき時

YOLOXは以下の方におすすめです:

  • アンカーフリー検出研究: YOLOXのクリーンなアンカーフリーアーキテクチャをベースラインとして使用し、新しい検出ヘッドや損失関数を実験する学術研究。
  • 超軽量エッジデバイス: YOLOX-Nanoバリアントの極めて小さいフットプリント(0.91Mパラメータ)が重要となるマイクロコントローラーやレガシーモバイルハードウェアへのデプロイ。
  • SimOTAラベル割り当て研究: 最適輸送ベースのラベル割り当て戦略と、それがトレーニング収束に与える影響を調査する研究プロジェクト。

Ultralytics YOLO26)を選択すべきタイミング

ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26は、パフォーマンスと開発者エクスペリエンスの最高の組み合わせを提供します。

  • NMSフリーのエッジデプロイメント: Non-Maximum Suppressionの後処理の複雑さなしに、一貫した低レイテンシ推論を必要とするアプリケーション。
  • CPUのみの環境: 専用のGPUアクセラレーションを持たないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な優位性をもたらします。
  • 小物体detect: 航空ドローン画像やIoTセンサー分析のような困難なシナリオにおいて、ProgLossとSTALが微小なオブジェクトのAPを大幅に向上させます。

未来:YOLO26の登場

YOLOv9 画期的な成果YOLOv9 、実稼働環境の要求は常に限界を押し広げている。新たにリリースされた YOLO26 は、現代のビジョンAIにおける決定的な基準を体現しています。

YOLO26は、ネイティブなエンドNMS設計により、デプロイメントパイプラインを完全に刷新します。後処理における複雑な非最大抑制(NMS)の必要性を排除することで、推論レイテンシを大幅に低減します。

さらに、YOLO26は画期的なMuSGDオプティマイザーを採用しています。SGD ハイブリッド手法であり、LLMトレーニングの革新技術を借用することで、驚異的な安定性と高速な収束を実現します。分布焦点損失(DFL)を排除したことで、YOLO26は従来モデルと比較して最大43%CPU を達成し、エッジデバイスや企業向け展開において絶対的な最良の選択肢となっています。 ProgLossとSTALによる小物体認識の顕著な改善により、YOLO26はYOLOXとYOLOv9の両方を効果的に凌駕しています。

最新のアーキテクチャを探索するエンジニアには、Ultralyticsスイート内の強力な代替としてYOLO11RT-DETRも検討することをお勧めします。Ultralytics Platform上の最新モデルの比類のないパフォーマンスを活用することで、プロジェクトの将来性を確保してください。


コメント