YOLOv9 YOLO:物体検出モデルの技術的比較
コンピュータビジョンの急速な進化により、様々な導入制約や精度要件に合わせて設計された強力なアーキテクチャが数多く生み出されている。この分野における注目すべき2つの成果が YOLOv9(情報ボトルネックへの頑健な対応で高く評価されている)と、ニューラルアーキテクチャ検索(NAS)と効率的な特徴ピラミッドに重点を置いたYOLO。
本ガイドでは、YOLOアーキテクチャ上の差異、トレーニング手法、最適な導入シナリオを詳細に技術的に比較します。さらに、Ultralytics 開発から本番環境までシームレスな移行経路を提供する仕組みや、YOLO26のような最新モデルが新規プロジェクトの推奨標準となった理由についても考察します。
アーキテクチャの詳細
各モデルを駆動する中核的なメカニズムを理解することで、なぜそれらが様々な指標において異なるパフォーマンスを示すのかが明らかになる。
YOLOv9: プログラマブル勾配情報
YOLOv9 、データが深層ニューラルネットワークを通過する際に生じる情報損失を直接的に解決するために設計YOLOv9 。
著者:王建耀, 廖宏源・マーク・リャオ
所属機関:台湾中央研究院 情報科学研究所
日付:2024年2月21日
リンク:Arxiv,GitHub,Docs
YOLOv9 はプログラマブル勾配情報(PGI) と汎用効率層集約ネットワーク(GELAN)YOLOv9 。PGIはフィードフォワード処理中に重要な空間的・意味的情報を保持し、重み更新に用いられる勾配の劣化を防ぐ。 GELANはこれを補完し、パラメータ効率を最大化することで、多くの従来型CNNよりも少ないFLOPsで最先端の平均精度(mAP)を達成することを可能にします。
DAMO-YOLO: NAS駆動の効率性
アリババグループが開発したYOLO 、自動化されたアーキテクチャ検索を活用し、速度と精度の最適なバランスを見出すという異なるアプローチYOLO 。
著者:許賢哲, 江一琪, 陳偉華, 黄一倫, 張元, 孫秀宇
所属組織:Alibaba Group
日付:2022年11月23日
リンク:Arxiv,GitHub
YOLO 効率的なネットワーク構造を自動生成するためにMAE-NAS(ニューラルアーキテクチャ探索用マスキングオートエンコーダ)バックボーンYOLO 。頑健な特徴融合にはRepGFPN(再パラメータ化汎用特徴ピラミッドネットワーク)を利用し、検出ヘッドの計算負荷を最小化するため「ZeroHead」設計を採用している。さらに、ラベル割り当てにはAlignedOTAを組み込み、小型バリエーションの性能向上には知識蒸留を活用している。
コンピュータビジョンにおけるNASの役割
ニューラルアーキテクチャサーチ(NAS)は人工ニューラルネットワークの設計を自動化する。YOLO高効率モデルを生成できる一方で、アーキテクチャ空間の探索には膨大な計算資源を必要とする場合が多く、YOLOv9のようなモデルのより決定論的な設計思想とは対照的である。
パフォーマンスとメトリクスの比較
物体検出モデルを選択する際には、精度、速度、および計算リソースの消費量のバランスを取ることが極めて重要である。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
分析
- 精度対パラメータ数: YOLOv9 優れたパラメータ数対精度比を示す。例えば、YOLOv9cmAP 53.mAP を達成する一方、DAMO-YOLOlは50.mAP を達成mAP はるかに多くのパラメータ(4210万)を必要とする。
- 推論速度:YOLO GPU上でTensorRT を実現し、YOLOv9 わずかに上回る。ただし、YOLOv9、GPU に結びついている。
- メモリ要件: Ultralytics YOLO (YOLOv9を含む)YOLO 、複雑なNAS生成モデルや大規模なトランスフォーマーアーキテクチャと比較して、学習時および推論時の両方で一般的にメモリ使用量が低く、制約のあるエッジハードウェア上での展開に非常に適しています。
Ultralyticsエコシステムの利点
理論的な指標は重要ですが、実際の運用がプロジェクトの成功を大きく左右します。この点において、Ultralytics とその包括的なソフトウェアエコシステムは、YOLOのような単体のリポジトリを凌駕しています。
使いやすさとトレーニング効率
YOLOv9 トレーニングには最小限の定型処理しか必要としません。Ultralytics Python 、データ拡張、分散トレーニング、ハードウェア最適化といった複雑なプロセスを抽象化します。
from ultralytics import YOLO
# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate model performance
metrics = model.val()
# Export for production deployment
model.export(format="onnx")
一方、YOLO を利用するにはYOLO その独自のトレーニングパイプラインに特化した厳格な設定ファイルや複雑な依存関係チェーンを扱うYOLO 、習得がより困難になる。
タスクを横断する汎用性
Ultralytics その本質的な汎用性にあります。標準的なバウンディングボックス検出を超えて、Ultralyticsフレームワークはインスタンスセグメンテーション、姿勢推定、画像分類、オリエンテッドバウンディングボックス(OBB)検出などのタスクをシームレスにサポートします。YOLO 、他の視覚パラダイムに適応するには大幅な再設計が必要です。
エッジデバイスへのエクスポート
Ultralytics 、ワンクリックでモデルをTensorRT、 OpenVINO、CoreMLなどへのワンクリックモデルエクスポートを提供することでデプロイメントパイプラインを簡素化し、ターゲットハードウェアに関わらず最高のパフォーマンスを保証します。
ユースケースと推奨事項
YOLO YOLOv9 具体的なプロジェクト要件、デプロイメント上の制約、およびエコシステムの選好YOLO 。
YOLOv9を選択すべき時
YOLOv9 以下のような場合に有力な選択肢YOLOv9 :
- 情報ボトルネック研究:プログラマブル勾配情報(PGI)および汎用効率的層集約ネットワーク(GELAN)アーキテクチャを研究する学術プロジェクト。
- 勾配フロー最適化研究:深層ネットワーク層における学習中の情報損失の理解と軽減に焦点を当てた研究。
- 高精度検出ベンチマーク: YOLOv9強力なCOCO 性能が、アーキテクチャ比較の基準点として必要とされるシナリオ。
DAMO-YOLOを選択するタイミング
YOLO 以下の方におすすめYOLO :
- 高スループット動画解析:固定NVIDIA GPU 上で高FPS動画ストリームを処理し、バッチ1スループットを主要指標とする。
- 産業用製造ライン:専用ハードウェア上でGPU 厳しい制約があるシナリオ。例:組立ラインにおけるリアルタイム品質検査。
- ニューラルアーキテクチャ探索研究:自動化されたアーキテクチャ探索(MAE-NAS)と効率的な再パラメータ化バックボーンが検出性能に及ぼす影響の検討。
Ultralytics YOLO26)を選択すべきタイミング
ほとんどの新規プロジェクトにおいて、Ultralytics パフォーマンスと開発者体験の最適な組み合わせを提供します:
- NMSデプロイメント:ノンマキシマムサプレッション(NMS)後処理の複雑さを伴わずに、一貫した低遅延推論を必要とするアプリケーション。
- CPU: GPU を持たないデバイスにおいて、YOLO26のCPU 決定的な優位性を提供する。
- 小型物体検出: ドローン航空写真やIoTセンサー解析といった困難なシナリオにおいて、ProgLossとSTALが微小物体の精度を大幅に向上させる。
未来:YOLO26への移行
YOLOv9 YOLO 歴史的な重要なマイルストーンYOLO 、現代のコンピュータビジョンはネイティブのエンドツーエンドアーキテクチャへと移行している。新たな開発においては、 YOLO26 が推奨される標準です。
2026年にリリースされたYOLO26は、前世代の成功を基盤とし、精度と導入の簡便性の両面で飛躍的な向上を実現しています。
YOLO26の主要なイノベーション
- エンドツーエンドNMS設計:YOLO26は非最大抑制(NMS)後処理を完全に排除します。これにより、ネイティブにエンドツーエンドな効率化されたデプロイメントパイプラインが実現され、これは YOLOv10によって初めて実現された画期的なものです。
- DFL除去:配線焦点損失を除去し、エクスポートを簡素化するとともに、エッジ/低電力デバイスとの互換性を向上させました。
- 最大43%CPU :複雑な後処理を排除し、コア畳み込みを最適化することで、YOLO26は専用GPUを欠くエッジコンピューティング環境に特に適しています。
- MuSGDオプティマイザー:LLMトレーニングの革新に着想を得たYOLO26は、SGD (MuSGD)のハイブリッド手法を採用し、より安定したトレーニング実行と顕著に高速な収束時間を保証します。
- ProgLoss + STAL:これらの高度な損失関数は、小規模物体認識において顕著な性能向上をもたらし、YOLO26を高高度航空写真やIoTデバイスに最適化します。
現在調査中の方へ YOLO11 または YOLOv8 を調査している場合、YOLO26へのアップグレードにより、現在利用可能な最も最適化された最先端のビジョンAIフレームワークを活用できることが保証されます。
概要
適切なモデルの選択は、特定の運用上の制約条件によって異なります:
- YOLO、NAS駆動型最適化の興味深い一端を垣間見せており、そのRepGFPNアーキテクチャが真価を発揮する特定のハードウェア構成において、競争力のある速度を実現します。
- YOLOv9 は、微細な視覚的詳細の保持に焦点を当てる研究者にとって優れた選択肢であり、PGIアーキテクチャを活用することで深層ネットワークにおける情報損失を防止します。
- Ultralytics 、現代の企業および研究用途における決定的な選択肢です。比類のない使いやすさ、NMSアーキテクチャ、そして最先端のMuSGDトレーニング最適化により、コンピュータビジョン分野において最も信頼性が高く、正確で、容易に展開可能なモデルとなっています。