YOLOv9 YOLO: リアルタイム物体検出の進歩
リアルタイム物体検出の進化は、精度と遅延の最適なバランスを絶えず追求する過程で特徴づけられてきた。本詳細比較では、二つの重要なアーキテクチャを検証する: YOLOv9(プログラマブル勾配情報(PGI)と汎用効率的層集約ネットワーク(GELAN)で知られる)と、ニューラルアーキテクチャ検索(NAS)と再パラメータ化技術によって最適化されたモデルYOLO。
また、最新世代のYOLO26も紹介します。これはエンドツーエンドのNMS設計とエッジデバイス向け最適化により、これらの限界をさらに押し広げています。
比較パフォーマンス指標
以下の表は、COCO データセットにおける主要な性能指標の直接比較を示しています。YOLOv9 、同等のモデルサイズにおいて優れたパラメータ効率と、多くの場合より高い精度YOLOv9 。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv9: プログラマブル勾配情報
YOLOv9 深層学習アーキテクチャ設計における大きな飛躍を示し、深層ネットワークに内在する情報ボトルネック問題に対処する。
- 著者: Chien-Yao Wang、Hong-Yuan Mark Liao
- 組織:中央研究院情報科学研究所
- 日付: 2024-02-21
- Arxiv:YOLOv9: Programmable Gradient Informationを使用して学びたいものを学習
- GitHub:WongKinYiu/yolov9
主要なアーキテクチャ革新
- プログラマブル勾配情報(PGI):ネットワークが深くなるにつれ、重要な特徴情報がフィードフォワード過程で失われることが多い。PGIは補助的な可逆分岐を導入し、学習中に主分岐へ信頼性の高い勾配情報を提供する。これによりネットワークは正確な検出に必要な本質的特徴を保持し、「情報ボトルネック」問題を推論コストを追加せずに効果的に解決する。
- GELAN Backbone:一般化効率的層集約ネットワーク(GELAN)は、CSPNetとELANの優れた側面を融合したものです。柔軟な計算ブロック選択(ResBlocksやCSPブロックなど)を可能にしつつ、パラメータ利用率を最大化します。これにより、軽量でありながら非常に強力なモデルが実現されます。
これらの革新により、YOLOv9 汎用的な物体検出においてYOLOv9 効果的であり、特に複雑なシーンにおける微細な詳細の保持に優れている。
YOLO: 神経アーキテクチャ探索の最適化
YOLO、効率的なアーキテクチャを自動的に発見し、性能向上のために蒸留技術を活用することに焦点を当てています。
- 著者:徐賢哲、江一琪、陳偉華、黄一倫、張元、孫秀宇
- 組織: Alibaba Group
- 日付: 2022-11-23
- Arxiv:DAMO-YOLO: リアルタイム物体detectデザインに関するレポート
- GitHub:tinyvision/DAMO-YOLO
アーキテクチャのハイライト
YOLO 、バックボーンであるMAE-NASを構築するためにニューラルアーキテクチャサーチ(NAS)と呼ばれるYOLO 。この手法は、特定の遅延制約内で最適なネットワーク構造を見つけることを目的としている。さらに、異なるスケールにわたる特徴を融合するために効率的なRepGFPN(再パラメータ化汎用特徴ピラミッドネットワーク)を採用している。 本モデルは「ZeroHead」とディスティレーション強化にも大きく依存しており、より大規模な教師モデルが小規模な生徒モデルの訓練を導くことで精度向上を図っています。
革新的ではあるものの、NASと複雑な抽出パイプラインへの依存は、YOLOv9のモジュール設計と比較して、結果の再現やカスタムタスク向けのアーキテクチャ変更をより困難にする可能性がある。
Ultralytics :エコシステムと使いやすさ
両アーキテクチャは理論的に強力な貢献を提供しますが、開発者にとっての実践的な体験は大きく異なります。Ultralytics (YOLOv9 YOLO26を含む)Ultralytics 、シームレスな「摩擦ゼロ」の体験を提供します。
効率化されたワークフロー
YOLO トレーニングには、複雑な設定ファイルや特定の環境設定(PaddlePaddle CUDA PaddlePaddle )が必要となることがよくあります。これに対し、Ultralytics Python ワークフローを標準化します。最先端モデルを数分で読み込み、トレーニングし、デプロイできます。
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
汎用性とタスクサポート
Ultralytics バウンディングボックスに限定されません。このフレームワークはインスタンスセグメンテーション、姿勢推定、およびオリエンテッドバウンディングボックス(OBB)検出をネイティブにサポートしています。この汎用性により、チームは新たなライブラリを習得することなくタスク間を柔軟に切り替えられます。一方、YOLO 主に標準的な検出に焦点をYOLO 、これらの複雑な下流タスクに対する統合サポートは限定的です。
トレーニング効率とメモリ
Ultralytics YOLO 効率性を重視して設計されています。トランスフォーマーを多用するアーキテクチャや、不規則なメモリアクセスパターンを持つ可能性のあるNAS生成モデルと比較して、トレーニングGPU 一般的に少なくて済みます。これにより研究者は一般向けハードウェア上で堅牢なモデルをトレーニングでき、ハイエンドなコンピュータビジョン技術へのアクセスが民主化されます。
現実世界のアプリケーション
適切なモデルの選択は、導入上の制約と性能目標によって決まります。
YOLOv9の理想的な使用例
- 小売分析:YOLOv9cの高い精度は、遮蔽が頻繁に発生する混雑した棚における商品検出に極めて優れている。
- 医療画像診断:PGIアーキテクチャは重要な特徴情報を保持するのに役立ち、医療スキャンにおける微小な異常の検出や骨折の特定において極めて重要です。
- 汎用監視:高いmAP 妥当なFPSのバランスが求められる標準的なセキュリティ映像向け。
YOLOの理想的な使用例
- 制限付きハードウェア検索:標準的な基盤が機能しない非常に特殊なハードウェア制約に特化した基盤を特定するため、NASに関する調査を実施している場合。
- 学術的ベンチマーキング:蒸留技術の有効性と構造的再パラメータ化を比較する研究者向け。
なぜYOLO26が未来なのか
2026年に新規プロジェクトを開始する開発者にとって、YOLO26は最も魅力的な機能セットを提供します。YOLOv9 基盤YOLOv9 エンドツーNMS設計を導入。これにより、非最大抑制(NMS)後処理が不要となり、特にエッジデバイスにおいて、デプロイメントの大幅な簡素化とレイテンシの低減を実現します。
YOLO26の主な革新点には以下が含まれます:
- MuSGDオプティマイザ: SGD ハイブリッド手法。学習を安定化させ収束を加速し、大規模言語モデル(LLM)の学習安定性をビジョン学習にもたらす。
- DFL除去:ディストリビューションフォーカルロスを除去することでモデルグラフが簡素化され、 ONNX や TensorRT へのエクスポートを円滑にします。
- 強化された小物体検出:ProgLossとSTALにより、YOLO26は航空写真とドローン応用において優れた性能を発揮する。
将来を見据えたデプロイメント
YOLO26への移行により、アプリケーションはエッジ最適化における最新の進歩の恩恵を受けられます。ネイティブなエンドツーエンド設計により、CPUおよびNPU上での推論が高速化され、これはバッテリー駆動のIoTデバイスにとって極めて重要です。
結論
YOLO ニューラルアーキテクチャ探索と蒸留に関する興味深い概念YOLO 、 YOLOv9 およびより新しいYOLO26は、コンピュータビジョンアプリケーションの大多数に対して、より実用的で強力かつユーザーフレンドリーなソリューションを提供します。Ultralytics は、豊富なドキュメントとコミュニティサポートに支えられ、開発者がモデルのトレーニング、追跡、デプロイに最適なツールを利用できるように保証します。
モデルアーキテクチャのさらなる調査については、YOLOv10 YOLO、 YOLO11 YOLOv9の比較レビューをご参照ください。