YOLOv9 YOLOv6.0:アーキテクチャの革新と性能分析
リアルタイム物体検出の技術は急速に進化しており、研究者たちは精度と効率の限界を絶えず押し広げている。この進化における二つの重要なマイルストーンは YOLOv9と、2023年に美図(Meituan)が発表した堅牢なYOLOv60である。両モデルとも産業課題の解決を目的としているが、高性能を実現するためのアーキテクチャアプローチは根本的に異なる。
建築哲学
これら二つのモデルの中核的な違いは、ニューラルネットワーク全体における情報の流れと特徴量の抽出をどのように管理するかにあります。
YOLOv9: 失われた情報の復元
YOLOv9 深層学習における根本的な問題、すなわちデータが深層層を通過する際に生じる情報損失に対処する。著者であるChien-Yao WangとHong-Yuan Mark Liaoは、プログラマブル勾配情報(PGI)を導入した。PGIは補助的な教師情報ブランチを提供し、重要な意味情報を確実に保持することで、推論コストを追加することなく、モデルがより頑健な特徴を学習できるようにする。
さらに、YOLOv9 はGELAN(Generalized Efficient Layer Aggregation Network)アーキテクチャYOLOv9 。GELANはパラメータ利用率を最適化し、CSPNetとELANの強みを組み合わせることで、従来世代と比較して少ないFLOPsで優れた精度を達成する。
YOLOv6-3.0: 産業向け最適化
美団ビジョンチームが開発したYOLOv6、実用的な産業展開に重点を置いている。「全面的な刷新」と称されるこのバージョンでは、アンカーベース検出器とアンカーフリー検出器の利点を 組み合わせたアンカー補助学習(AAT)を導入し、学習の安定化を実現した。さらに双方向連結(BiC)を用いた改良型ネック設計を採用し、特徴融合の精度を向上させている。
YOLOv6 、RepVGGスタイルの再パラメータ化を多用することでYOLOv6 、複雑な学習構造を単純で高速な推論ブロックに集約することを可能にしている。
パフォーマンス比較
性能比較において、YOLOv9 同等または低い計算コストでYOLOv9 高い平均精度(mAP)を示す。GELANアーキテクチャYOLOv9 高効率で画像YOLOv9 処理YOLOv9 、高精度を要するタスクにおいて有力な選択肢となる。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
YOLOv6.YOLOv6 TensorRT 競争力のあるTensorRT を示す(主にハードウェアに優しいバックボーン設計による)一方、YOLOv9 パラメータあたりの精度がより高い。例えば、YOLOv9m YOLOv6.YOLOv6精度が優れている(51.4% 対 50.0%)一方で、使用するパラメータ数は大幅に少ない(20.0M 対 34.9M)。
エコシステムと使いやすさ
開発者にとって最も重要な要素の一つは、モデルを取り巻くエコシステムである。この点において、Ultralytics 明確な優位性を提供する。
Ultralyticsの利点
YOLOv9 Ultralytics に完全にYOLOv9 、機械学習運用(MLOps)のライフサイクル全体を簡素化する統一APIを提供します。
- シンプルなトレーニング:わずか数行のPythonコードで、カスタムデータを用いたYOLOv9 トレーニングが可能です。
- メモリ効率: Ultralytics 、トレーニングGPU 使用量を低減するよう最適化されており、他のリポジトリでよく発生するメモリ不足(OOM)エラーを防ぎます。
- 汎用性:このエコシステムは、 ONNX、 OpenVINO、および TensorRT。
効率化されたワークフロー
Ultralytics することで、スタンドアロンのリサーチリポジトリを設定する場合と比較して、大幅なエンジニアリング時間をUltralytics 。
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train on a custom dataset with default augmentations
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
一方、YOLOv6 を利用するには、YOLOv6 、特定の美团リポジトリをクローンし、専用の環境を設定し、設定ファイルやデータ拡張パイプラインを手動で管理する必要がある。
現実世界のアプリケーション
これらのモデル間の選択は、多くの場合、導入環境の具体的な制約によって決まります。
高精度シナリオ (YOLOv9)
YOLOv9セマンティック情報を保持する能力は、細部が重要な困難な検出タスクに最適である。
- 医療画像処理: 腫瘍検出などのタスクにおいて、PGIアーキテクチャは深層ネットワーク層で失われがちな微弱な特徴を保持するのに役立つ。
- 航空監視: ドローン画像から車両や人物などの小型物体を検出する場合、YOLOv9強化された特徴保持機能により再現率が向上します。
産業用オートメーション (YOLOv6.0)
YOLOv6 、ハードウェアが固定されスループットが最優先される産業用途向けに明示的に設計YOLOv6 。
- 製造ライン: バッテリー製造のような制御された環境では、カメラがコンベアベルト上の部品を検査する際に、YOLOv6 のTensorRT が非常に効果YOLOv6
今後の展望: YOLO26の力
YOLOv9 YOLOv6.YOLOv6優れたモデルですが、この分野は進化を続けています。最新の YOLO26 は、速度、精度、使いやすさの究極のバランスを求める開発者にとって、現在の最先端技術を表しています。
YOLO26はいくつかの画期的な機能を導入します:
- エンドツーエンドNMS: 非最大抑制(NMS)を排除することで、YOLO26はデプロイメントパイプラインを簡素化し、レイテンシ変動を低減します。
- MuSGD オプティマイザー:SGD とミューオンのハイブリッドであり、大規模言語モデル(LLM)のトレーニングに着想を得た安定性の改善をもたらします。
- 効率の向上:分布焦点損失(DFL)の除去やその他の最適化により、YOLO26 CPU 最大43%高速化。ラズベリーパイなどのエッジデバイスに最適です。
- タスクの汎用性:検出機能に加え、YOLO26は姿勢推定(残差対数尤度推定を用いた)およびセグメンテーションに特化した改良を提供します。
結論
両方 YOLOv9 とYOLOv6.YOLOv6どちらも優れた性能を発揮します。YOLOv6.0YOLOv6特定のTensorRTワークフローにおいて依然として有力な選択肢です。しかし、ほとんどの研究者や開発者にとっては、 YOLOv9 は優れたパラメータ効率と精度を提供します。さらに、Ultralytics の一部であることで、長期的なサポート、事前学習済み重みへの容易なアクセス、そしてYOLO26のような新しいアーキテクチャへのシームレスなアップグレードパスが保証されます。
参考文献
- YOLOv9:Wang, C.-Y., & Liao, H.-Y. M. (2024). 「YOLOv9: 学習可能な勾配情報を用いて学習したいことを学習する」.arXiv:2402.13616.
- YOLOv6 .0:Li, C. 他 (2023). 「YOLOv6 .0: 完全な再構築」.arXiv:2301.05586.
- Ultralytics :ultralytics