YOLOv9 YOLOv8:物体検出の技術比較
最適な物体検出モデルを選択するには、アーキテクチャの革新性と実用的な展開ニーズのバランスを取る必要がある。この技術比較では YOLOv9と、新しい勾配情報技術を導入した研究に特化したモデルである Ultralytics YOLOv8を分析する。それぞれのアーキテクチャー、COCO データセットでの性能指標、理想的な使用例を検証し、どのモデルがあなたのコンピュータビジョンパイプラインに合うかを判断するのに役立ちます。
YOLOv9:斬新なアーキテクチャーで情報ロスに対応
2024年初頭にリリースされるYOLOv9 、ディープ・ニューラル・ネットワークにおける情報損失という根本的な問題をターゲットにしている。ネットワークが深くなるにつれて、重要な入力データが最終層に到達する前に消えてしまうことがあり、学習プロセスが複雑になる。
- 著者: Chien-Yao Wang、Hong-Yuan Mark Liao
- 組織台湾中央研究院情報科学研究所
- Date: 2024-02-21
- ArxivarXiv:2402.13616
- GitHub:YOLOv9 リポジトリ
- ドキュメントUltralytics YOLOv9 ドキュメント
重要なイノベーションPGIとGELAN
YOLOv9 、情報のボトルネックに対処するために、主に2つのアーキテクチャ上の進歩を導入している:
- プログラム可能な勾配情報(PGI):ネットワークの重みを更新するための信頼性の高い勾配を生成する補助的なスーパービジョンのフレームワーク。非常に深いモデルの学習に特に効果的。
- Generalized Efficient Layer Aggregation Network(GELAN): パラメータ効率と計算速度(FLOPs)を優先した軽量ネットワークアーキテクチャ。GELANにより、YOLOv9 推論速度を維持したまま高精度を達成することができる。
強みと限界
YOLOv9 アカデミックなベンチマークに優れている。 YOLOv9-E トップクラスを達成するバリアント mAP スコア.検出精度の限界に挑戦しようとする研究者にとっては、優れた選択肢である。しかし、研究に深く根ざしたモデルであるため、より成熟したエコシステムに見られる広範なマルチタスクサポートには欠けている。その主な実装はバウンディングボックスの検出に重点を置いており、トレーニングワークフローは、合理化された産業用ソリューションと比較して、より多くのリソースを必要とする可能性があります。
Ultralytics YOLOv8:プロダクションAIのスタンダード
Ultralytics YOLOv8は、Vision AIへの総合的なアプローチです。YOLOv8 、単一の指標のみに焦点を当てるのではなく、最高のユーザーエクスペリエンス、デプロイの多様性、パフォーマンスバランスを提供するように設計されています。YOLOv8は広範なUltralytics エコシステムの一部であり、あらゆるレベルの開発者が堅牢で使いやすいことを保証します。
- 著者: Glenn Jocher, Ayush Chaurasia, Jing Qiu
- 組織Ultralytics
- Date: 2023-01-10
- GitHub:Ultralytics リポジトリ
- ドキュメントUltralytics YOLOv8 ドキュメント
アーキテクチャとエコシステムの利点
YOLOv8 、アンカーフリーの検出ヘッドとC2f(Cross-Stage Partial bottleneck with 2 convolutions)バックボーンを採用し、フットプリントを軽量化しながら勾配フローを向上させている。アーキテクチャだけでなく、YOLOv8の強みはその統合性にある:
- 使いやすさ:統一されたPython APIとコマンドラインインターフェイス(CLI)により、モデルのトレーニングとデプロイはわずか数行のコードで完了します。
- 汎用性:検出のみに限定されがちな競合他社とは異なり、YOLOv8 インスタンスセグメンテーション、ポーズ推定、OBB(Oriented Bounding Boxes)、画像分類をネイティブにサポートしています。
- パフォーマンスのバランス: NVIDIA ジェットソンやラズベリーパイのようなエッジデバイスでのリアルタイム推論に適しています。
- メモリ効率: YOLOv8 通常、トランスフォーマーベースのアーキテクチャと比較して、トレーニング時に必要なCUDA メモリが少なく、ハードウェアへの参入障壁が低くなります。
統合ワークフロー
Ultralytics モデルは、可視化のためのTensorBoardや実験追跡のためのMLflowのようなツールとシームレスに統合され、MLOpsのライフサイクルを合理化します。
性能分析:速度、精度、効率
モデル間の選択は、多くの場合、スピードと純粋な精度に関する特定のプロジェクト要件に帰着する。下の表は、COCO 検証セットの標準的なバリエーションを比較したものです。
| モデル | サイズ (ピクセル) | mAP値 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
主なポイント
- ハイエンドの精度: The
YOLOv9eモデルは55.6%という驚異的なmAP達成し、これを上回った。YOLOv8x.最も困難な物体を検出する必要があり、遅延が二の次になるようなアプリケーションであれば、YOLOv9eは強力な候補となる。 - リアルタイムのスピード: 速度に依存する用途向け、
YOLOv8nおよびYOLOv8s優れたパフォーマンスを示す。YOLOv8nには特に効果的である。 モバイル配備CPU GPU両方で驚くほど高速な軽量ソリューションを提供する。 - デプロイメント準備この表は、GPU 環境にとって重要な指標であるYOLOv88のCPU ONNX 速度を強調しています。このデータの透明性は、YOLOv8広範な導入シナリオを想定して設計されていることを反映しています。一方、YOLOv9 、主に研究用途のV100やT4のようなハイエンドGPUでベンチマークされることがよくあります。
トレーニングとユーザビリティ
最も大きな違いのひとつは、開発者のエクスペリエンスにある。Ultralytics 「バッテリー込み」のアプローチを優先している。
Ultralyticsシンプルさ
YOLOv8 モデルのトレーニングには最小限のセットアップしか必要ない。ライブラリは、データの増強、ハイパーパラメータのチューニング、および事前に訓練された重みのダウンロードを自動的に処理します。
from ultralytics import YOLO
# Load a pre-trained YOLOv8 model
model = YOLO("yolov8n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
研究の複雑さ
YOLOv9 Ultralytics コードベースに統合され、より簡単にアクセスできるようになりましたが、オリジナルの研究リポジトリでは、複雑な環境設定や手作業によるハイパーパラメータの管理が必要になることがよくあります。Ultralytics 整備されたエコシステムは、YOLOv8 使うにしても、移植されたYOLOv9使うにしても、安定したCI/CDパイプライン、豊富なドキュメント、Discordを通じたコミュニティ・サポートの恩恵を確実に受けることができる。
理想的なユースケース
YOLOv9 選ぶなら
- 最大精度が重要: 医療画像解析(腫瘍検出など)のように、mAP パーセンテージが重要なプロジェクト。
- 学術研究:PGIのような新しいアーキテクチャの研究や、ニューラルネットワークの効率に関する比較研究を行っています。
- ハイ・コンピューティング環境:導入対象は、より高いFLOPが許容される強力なサーバー(NVIDIA A100など)です。
以下の場合、Ultralytics YOLOv8 を選択してください:
- 多様なタスクが必要:1つのプロジェクト構造の中で、オブジェクトトラッキング、セグメンテーション、またはポーズ推定を実行する必要があります。
- エッジ・デプロイメント: スマートカメラやドローンなど、メモリやCPU サイクルが限られているハードウェア上で動作するアプリケーション。
- 迅速な開発: ONNX、TensorRT、OpenVINOようなエクスポート形式を使用して、コンセプトから生産まで迅速に移行する必要がある新興企業や企業チーム。
- 安定性とサポート:頻繁なアップデートに裏打ちされたモデルと、問題のトラブルシューティングを効率的に行うための大規模なコミュニティが必要です。
結論
一方 YOLOv9は素晴らしい理論的進歩を導入し、高い検出精度を達成している、 Ultralytics YOLOv8は、実際のアプリケーションの大部分にとって、より実用的な選択肢であり続けています。そのスピード、精度、多用途性のバランスは、ユーザーフレンドリーなAPIと効率的なトレーニングプロセスと相まって、開発者にとって最適なソリューションとなっています。
Ultralytics 最新ラインナップをお探しなら YOLO11をご検討ください。YOLO11は、これらの特性をさらに洗練させ、最先端のパフォーマンスを実現します。しかし、ここで取り上げた2つのモデルのうち、YOLOv8 洗練されたプロダクション・レディな体験を提供し、データから展開までの道のりを加速させる。
その他のモデルを見る
他のアーキテクチャに興味がある場合は、Ultralytics ドキュメントに他のいくつかのモデルの比較が掲載されている:
- RT-DETR:高精度を提供する変圧器ベースの検出器だが、要求されるリソースが異なる。
- YOLOv5:極めて高い安定性と幅広い採用率で知られる伝説の先代モデル。
- YOLO11:Ultralytics最新版で、効率をさらに押し上げる。