Link to this sectionYOLOv5とYOLOv9:詳細な技術比較#
コンピュータビジョンとリアルタイム物体検出の分野は、過去数年間で目覚ましい進歩を遂げました。確立され、実戦で鍛えられたモデルと、より新しい研究用アーキテクチャのどちらを選択するかは、機械学習エンジニアにとって共通の課題です。本ガイドでは、YOLOファミリーの中でも非常に影響力の大きい2つのモデル、YOLOv5とYOLOv9を包括的に技術比較します。
制約のあるエッジデバイスへのデプロイ、高精度な特徴抽出の研究、あるいは複雑な物体検出パイプラインの構築など、いずれの場合においても、これらのモデルのアーキテクチャの微妙な違い、パフォーマンス指標、およびエコシステムの違いを理解することは極めて重要です。
Link to this sectionモデルの概要#
アーキテクチャの比較に入る前に、各モデルの起源と主要な目的を理解しておくと役立ちます。
Link to this sectionUltralytics YOLOv5#
Glenn Jocher氏によって開発され、2020年6月26日にUltralyticsからリリースされたYOLOv5は、開発者がビジョンモデルとどのように対話するかという点においてパラダイムシフトをもたらしました。PyTorchフレームワークを全面的に採用することで、YOLOv5は従来のDarknetベースのモデルに見られた複雑なコンパイル手順を廃し、直感的でPythonを最優先したユーザー体験を実現しました。
- 作成者: Glenn Jocher
- 組織: Ultralytics
- 日付: 2020-06-26
- GitHub: YOLOv5リポジトリ
- ドキュメント: YOLOv5ドキュメント
YOLOv5は、その使いやすさと多様なハードウェア環境における安定したパフォーマンスで知られています。検出だけでなく、画像分類やインスタンスセグメンテーションにも対応しています。
Link to this sectionYOLOv9#
台湾の中央研究院情報科学研究所のChien-Yao Wang氏とHong-Yuan Mark Liao氏によって導入されたYOLOv9は、ディープニューラルネットワークにおける情報ボトルネック問題を軽減するためのアーキテクチャ理論に重点を置いています。
- 著者: Chien-Yao Wang および Hong-Yuan Mark Liao
- 組織: 台湾 中央研究院 情報科学研究所
- 日付: 2024-02-21
- Arxiv: 2402.13616
- GitHub: YOLOv9リポジトリ
- ドキュメント: YOLOv9ドキュメント
YOLOv9の核心は、Programmable Gradient Information (PGI) と Generalized Efficient Layer Aggregation Network (GELAN) という2つの主要な理論的革新に基づいています。これらの概念は、モデルが深いネットワーク層を通じて重要な空間的特徴を保持するのに役立ちます。
YOLOv5とYOLOv9はどちらも強力ですが、新たにリリースされたYOLO26は、速度と精度の究極のバランスを体現しています。エンドツーエンドのNMSフリー設計と、最大43%高速なCPU推論を特徴とするYOLO26は、現代のエッジコンピューティングや本番環境でのデプロイメントに強く推奨されます。
Link to this sectionアーキテクチャおよび技術的な違い#
これらのビジョンモデルの内部構造を理解することは、モデルデプロイメント戦略を最適化するために不可欠です。
Link to this section特徴抽出と情報の保持#
YOLOv5はCross Stage Partial Network (CSPNet) バックボーンを利用しており、バックプロパゲーション中の正確な勾配フローを維持しながら、計算のオーバーヘッドを効果的に削減します。この設計は、従来のGPUオペレーションに高度に最適化されており、重いTransformerベースの代替案と比較して、トレーニング時のメモリ要件を低く抑えることができます。
YOLOv9では、CSPNetの原則を拡張した汎用アーキテクチャであるGELANが導入されています。補助的な可逆ブランチであるPGIと組み合わせることで、YOLOv9は深い層で正確な目的関数に必要なセマンティックデータを失うことがありません。これにより、YOLOv9は特に小さな物体に対して高い精度を達成できますが、複雑な補助ブランチが原因で、極めて制約の厳しいエッジハードウェアへのエクスポートパイプラインが困難になる場合があります。
Link to this sectionメモリ要件とトレーニング効率#
トレーニングの効率性に関しては、YOLOv5は極めて堅牢です。十分に管理されたUltralyticsエコシステムにより、YOLOv5モデルはCUDAメモリの消費量が大幅に抑えられており、研究者はコンシューマーグレードのGPUでバッチサイズを最大化できます。YOLOv9は優れたパラメータ効率(サイズに対する高い精度)を実現していますが、最適化されたフレームワークを使用しない場合、トレーニングプロセスでリソースをより多く消費する可能性があります。幸いなことに、YOLOv9をUltralytics APIに統合することで、YOLOv5の効率的なリソース管理に近づけることができます。
Link to this sectionパフォーマンスとメトリクス#
これらのアーキテクチャを客観的に評価するため、COCOなどの標準的なデータセットでパフォーマンスを比較します。以下は、mAP (Mean Average Precision)、推論速度、パラメータ数などの詳細な内訳です。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
表が示すように、YOLOv9は新しいアーキテクチャを反映し、同等の階層でより高い生の精度を達成しています。しかし、YOLOv5nは1.12msという非常に低いTensorRTレイテンシを維持しており、高速でローカライズされたエッジコンピューティングアプリケーションにおいて、その変わらぬ強みを発揮しています。
Link to this sectionトレーニング手法と使いやすさ#
今日のコンピュータビジョンを活用する真の利点は、ツールチェーンのアクセシビリティにあります。
Link to this sectionUltralyticsの利点#
YOLOv9のようなモデルの研究用リポジトリは基盤として重要ですが、多くの場合、複雑な依存関係マトリックスや定型コードが必要となります。Ultralytics Python APIは、この複雑さを完全に抽象化します。Ultralyticsエコシステムを使用すれば、YOLOv5とYOLOv9の両方を、同一の統一された構文でトレーニング、評価、エクスポートできます。
from ultralytics import YOLO
# Load a pre-trained YOLOv5 model for fast deployment
model_v5 = YOLO("yolov5s.pt")
# Or leverage a YOLOv9 model for high-fidelity accuracy
model_v9 = YOLO("yolov9c.pt")
# Train seamlessly on custom data with automatic MLflow logging
results = model_v9.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export the trained model to ONNX
model_v9.export(format="onnx")このシングルAPIアプローチは、選択したモデルに応じて、検出だけでなく姿勢推定や指向性バウンディングボックス (OBB)もサポートする、非常に高い汎用性を提供します。さらに、Comet MLやWeights & Biasesのようなツールとの強力な統合が、トレーニングループに直接組み込まれています。
Link to this section理想的なユースケースと実世界のアプリケーション#
これらのアーキテクチャのどちらを選択するかは、ハードウェアの制約と、アプリケーションドメインで要求される精度に大きく依存します。
Link to this sectionYOLOv5を選択すべき場合#
YOLOv5は、安定性、低いメモリフットプリント、極めて優れたエクスポート互換性を優先するデプロイメントにおいて真価を発揮する、実戦で鍛えられたベテランモデルです。
- モバイルデプロイメント: YOLOv5をTFLiteまたはCoreMLにエクスポートして、古いスマートフォンでオンデバイス推論を実行するのは非常にスムーズです。
- レガシーエッジハードウェア: Raspberry Piや初期世代のNVIDIA Jetson Nanoのようなデバイスにおいて、YOLOv5のシンプルな畳み込み処理は、スマート駐車場管理のようなアプリケーションで一貫したフレームレートを保証します。
- ラピッドプロトタイピング: コミュニティチュートリアル、カスタムの学習済み重み、および膨大なデータセットへの互換性が広く利用できるため、概念実証を検証する最も迅速な方法となります。
Link to this sectionYOLOv9を選択すべき場合#
YOLOv9は、わずかに多くの計算オーバーヘッドが必要であっても、複雑な詳細を捉え、偽陰性を最小限に抑えることが絶対に重要なシナリオに最適です。
- Aerial and Satellite Imagery: The PGI framework is highly adept at maintaining the fidelity of small objects, making YOLOv9 excellent for drone-based agricultural monitoring.
- 医療画像診断: 高解像度スキャンで微細な異常や病変を検出する場合、GELANの正確な勾配フローは、リコールにおいて必要なアドバンテージを提供します。
- ハイエンド小売分析: 商品が密集した棚で重なり合う製品を追跡することは、YOLOv9の優れた特徴保持能力の恩恵を大きく受けます。
Link to this section視野を広げる#
YOLOv5とYOLOv9を比較することで、2020年から2024年にかけてアーキテクチャがどのように進化したかが明確になりますが、AI分野はこれまで以上に速いスピードで進化しています。パフォーマンスの最前線を追求する開発者には、最新のYOLO26モデルを探求することを強く推奨します。従来のNMSをネイティブなエンドツーエンドのNMSフリー設計に置き換え、高度なMuSGDオプティマイザーを利用することで、YOLO26は研究レベルの精度とプロダクションレベルの速度の間のギャップを埋めます。DFL削除(エクスポートの簡素化とエッジ/低電力デバイスへの適応性向上のためにDistribution Focal Lossを削除)により、YOLO26は最大43%高速なCPU推論を達成しており、エッジコンピューティングに最適です。さらに、ProgLoss + STALは改善された損失関数を提供し、IoT、ロボット工学、航空画像にとって重要な小さな物体の認識能力において顕著な改善を実現しています。
また、これらのアーキテクチャと、RT-DETRや非常に高性能なYOLO11といった他の最先端モデルとの比較にも興味があるかもしれません。統一されたUltralyticsフレームワークを利用することで、どのモデルを選択しても、開発パイプラインをクリーンかつ効率的に保ち、拡張する準備が整います。