YOLOv8対YOLOv5:包括的な技術比較
適切なコンピュータビジョンアーキテクチャの選択は、堅牢な機械学習パイプラインを構築する上で極めて重要なステップです。この詳細な技術比較では、ビジョンAIエコシステムで最も人気のある2つのモデル、YOLOv8とYOLOv5の違いを解説します。両モデルはUltralyticsによって開発され、リアルタイム物体検出の分野を大きく形作り、速度、精度、使いやすさの面で業界標準を確立しました。
エッジデバイスへのデプロイであれ、クラウド推論のスケールアップであれ、これらのモデルのアーキテクチャの変遷、パフォーマンス指標、トレーニング方法論を理解することは、コンピュータビジョンプロジェクトにおいて情報に基づいた決定を下すのに役立ちます。
Ultralytics YOLOv8: 汎用性の高い標準
2023年初頭にリリースされたYOLOv8は、その前身からの主要なアーキテクチャの移行を象徴するものでした。これは、インスタンスセグメンテーション、画像分類、姿勢推定など、複数のビジョンタスクをネイティブに処理できる統一フレームワークとしてゼロから設計されました。
- 著者: Glenn Jocher, Ayush Chaurasia, and Jing Qiu
- 組織: Ultralytics
- 日付: 2023-01-10
- GitHub: ultralytics/ultralytics
- ドキュメント: YOLOv8 ドキュメント
アーキテクチャと手法
YOLOv8 introduced an anchor-free detection head, which simplifies the training process by eliminating the need to manually configure anchor boxes based on dataset distribution. This makes the model more robust when generalizing to custom datasets and reduces the number of box predictions, speeding up Non-Maximum Suppression (NMS).
このアーキテクチャは、YOLOv5のC3モジュールを置き換えるC2fモジュール(2つの畳み込みを備えたCross-Stage Partialボトルネック)を特徴としています。C2fモジュールは勾配の流れを改善し、計算コストを大幅に増やすことなく、より豊富な特徴表現を学習可能にします。さらに、YOLOv8はデカップルヘッド構造を採用しており、物体性、分類、回帰のタスクを分離することで、収束速度と精度の向上が示されています。
YOLOv8を含むUltralytics YOLOモデルは、RT-DETRのようなTransformerベースの代替モデルと比較して、トレーニング中のCUDAメモリ使用量が抑えられるように最適化されています。これにより、開発者はNVIDIA RTXシリーズのような一般的なコンシューマー向けGPUで、より大きなバッチサイズを使用できるようになります。
長所と短所
強み:
- 単純なバウンディングボックス検出を超えた、複数のタスクにわたる比類のない汎用性。
ultralyticsパッケージによる合理化されたPython APIにより、トレーニングやエクスポートが非常に直感的になっています。- Higher mean Average Precision (mAP) across all size variants compared to YOLOv5.
弱み:
- デカップルヘッドとC2fモジュールの導入により、一部のバリエーションでは、対応するYOLOv5モデルと比較してパラメータ数とFLOPsがわずかに増加しています。
Ultralytics YOLOv5:アジャイルな先駆者
2020年に発表されたYOLOv5は、YOLOをPyTorchエコシステムにもたらし、開発者のアクセシビリティを劇的に向上させました。これは急速に、高速で信頼性が高く、デプロイが容易な物体検出モデルの業界標準となりました。
- 作成者: Glenn Jocher
- 組織: Ultralytics
- 日付: 2020-06-26
- GitHub: ultralytics/yolov5
- ドキュメント: YOLOv5 Documentation
アーキテクチャと手法
YOLOv5はアンカーベースのアーキテクチャに依存しており、修正版のCSPDarknet53バックボーンを利用しています。アンカーベースの手法では、トレーニング前にデータセットのバウンディングボックスを適切にクラスタリングして最適なアンカーを定義する必要がありますが、特定の十分に定義されたデータセットに対しては非常に効果的です。
YOLOv5は、低いパラメータフットプリントを維持しつつ効率的に特徴を抽出するC3モジュールを組み込んでいます。その損失関数は、ネットワークが正確な予測を行うよう導くために、Objectness(物体らしさ)損失と、分類およびバウンディングボックス回帰損失を組み合わせています。
長所と短所
強み:
- Extremely lightweight, making the Nano (YOLOv5n) and Small (YOLOv5s) variants highly suitable for resource-constrained edge AI deployments.
- 特にCPU上での非常に高速な推論速度。
- 広範なコミュニティチュートリアルやサードパーティ統合を備えた、深く確立されたエコシステム。
弱み:
- アンカーボックスの設定が必要であり、非常に多様なデータセットやカスタムデータセットではセットアップが複雑になる可能性があります。
- YOLOv8やYOLO26のような現代のアンカーフリーアーキテクチャと比較して、全体的な精度(mAP)は低めです。
パフォーマンスの比較
これらのモデルを評価する際、速度と精度の間の好ましいトレードオフを実現することが最優先事項です。以下の表は、COCOデータセットで評価された両アーキテクチャのパフォーマンス指標をまとめたものです。CPU速度はONNXを使用して測定され、GPU速度はTensorRTを使用してテストされました。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
YOLOv5はNanoバリエーションにおいてパラメータ数と生の推論速度でわずかに優位性を保っていますが、YOLOv8はあらゆる面でmAPが大幅に向上しており、厳しい実際のデプロイメントシナリオにおいて、より強力なパフォーマンスバランスを提供します。
使いやすさとUltralyticsのエコシステム
現代のUltralyticsモデルの決定的な特徴は、それを取り巻くよく整備されたエコシステムです。YOLOv5からYOLOv8への移行に伴い、統一されたultralytics pipパッケージが導入され、非常に効率化されたユーザー体験が実現しました。
開発者は、モデルのトレーニング、検証、予測、エクスポートをわずか数行のPythonコードでシームレスに処理でき、深層学習プロジェクトで従来必要とされていた複雑なボイラープレートスクリプトを回避できます。
from ultralytics import YOLO
# Load a pretrained YOLOv8 model
model = YOLO("yolov8n.pt")
# Train the model on custom data efficiently
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Export the model to ONNX for production deployment
path = model.export(format="onnx")さらに、Ultralytics Platformのようなツールとの統合により、データセット管理、クラウドトレーニング、デプロイメントが簡素化され、活発な開発と強力なコミュニティサポートが保証されています。
理想的な使用ケース
YOLOv5を選択すべき場合: レガシーシステムを維持している場合、Raspberry Piのような厳しく制限されたCPUで推論を実行している場合、あるいはモデルサイズの数メガバイトの節約が極めて重要なプロジェクトに取り組んでいる場合、YOLOv5は依然として信頼できる強力なツールです。
YOLOv8を選択すべき場合: 今日開始される事実上すべての新しいプロジェクトにおいて、YOLOv5よりもYOLOv8が強く推奨されます。その高度なアーキテクチャは、複雑なトラッキング、回転バウンディングボックス (OBB)、セグメンテーションを難なく処理します。自律ロボットから医療画像解析、スマートシティインフラに至るまで、現代のアプリケーションに最適です。
YOLOv8は非常に高性能ですが、究極のパフォーマンスを求める開発者は**YOLO26**を検討すべきです。2026年にリリースされたこのモデルは、いくつかの画期的な進歩を導入しています:
- エンドツーエンドのNMSフリー設計: NMS後処理を排除することで、YOLOv10で初めて開拓されたコンセプトである、より高速でシンプルなデプロイメントを実現しています。
- MuSGDオプティマイザ: SGDとMuonのハイブリッドであり、LLMトレーニングのイノベーションをコンピュータビジョンにもたらし、より安定したトレーニングと高速な収束を可能にします。
- 最大43%高速なCPU推論: 専用GPUを持たないエッジコンピューティング環境向けに大幅に最適化されています。
- DFLの削除: Distribution Focal Lossが削除され、エクスポートが簡素化され、エッジデバイスとの互換性が向上しました。
- ProgLoss + STAL: 小物体認識において顕著な改善をもたらす高度な損失関数であり、航空画像やIoTにとって極めて重要です。
Ultralyticsが提供する包括的なドキュメントとツールを活用することで、YOLOv8を簡単にデプロイしたり、最先端のYOLO26を検討したりして、複雑な視覚課題をかつてない速度と精度で解決できます。さらに学習を進めるには、ハイパーパラメータチューニングやモデルデプロイの実践に関するガイドをご確認ください。