YOLOv5 vs YOLO11: 包括的な技術比較
新しいプロジェクトで適切なコンピュータビジョンのアーキテクチャを選択する際には、最先端モデルの進化を理解することが不可欠です。初期のアーキテクチャから現代の統合フレームワークへの変遷は、アルゴリズムの効率性と開発者体験の両面において重要な飛躍を示しています。本ガイドでは、Ultralyticsが開発した2つの画期的なモデル、先駆的なYOLOv5と高度に洗練されたYOLO11の技術的な比較を詳しく解説します。
モデルの紹介
これらのアーキテクチャはいずれもリアルタイム物体検出分野における重要なマイルストーンであり、デプロイメント環境やレガシー要件に応じてそれぞれ明確な利点を提供します。
YOLOv5: 業界の主力製品
2020年夏にリリースされたYOLOv5は、ネイティブなPyTorch実装によって業界標準となりました。これにより、学習とデプロイメントの参入障壁が劇的に下がりました。従来の複雑なDarknet Cフレームワークから脱却し、モデル構築に対してPython的なアプローチを提供しました。
- 著者: Glenn Jocher
- 組織: Ultralytics
- 日付: 2020-06-26
- GitHub: ultralytics/yolov5
- ドキュメント: YOLOv5 Documentation
YOLOv5は使いやすさの強力な基準を確立し、高度なモザイクデータ拡張や自動アンカーリングなどの強力な学習手法を導入しました。十分に文書化され、徹底的にテストされたコードベースを基盤とする研究者の間で、依然として非常に高い人気を誇っています。
YOLO11: 統合型ビジョンフレームワーク
長年のフィードバックとアーキテクチャ研究に基づいて構築されたYOLO11は、複数のビジョンタスクをネイティブに処理できる統合フレームワークの一部として導入されました。単なるバウンディングボックスを超え、最大限の汎用性と効率性を追求してゼロから設計されています。
- 著者: Glenn Jocher および Jing Qiu
- 組織: Ultralytics
- 日付: 2024-09-27
- GitHub: ultralytics/ultralytics
- ドキュメント: YOLO11 Documentation
YOLO11は、ultralytics Pythonパッケージを通じて合理化されたユーザー体験を提供します。物体検出、インスタンスセグメンテーション、分類、姿勢推定、および指向性バウンディングボックス(OBB)を統合するシンプルなAPIを誇ります。速度と精度の間で非常に有利なトレードオフを実現しており、多様な実世界のデプロイメントシナリオに最適です。
両モデルとも、Ultralytics Platformが提供する適切にメンテナンスされたエコシステムの恩恵を受けています。この統合環境により、データセットのアノテーション、クラウド学習、および様々なハードウェアターゲットへのモデルエクスポートが簡素化されます。
パフォーマンスとメトリクスの比較
これらのモデルを直接比較すると、アーキテクチャの改良がどのように具体的なパフォーマンス向上につながるかが明らかになります。以下の表は、COCO datasetで評価されたmean Average Precision (mAP)と、CPUおよびGPUの推論速度、パラメータ数を示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
結果の分析
これらの指標は、YOLO11が達成したパフォーマンスのバランスにおける明確な飛躍を強調しています。例えば、YOLO11n(nano)モデルはYOLOv5nの28.0%に対し39.5%のmAPを達成しており、ONNX経由でエクスポートした際のCPU推論時間を削減しています。さらに、YOLO11は学習中も重量級のTransformerベースモデルと比較してメモリ要件が著しく低いため、コンシューマーハードウェアやエッジデバイスへのデプロイメントにおいて非常にアクセスしやすくなっています。
アーキテクチャの違い
YOLO11のパフォーマンス向上は、いくつかの主要なアーキテクチャの進化によるものです。YOLOv5はC3モジュールを備えた標準的なCSPNetバックボーンを使用していましたが、YOLO11ではC2fやその後のC3k2といったより効率的な特徴抽出ブロックが導入され、勾配フローの最適化と計算オーバーヘッドの削減が図られています。
YOLO11はヘッド部分も大幅に洗練されています。古いモデルのアンカーベース設計から脱却し、最新のUltralyticsアーキテクチャではアンカーフリーのアプローチを採用しています。これによりボックス予測の数が減り、後処理パイプラインが簡素化されるとともに、異なるスケールやアスペクト比に対して一般化するモデルの能力が向上しました。さらに、これらのモデルは優れた学習効率を誇り、ファインチューニングされたデータセットの収束を加速させる事前学習済みウェイトが容易に利用可能です。
実装とコード例
Ultralyticsエコシステムの際立った特徴の一つはそのシンプルさです。YOLOv5はtorch.hubを使用した迅速な推論を普及させましたが、YOLO11は統合されたultralytics Pythonパッケージによってこれをさらに一歩進めました。
YOLO11での学習
モデルの読み込み、学習、検証には最小限のボイラープレートコードしか必要ありません。APIがハイパーパラメータの調整とモデル管理をシームレスに処理します。
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11s.pt")
# Train on a custom dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run fast inference and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()
# Easily export the model to TensorRT for hardware acceleration
model.export(format="engine")YOLOv5によるレガシー推論
古いパイプラインを維持している場合、YOLOv5はPyTorchのネイティブ読み込みメカニズムと直接統合されるため、既存の推論スクリプトへの組み込みは極めて容易です。
import torch
# Load a custom or pretrained YOLOv5 model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")
# Perform inference on an image URL
results = model("https://ultralytics.com/images/zidane.jpg")
# Print prediction details to the console
results.print()Both models support extensive export formats. Whether you are targeting an NVIDIA Jetson using TensorRT or an iOS application using CoreML, the deployment process is thoroughly documented and supported by the community.
理想的な使用ケース
これらのモデルの選択は、主にプロジェクトのライフサイクル段階と具体的な要件に依存します。
YOLOv5を選択すべき場合
- レガシーコードベースの保守: 本番環境がYOLOv5リポジトリ構造や特定のハイパーパラメータ進化技術に基づいて大幅にカスタマイズされている場合。
- 学術的なベースライン: 2020-2022年に確立されたコンピュータビジョンの基準に対して直接ベンチマークを行う必要がある研究を発表する場合。
YOLO11を選択すべき場合
- マルチタスクプロジェクト: アプリケーションが、単一の統合APIを使用して姿勢推定やインスタンスセグメンテーションなどのタスクを組み合わせる必要がある場合。
- エッジデプロイメント: 特定の計算予算(FLOPs)に対して最大限のmAPを絞り出すことが重要となるエッジコンピューティングシナリオの場合。
- 商用AIソリューション: 小売やセキュリティ分野のエンタープライズアプリケーションに最適で、Ultralytics Platformの強力なサポートを活用できます。
次世代: Ultralytics YOLO26
YOLO11は速度と精度の素晴らしいバランスを体現していますが、AIの分野は急速に進化しています。現在新しいプロジェクトを開始する開発者には、ビジョンAIにおける最新の標準である**Ultralytics YOLO26**を検討することを強く推奨します。
2026年1月にリリースされたYOLO26は、現代のデプロイメントニーズに合わせて特別に設計された、パラダイムシフトをもたらす進歩を導入しています。
- エンドツーエンドのNMSフリー設計: YOLOv10で最初に開拓された概念に基づいて構築されたYOLO26は、ネイティブにエンドツーエンドです。非最大値抑制(NMS)の後処理が不要となり、デプロイメントパイプラインを大幅に簡素化し、レイテンシを削減します。
- MuSGDオプティマイザ: Moonshot AIのKimi K2モデルなどのLLM学習イノベーションに着想を得たこのSGDとMuonのハイブリッドは、信じられないほど安定した学習と劇的に速い収束を実現します。
- かつてないCPU速度: Distribution Focal Loss (DFL)を削除することで、YOLO26は最大43%のCPU推論高速化を達成しており、専用GPUがないエッジデバイスや環境にとって絶対的な最良の選択肢となります。
- 高度な損失関数: ProgLossとSTALの統合により、ドローン解析、IoT、ロボティクスにとって重要な小物体認識において顕著な改善が得られます。
- タスク固有の強化: 姿勢推定のためのResidual Log-Likelihood Estimation (RLE)や指向性バウンディングボックスのための特殊な角度損失など、専門的な最適化を導入しており、あらゆるコンピュータビジョンのタスクで優れたパフォーマンスを保証します。
標準的な物体検出以外の専門的なアーキテクチャに関心がある場合は、Transformerベースの検出のためのRT-DETRや、オープンボキャブラリーでの追跡および検出のためのYOLO-Worldなどのモデルも検討してみてください。これらの適切にメンテナンスされ、高度に最適化されたツールを採用することで、コンピュータビジョンのパイプラインを効率的かつスケーラブルに保ち、常に最先端であり続けることができます。