YOLO11 vs YOLOv5: Ultralyticsアーキテクチャの包括的な技術比較
適切なニューラルネットワークアーキテクチャの選択は、コンピュータビジョンイニシアチブにおいて極めて重要な決定です。人工知能の状況が進化するにつれて、開発者や研究者が利用できるツールも進化しています。この包括的なガイドでは、Ultralyticsエコシステムの2つの画期的なモデル、非常に有名なYOLOv5と高度なYOLO11の間の詳細な技術比較を提供します。
エッジAIアプリケーション用の軽量モデルをデプロイする場合でも、クラウドGPUで高解像度のビデオストリームを処理する場合でも、これらのモデルのアーキテクチャのニュアンス、パフォーマンス指標、および理想的な使用例を理解することで、特定のデプロイメントの制約に対してデータに基づいた選択を行うことができます。
モデルの系統と技術詳細
どちらのモデルも、オープンソースのコラボレーション、堅牢なパフォーマンス、比類のない使いやすさに対するUltralyticsのコミットメントを反映しており、グローバルな機械学習コミュニティから高く支持されています。
YOLO11の詳細
- 著者: Glenn Jocher および Jing Qiu
- 組織: Ultralytics
- 日付: 2024-09-27
- GitHub: ultralytics/ultralytics
- ドキュメント: YOLO11 Documentation
YOLOv5の詳細
- 著者: Glenn Jocher
- 組織: Ultralytics
- 日付: 2020-06-26
- GitHub: ultralytics/yolov5
- ドキュメント: YOLOv5 Documentation
アーキテクチャの違い
YOLOv5からYOLO11への進化は、精度とパラメータ効率を最適化するために設計されたいくつかの深いアーキテクチャの転換をもたらしました。
YOLOv5はPyTorchエコシステムの先駆者であり、高度に最適化されたCSPNet (Cross Stage Partial Network) バックボーンとPANet (Path Aggregation Network) ネックを導入しました。これはアンカーベースの検出に依存しており、オブジェクトの境界を予測するために事前に定義されたアンカーボックスが必要でした。非常に効果的ではありましたが、カスタムコンピュータビジョンデータセット用にこれらのアンカーを調整することは煩雑になる可能性がありました。
In contrast, YOLO11 transitions to a more modern, anchor-free detection paradigm. This eliminates the need for manual anchor box tuning, streamlining the training process and improving generalization across diverse datasets like the COCO dataset. Additionally, YOLO11 features a decoupled head, meaning classification and bounding box regression tasks are processed in separate branches. This separation significantly improves convergence speed and mean Average Precision (mAP), particularly for complex object detection scenarios.
パフォーマンス指標とベンチマーク
以下の表は、モデルのサイズごとに主要な指標を比較したものです。Ultralyticsモデルはメモリ要件が低いことで知られており、通常、重いTransformerベースの代替モデルと比較してトレーニング中のCUDAメモリ消費量が少なく、ハードウェア導入の障壁を大幅に引き下げています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
観察されるように、YOLO11は非常に有利なパフォーマンスバランスを達成しており、YOLOv5と同等のパラメータ数で一貫して高いmAPスコアを実現しています。
トレーニング手法と使いやすさ
Ultralytics哲学の核心は、十分に維持されたエコシステムと広範なコミュニティサポートに支えられた、卓越した使いやすさです。
YOLOv5は歴史的に、実行のために堅牢なコマンドラインインターフェイス (CLI) スクリプト (train.py, detect.py) に依存していました。強力ではありましたが、これらのスクリプトをカスタムPythonアプリケーションに直接統合するには、多くの場合回避策が必要でした。
YOLO11は、合理化された ultralytics Pythonパッケージを導入することで、これに革命をもたらしました。この統合APIは、トレーニングからモデルのエクスポートフォーマット(ONNX、OpenVINO、TensorRTなど)までをネイティブに処理します。
完全にノーコードな体験のために、開発者はUltralytics Platformを利用して、データをアノテーションし、クラウドでモデルをトレーニングし、エッジデバイスにシームレスにデプロイできます。
コード比較
今日のUltralyticsモデルのトレーニングは非常に効率的です。ネイティブPython APIを使用してYOLO11をトレーニングする方法は次のとおりです。
from ultralytics import YOLO
# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")
# Train the model on custom data
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)
# Export the model to ONNX for deployment
model.export(format="onnx")YOLOv5を利用するレガシーシステムの場合、CLIによるトレーニングは次のようになります。
# Clone the repository and run the training script
git clone https://github.com/ultralytics/yolov5
cd yolov5
pip install -r requirements.txt
python train.py --img 640 --batch 16 --epochs 50 --data coco128.yaml --weights yolov5s.pt理想的な使用事例と実世界のアプリケーション
どちらのモデルも、異なる運用環境に合わせて調整された独自の強みを持っています。
YOLOv5をいつ活用すべきか
新しい世代にもかかわらず、YOLOv5は依然として強力です。以下の場合に強く推奨されます。
- レガシーシステムの統合: YOLOv5の特定のテンソル構造や、簡単にリファクタリングできないデプロイパイプラインと深く統合されている環境。
- 学術的なベースライン: 医療画像解析における再現可能な学術研究のために、確立された長期的なベースラインを必要とする研究者。
YOLO11をいつ活用すべきか
YOLO11は、その信じられないほどの汎用性により、現代のプロダクションパイプラインにとって理想的な選択肢です。
- マルチタスク環境: 主に検出器である(後にセグメンテーションが追加された)YOLOv5とは異なり、YOLO11はインスタンスセグメンテーション、画像分類、ポーズ推定、および指向性バウンディングボックス (OBB)検出を標準でサポートしています。
- High-Density Video Analytics: Ideal for intelligent traffic systems or retail inventory management where extracting maximum precision from complex scenes is critical.
展望: YOLO26アーキテクチャ
YOLO11は卓越した標準ですが、コンピュータビジョンの最前線は急速に進歩し続けています。効率の絶対的な頂点を求める開発者は、最新のUltralytics YOLO26(2026年1月リリース)も検討すべきです。
YOLO26は、エッジの最適化とエンタープライズ規模の両方を目的として明示的に設計された大きな飛躍を遂げました。主な技術革新は以下の通りです。
- エンドツーエンドのNMSフリー設計: YOLO26はネイティブなエンドツーエンドモデルであり、より高速でシンプルなデプロイのために非最大値抑制 (NMS)のポストプロセッシングを排除しました。
- DFL削除: モデルのエクスポートを簡素化し、低電力デバイスとの互換性を強化するために、Distribution Focal Lossが削除されました。
- MuSGDオプティマイザ: SGDとMuonの画期的なハイブリッドであり、LLMのトレーニングの安定性をコンピュータビジョンにもたらし、より高速な収束を実現します。
- CPU推論速度が最大43%向上: IoTデプロイメントおよび専用GPUを搭載していないデバイス向けに大幅に最適化されています。
- ProgLoss + STAL: 損失関数が大幅に改善され、航空ドローン画像にとって不可欠な小物体認識において顕著な向上が得られます。
まとめ
YOLO11とYOLOv5のどちらを選択するかは、最終的にはプロジェクトのライフサイクル段階に依存します。YOLOv5のレガシーは否定できず、極めて高い安定性と大規模なコミュニティの支援を提供します。しかし、新しいプロジェクトについては、古い世代よりもYOLO11を強く推奨します。これは、最先端の精度、非常にエレガントなPython API、および低いトレーニングメモリオーバーヘッドを組み合わせており、AIイノベーションの最前線におけるUltralyticsの地位を確固たるものにしています。さらに境界を押し広げたい場合は、Ultralytics Platformで最先端のYOLO26を調査することで比類のない結果が得られるでしょう。