YOLO11 vs YOLOv8: リアルタイムビジョンモデルの包括的な技術比較
コンピュータビジョンの分野は、物体検出アーキテクチャの絶え間ない進化とともに目覚ましい進歩を遂げてきました。実環境へのデプロイに向けてモデルを評価する際、開発者はしばしばUltralytics YOLO11とその非常に成功した前身であるUltralytics YOLOv8の強みを比較します。両モデルとも、速度、精度、開発者体験において業界標準を確立していますが、それぞれ若干異なるプロジェクトライフサイクルやパフォーマンスのしきい値に対応しています。
本ガイドでは、皆様の人工知能イニシアチブに最適なソリューションを選択できるよう、両モデルのアーキテクチャ、学習手法、および理想的なユースケースについて詳細な分析を提供します。
アーキテクチャの革新
YOLOv8からYOLO11への移行では、計算オーバーヘッドを最小限に抑えつつ特徴抽出の効率を最大化することを目的とした、いくつかの重要なアーキテクチャの改良が導入されました。
YOLO11 アーキテクチャ
YOLO11は、パラメータ使用の最適化において大きな前進を遂げています。従来のC2fモジュールに代わり、パラメータ数を大幅に増やすことなく空間特徴処理を強化する高度なC3k2ブロックを採用しています。さらに、YOLO11のバックボーンにはC2PSA(Cross-Stage Partial Spatial Attention)モジュールが導入されています。この注意機構により、モデルは重要な関心領域に焦点を当てることができ、小物体検出が劇的に向上し、複雑な遮蔽物への対応も可能になります。
- 著者: Glenn Jocher および Jing Qiu
- 組織: Ultralytics
- 日付: 2024-09-27
- GitHub: Ultralytics リポジトリ
- ドキュメント: YOLO11 Docs
YOLOv8 アーキテクチャ
1年前にリリースされたYOLOv8は、アンカーフリーの検出ヘッドへの移行を先導し、アンカーボックスを手動で調整する必要性を排除して損失の定式化を簡素化しました。そのアーキテクチャは主にC2fブロックに依存しており、ネットワークの深さと勾配フローのバランスを成功させた設計により、幅広いコンピュータビジョンアプリケーションにおいて驚異的な堅牢性を実現しています。
- 著者: Glenn Jocher, Ayush Chaurasia, and Jing Qiu
- 組織: Ultralytics
- 日付: 2023-01-10
- GitHub: Ultralytics リポジトリ
- ドキュメント: YOLOv8 Docs
YOLOv8がUltralyticsエコシステムにおけるアンカーフリー検出の基盤を築いたのに対し、YOLO11はこのアプローチを空間注意機構によって改良し、より少ない計算リソースで高い精度を実現しました。
パフォーマンスとベンチマーク
Raspberry Piのようなエッジデバイスや、NVIDIA TensorRTを実行する高性能サーバーにモデルをデプロイする際、速度と精度のトレードオフを理解することは非常に重要です。以下の表は、すべてのサイズバリエーションにおいてYOLO11がどのように一貫してYOLOv8を凌駕しているかを示しています。
| モデル | サイズ (ピクセル) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | パラメータ (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
メトリクスの分析
YOLO11は、パラメータ数と浮動小数点演算数(FLOPs)を削減しながら、より高いMean Average Precision(mAP)を達成しています。例えば、YOLO11mモデルはYOLOv8mと比較してパラメータ数が22%少ないにもかかわらず、COCOデータセットにおいて1.3%高いmAPを提供します。さらに、ONNXフォーマットにエクスポートした際のCPU推論速度を見ると、YOLO11は大幅に高速であり、専用のGPUアクセラレーションが利用できない環境でのデプロイに最適です。
Ultralyticsエコシステムの利点
YOLO11とYOLOv8のどちらを選択する場合でも、両モデルは包括的なUltralyticsエコシステムの恩恵を受けており、機械学習のライフサイクルを劇的に簡素化します。
使いやすさとシンプルなAPI
ultralytics Pythonパッケージは、エンジニアや研究者が数行のコードでモデルの学習、検証、エクスポートを行える合理化されたAPIを提供します。これにより、PyTorchにおけるディープラーニング環境の構築に伴う典型的な複雑さが抽象化されます。
トレーニング効率とメモリ要件
重量級のVision Transformer(RT-DETRなど)とは異なり、Ultralytics YOLOモデルは学習中のメモリ使用量の低さで知られています。このメモリ効率により、開発者はコンシューマーグレードのGPUやGoogle Colabのようなクラウド環境で、メモリ不足エラーに悩まされることなく最先端のネットワークを学習させることができます。
ビジョンタスク全般における多様性
YOLO11とYOLOv8は、どちらも真のマルチタスク学習モデルです。標準的なBBox物体検出だけでなく、インスタンスセグメンテーション、画像分類、人間の姿勢推定、そして航空画像用の回転バウンディングボックス(OBB)をネイティブにサポートしています。
ユースケースと推奨事項
YOLO11とYOLOv8のどちらを選ぶかは、特定のプロジェクト要件、デプロイ制約、およびエコシステムの優先順位によって決まります。
YOLO11を選択すべき場合
YOLO11は次のような場合に強力な選択肢です:
- 本番環境のエッジデプロイメント: 信頼性と積極的なメンテナンスが最優先される、Raspberry PiやNVIDIA Jetsonなどのデバイス上での商用アプリケーション。
- マルチタスクビジョンアプリケーション: 単一の統合フレームワーク内で、検出、セグメンテーション、ポーズ推定、およびOBBを必要とするプロジェクト。
- 迅速なプロトタイピングとデプロイメント: 合理化されたUltralytics Python APIを使用して、データ収集から本番環境まで迅速に移行する必要があるチーム。
YOLOv8を選択すべき場合
YOLOv8は以下の場合に推奨されます:
- 汎用的なマルチタスクデプロイメント: Ultralyticsエコシステム内で、検出、セグメンテーション、分類、姿勢推定 用の実証済みのモデルを必要とするプロジェクト。
- 確立されたプロダクションシステム: すでにYOLOv8アーキテクチャに基づいて構築されており、安定した十分にテストされたデプロイメントパイプラインを持つ既存のプロダクション環境。
- 広範なコミュニティおよびエコシステムのサポート: YOLOv8の豊富なチュートリアル、サードパーティ統合、活発なコミュニティリソースを活用できるアプリケーション。
Ultralytics (YOLO26) を選択すべき場合
ほとんどの新規プロジェクトにおいて、Ultralytics YOLO26はパフォーマンスと開発者体験の最高の組み合わせを提供します:
- NMSフリーのエッジデプロイ: Non-Maximum Suppressionの後処理の複雑さを伴わずに、一貫した低レイテンシの推論が求められるアプリケーション。
- CPUのみの環境: 専用のGPUアクセラレーションがないデバイスにおいて、YOLO26の最大43%高速なCPU推論が決定的な利点となります。
- 小物体の検出: 航空ドローンの映像 やIoTセンサーの分析など、ProgLossとSTALが小物体の精度を大幅に高めることができる困難なシナリオ。
コード例: はじめに
Ultralyticsモデルのデプロイと学習は非常に直感的です。以下の例は、事前学習済みのYOLO11モデルをロードし、カスタムデータセットで微調整し、Apple CoreMLを使用してエッジデプロイ用にエクスポートする方法を示しています:
from ultralytics import YOLO
# Initialize the YOLO11 small model
model = YOLO("yolo11s.pt")
# Train the model efficiently with optimized memory requirements
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Evaluate the validation performance
metrics = model.val()
# Run real-time inference on a test image
predictions = model("https://ultralytics.com/images/bus.jpg")
# Export to CoreML for fast mobile deployment
export_path = model.export(format="coreml")Ultralytics APIは標準化されているため、従来のパイプラインをYOLOv8からYOLO11へアップグレードする場合、通常はウェイトの文字列を"yolov8n.pt"から"yolo11n.pt"に変更するだけで済みます。
未来へ向けて:YOLO26によるエッジAIの頂点
YOLO11は成熟した非常に有能なアーキテクチャですが、AIの革新のスピードは止まりません。最高レベルのパフォーマンスを必要とする新規プロジェクトを立ち上げる開発者には、Ultralytics YOLO26(2026年1月リリース)を強く推奨します。
YOLO26は、いくつかの画期的な機能でコンピュータビジョンの限界を押し広げます:
- エンドツーエンドのNMSフリー設計: YOLOv10で探求された概念を基に、YOLO26はNon-Maximum Suppression(NMS)の後処理をネイティブに排除し、あらゆるデプロイハードウェアでより低く予測可能なレイテンシを実現します。
- CPU推論が最大43%高速化: Distribution Focal Loss(DFL)ブランチを完全に取り除くことで、YOLO26は強力なGPUを持たないエッジコンピューティングデバイス向けに特別に最適化されています。
- MuSGDオプティマイザー: 大規模言語モデル(LLM)の学習手法に触発され、YOLO26はハイブリッドなMuSGDオプティマイザーを採用しており、非常に安定した迅速な学習収束を保証します。
- ProgLoss + STAL: これらの高度な損失関数は、自律型ロボットやドローンベースの分析に不可欠な、非常に小さな物体や激しく遮蔽された物体の認識において目覚ましい改善をもたらします。
YOLOv8の証明された信頼性、YOLO11の最適化されたアーキテクチャ、あるいは次世代の機能を持つYOLO26のいずれに頼る場合でも、Ultralytics Platformは、皆様がビジョンAIアプリケーションをコンセプトから本番環境へシームレスに移行するために必要なツールを確保します。モデルをエンタープライズワークフローや分析ダッシュボードに接続するために利用可能な、広範なインテグレーションをぜひ確認してください。