コンテンツにスキップ

YOLO11 YOLOv8比較:アーキテクチャの進化とパフォーマンス分析

最適なコンピュータビジョンモデルを選択することは、精度、スピード、リソース効率のバランスを目指す開発者や研究者にとって重要な決断です。このページでは Ultralytics YOLO11Ultralytics YOLOv8は、物体検出と高度なビジョンタスク用に設計された業界をリードする2つのアーキテクチャです。この2つのアーキテクチャの革新性、ベンチマーク指標、理想的な導入シナリオを分析し、人工知能アプリケーションに最適なアーキテクチャを判断できるようにします。

Ultralytics YOLO11

著者Glenn Jocher, Jing Qiu
組織:Ultralytics
日付:2024-09-27
GitHubultralytics
Docsyolo11

YOLO11 、特徴抽出と処理効率の大幅な改善を実現した、名高いYOLO シリーズの最新進化版です。バックボーンとネック・アーキテクチャを改良することにより、YOLO11 、前モデルよりも少ないパラメータで、より高い平均精度(mAP)を達成しました。インスタンス分割画像分類姿勢推定、方向バウンディングボックス(OBB)など、幅広いタスクをネイティブにサポートしています。

アーキテクチャと主な機能

YOLO11 アーキテクチャは、CSP(Cross Stage Partial)ボトルネックの最適化バージョンであるC3k2ブロックと、C2PSA(Cross Stage Partial with Spatial Attention)モジュールを導入しています。これらのコンポーネントは、計算オーバーヘッドを最小限に抑えながら、複雑な視覚パターンと空間的関係を捉えるモデルの能力を向上させる。この設計思想により、YOLO11 リアルタイム推論シナリオ、特に計算リソースが限られているエッジデバイスにおいて優れた性能を発揮します。

長所

  • 最先端の精度:すべてのモデルスケールで優れた検出性能を発揮し、COCO データセットのこれまでの反復を常に上回る。
  • CPU 効率:最適化されたアーキテクチャーの選択により、CPUでの推論速度が大幅に高速化され、サーバーレスやエッジデプロイメントに最適な選択肢となります。
  • パラメータ効率:より少ないパラメータとFLOPで高精度を実現し、モデルのストレージ要件を削減します。
  • 統一されたフレームワーク:単一の使いやすいAPIで複数のビジョンタスクをシームレスに処理。

弱点

  • エコシステムの成熟度:新しいリリースであるため、サードパーティのチュートリアルやコミュニティが作成したコンテンツの量は急速に増えているが、確立されたYOLOv8比べると少ないかもしれない。
  • 大規模モデルのリソース強度:効率的ではあるが、最大のモデル(YOLO11xなど)は、学習と高スループットの推論にかなりのGPU リソースを必要とする。

ユースケース

YOLO11 11は、最高の精度対速度比を必要とするアプリケーションに最適です:

  • エッジAI: NVIDIA JetsonまたはRaspberry Piデバイス上で高性能検出を展開。
  • リアルタイム・ロボティクス:最小限の待ち時間で自律的なナビゲーションと物体とのインタラクションを可能にする。
  • メディカル・イメージング正確さが最も重要な診断のための精密な医療画像解析を支援。

YOLO11の詳細について。

Ultralytics YOLOv8

著者Glenn Jocher、Ayush Chaurasia、Jing Qiu
組織:Ultralytics
日付:2023-01-10
GitHubultralytics
Docsyolov8

2023年初頭にリリースされたYOLOv8 、リアルタイム物体検出の標準を再定義した。アンカーフリーの検出ヘッドとC2fバックボーンモジュールを導入し、アンカーベースのアプローチから大きく脱却した。YOLOv8 、その安定性、多用途性、そしてYOLOv8 8を中心に発展した大規模なエコシステムで有名であり、世界的に最も広く採用されているビジョンモデルの1つとなっている。

アーキテクチャと主な機能

YOLOv8 、CSPDarknet53バックボーンを改良し、より豊富なグラジエントフローを可能にするC2fモジュールを組み込んでいる。そのアンカーフリー設計は、非最大抑制(NMS)プロセスを単純化し、アンカーボックスに関連するハイパーパラメータチューニングの複雑さを軽減する。このモデルは非常にスケーラブルで、様々な計算予算に合わせてナノ(n)からエクストララージ(x)までのバリエーションを提供する。

長所

  • 実証された信頼性:世界中の生産環境で幅広くテストされ、高い安定性が保証されています。
  • 豊富なエコシステム:何千ものチュートリアル、統合、コミュニティプロジェクトによってサポートされています。
  • 汎用性が高い: YOLO11同様、検出、セグメンテーション、分類、姿勢推定をサポートしている。
  • 強力なベースライン:多くのYOLO アーキテクチャを上回る競争力のある性能を提供し続けている。

弱点

  • 性能差:特にCPU ハードウェア上では、精度mAP)と推論速度の両方でYOLO11 上回る。
  • 高い計算コスト: YOLO11匹敵する精度を達成するためには、若干多めのパラメータとFLOPが必要。

ユースケース

YOLOv8 依然として優れた選択肢である:

  • レガシーシステム: YOLOv8 ワークフローとすでに統合されているプロジェクトで、最先端のパフォーマンスよりも安定性を必要とするもの。
  • 教育ツール:膨大なドキュメンテーションとコミュニティ例を備えたモデルを使用して、コンピュータビジョンの概念を学習します。
  • 汎用検出:標準的なセキュリティおよび監視アプリケーションのための信頼性の高いパフォーマンス。

YOLOv8の詳細について。

性能直接対決

これら2つのモデルの最も大きな違いは、その効率性にある。YOLO11 YOLOv8「パレートの改善」を達成YOLOv8より低い計算コストでより高い精度を実現している。

効率とスピードの分析

YOLO11 アーキテクチャ最適化(C3k2、C2PSA)により、よりきめ細かい特徴を保持したまま、より高速に画像を処理できるようになった。これはCPU 推論において最も顕著であり、YOLO11 モデルは大幅な高速化を示している。例えば、YOLO11nモデルは、YOLOv8n CPU 上で約30%高速である一方、より高いmAP達成している。

GPU 推論に関しても、YOLO11 モデルはほとんどのサイズにおいてより低いレイテンシを示し、リアルタイムビデオ処理パイプラインに非常に効果的である。

メモリ効率

Ultralytics YOLO11 YOLOv8 、以下のようなトランスフォーマーベースのモデルと比較して、学習と推論時のメモリ消費量が少ないように設計されています。 RT-DETR.このため、コンシューマーグレードのハードウェアや、CUDA メモリに制限のあるクラウド環境を使用している開発者にとって、はるかに利用しやすくなっています。

比較指標

下の表は、性能向上を示している。YOLO11 、mAP増加とともに、パラメータとFLOPが減少していることに注意してください。

モデルサイズ
(ピクセル)
mAP
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Ultralytics エコシステムの優位性

Ultralytics モデルを選択することは、MLOpsのライフサイクル全体を合理化するように設計された包括的なエコシステムへのアクセスを得ることを意味します。

  • 使いやすさ: 両モデルとも同じ Python API およびコマンド・ライン・インターフェースCLI)を使用します。YOLOv8 YOLO11 切り替えは、多くの場合、コード文字列の1文字を変更するだけでよい(例. "yolov8n.pt" 宛先 "yolo11n.pt")。
  • トレーニングの効率化: Ultralytics モデルは、モザイク補強やハイパーパラメータ進化を含む高度なトレーニングルーチンを利用します。訓練済みの重みがすぐに利用できるため、カスタムデータセットでの効率的な転移学習が可能です。
  • 汎用性:特定のタスクに限定された多くの競合他社とは異なり、Ultralytics モデルは、統合されたパッケージ内で、検出、セグメンテーション、分類、ポーズ、OBBのネイティブサポートを提供します。
  • 展開:モデルを以下のようなフォーマットに簡単にエクスポートできます。 ONNX, TensorRTCoreML、OpenVINO ようOpenVINO フォーマットでモデルを簡単にエクスポートできます。

統一使用例

共有されたAPI設計により、簡単に実験を行うことができる。ここでは、どちらのモデルでもロードして予測を実行する方法を説明します:

from ultralytics import YOLO

# Load YOLO11 or YOLOv8 by simply changing the model name
model = YOLO("yolo11n.pt")  # or "yolov8n.pt"

# Train on a custom dataset
# model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
results[0].show()

結論: どのモデルを選ぶべきか?

大半の新規プロジェクトでは、YOLO11 推奨される。そのアーキテクチャーの進歩は、特に効率が重要なエッジ・コンピューティング・アプリケーションにおいて、精度とスピードの両面で明確な優位性をもたらします。また、パラメータ数の削減により、ストレージ要件が軽くなり、モバイル展開のダウンロード時間が短縮されます。

YOLOv8特に、特定のYOLOv8 バージョンと深く統合された既存のパイプラインを持つチームや、YOLOv8 8のドキュメント・エコシステムの絶対的な成熟度に依存しているチームにとっては、YOLOv8 依然として強力で適切なツールである。しかし、YOLO11 移行は一般的に簡単で、すぐにパフォーマンス上のメリットが得られる。

どちらのモデルも AGPL-3.0ライセンスでリリースされ、オープンソースコラボレーションを促進しています。プロプライエタリな機能を必要とする商用製品にはエンタープライズライセンスが用意されています。

その他のモデルを見る

YOLO11 YOLOv8 優れた汎用検出器ですが、特定の要件には、Ultralytics 他のアーキテクチャが有効かもしれません:

  • YOLOv10低レイテンシーを実現するNMSトレーニングにフォーカス。
  • YOLOv9ディープモデルのトレーニングにおいて、プログラム可能な勾配情報を重視。
  • RT-DETR高い精度を提供するトランスフォーマーベースの検出器だが、メモリと計算の要件は高い。

お客様のプロジェクトに最適なモデルを見つけるために、当社の幅広いモデル比較をご覧ください。


コメント