コンテンツにスキップ

YOLOv5 vs YOLO11: 包括的な技術比較

新規プロジェクトに適したコンピュータビジョンアーキテクチャを選択する際、最先端モデルの進化を理解することが極めて重要です。初期のアーキテクチャから現代の統合フレームワークへの進展は、アルゴリズム効率と開発者体験の両面で大きな飛躍を浮き彫りにしています。本ガイドでは、Ultralytics開発した二つの画期的なモデル、YOLOv5 高度にYOLO11深い技術的比較を提供します。

モデルの紹介

これらのアーキテクチャはいずれも、リアルタイム物体検出分野における重要なマイルストーンであり、導入環境や既存の要件に応じてそれぞれ異なる利点を提供します。

YOLOv5:産業の主力

2020年夏にリリースされたYOLOv5 、ネイティブな PyTorch 実装により、トレーニングとデプロイの参入障壁を大幅に引き下げたことで、業界標準として急速に普及しました。前世代の複雑なDarknet Cフレームワークから脱却し、モデル構築にPythonicなアプローチを提供しています。

YOLOv5 使いやすさの面で強力な基盤をYOLOv5 、高度なモザイクデータ拡張や自動アンカー設定といった強力な学習手法を導入しました。よく文書化され、徹底的にテストされたコードベースを基盤とする研究者にとって、今なお非常に人気が高いモデルです。

YOLOv5について詳しくはこちら

YOLO11: 統一ビジョンフレームワーク

長年にわたるフィードバックと構造研究を基盤として、YOLO11 複数の視覚タスクをネイティブに処理可能な統合フレームワークの一部としてYOLO11 。単なる境界ボックスを超え、最大限の汎用性と効率性を追求して一から設計されている。

YOLO11 ultralytics Python 、統一されたシンプルなAPIを誇り 物体検出インスタンスセグメンテーション、分類、姿勢推定、および方向付きバウンディングボックス(OBB)を実現します。速度と精度の間で非常に良好なトレードオフを達成しており、多様な実世界の展開シナリオに最適です。

YOLO11の詳細について。

統合プラットフォーム

両モデルとも、Ultralytics が提供する整備されたエコシステムの恩恵を受けています。この統合環境により、データセットの注釈付け、クラウド上でのトレーニング、および様々なハードウェアターゲットへのモデルエクスポートが簡素化されます。

パフォーマンスとメトリクスの比較

これらのモデルの直接比較により、アーキテクチャの改良が具体的な性能向上にどう結びつくかが明らかになる。下表はCOCO 評価した平均精度(mAP)の平均値、CPU GPU 速度、パラメータ数を示している。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

結果の分析

これらの指標は、YOLO11達成した性能バランスの明らかな飛躍を浮き彫りにしている。例えば、YOLO11n(nano)モデルは39.mAP を達成mAP YOLOv5nは28.0%である。同時に、ONNX経由でエクスポートした場合CPU 時間を削減している。 ONNXによるエクスポート時にはCPU推論時間を短縮しています。さらに、YOLO11 トレーニング時のメモリ要件がトランスフォーマーベースの大型モデルと比較して著しくYOLO11 、コンシューマー向けハードウェアやエッジデバイスへの展開が容易です。

アーキテクチャの違い

YOLO11 の性能向上は、いくつかの重要なアーキテクチャ進化にYOLO11 。YOLOv5 C3モジュールを用いた標準的なCSPNetバックボーンYOLOv5 に対し、YOLO11 C2fや後続のC3k2といったより効率的な特徴抽出ブロックYOLO11 。これらは勾配の流れを最適化し、計算オーバーヘッドを削減する。

YOLO11 高度に洗練されたYOLO11 特徴としている。旧モデルのアンカーベース設計から脱却し、Ultralytics アンカーフリーアプローチを採用。これによりボックス予測数が削減され、後処理パイプラインが効率化され、異なるスケールやアスペクト比におけるモデルの汎化能力が向上した。さらに、これらのモデルは優れた学習効率を誇り、事前学習済み重みが容易に入手可能なため、微調整データセットの収束を加速させる。

実装とコード例

Ultralytics 特筆すべき特徴の一つはそのシンプルさである。YOLOv5 一方で torch.hub 高速推論のため、YOLO11 これをさらに一歩YOLO11 、統一された ultralytics Python 。

YOLO11を用いたトレーニング

モデルの読み込み、トレーニング、検証には最小限の定型コードしか必要としません。APIがハイパーパラメータ調整とモデル管理をシームレスに処理します。

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11s.pt")

# Train on a custom dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run fast inference and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Easily export the model to TensorRT for hardware acceleration
model.export(format="engine")

YOLOv5を用いたレガシー推論

古いパイプラインを維持している場合、YOLOv5 PyTorchネイティブローディング機構と直接YOLOv5 、既存の推論スクリプトに簡単に組み込むことができます。

import torch

# Load a custom or pretrained YOLOv5 model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Perform inference on an image URL
results = model("https://ultralytics.com/images/zidane.jpg")

# Print prediction details to the console
results.print()

デプロイの柔軟性

両モデルとも広範なエクスポート形式をサポートしています。NVIDIA をターゲットとする場合でも、 TensorRT を使用するNVIDIA Jetsonをターゲットとする場合でも、CoreML iOS ターゲットとする場合でも、デプロイメントプロセスは完全に文書化され、コミュニティによってサポートされています。

理想的なユースケース

これらのモデルを選択する際は、プロジェクトのライフサイクル段階と具体的な要件に大きく依存します。

YOLOv5を選択すべき時

  • レガシーコードベースの維持:本番環境がYOLOv5 構造や特定のハイパーパラメータ進化手法に大きく依存している場合。
  • 学術的基準線:確立された2020-2022年コンピュータビジョン基準に対する直接的なベンチマークを必要とする研究を発表する場合。

YOLO11を選択すべき時

  • マルチタスクプロジェクト:単一の統合APIを使用して、姿勢推定インスタンスセグメンテーションなど、複数のタスクを組み合わせた処理が必要なアプリケーション向け。
  • エッジ展開:与えられた計算リソース(FLOPs)mAP 最大mAP 絞り出すことが重要なエッジコンピューティングシナリオ向け。
  • 商用AIソリューション:小売業やセキュリティ分野における企業向けアプリケーションに最適。Ultralytics の堅牢なサポートを活用。

次世代:Ultralytics

YOLO11 速度と精度の素晴らしいバランスYOLO11 、人工知能の分野は急速に進化しています。現在新規プロジェクトを開始する開発者には、ビジョンAIの最新標準であるUltralytics YOLO26の検討を強く推奨します。 Ultralytics

2026年1月にリリースされたYOLO26は、現代の展開ニーズに特化して設計されたパラダイムシフトをもたらす進歩を導入します:

  • エンドツーエンドNMS設計: YOLOv10初めて導入された概念を基盤とし、YOLOv26はネイティブにエンドツーエンドです。これにより、非最大抑制(NMS)後処理が不要となり、デプロイメントパイプラインが大幅に簡素化され、レイテンシが削減されます。
  • MuSGDオプティマイザ:Moonshot AIのKimi K2などのモデルによるLLMトレーニングの革新に着想を得た、SGD ミューオンのハイブリッド技術。驚異的な安定性を実現し、収束速度を劇的に向上させます。
  • 前例のないCPU :分布焦点損失(DFL)を除去することで、YOLO26は最大43%高速CPU を実現し、専用GPUのないエッジデバイスや環境において絶対的な最良の選択肢となります。
  • 高度な損失関数:ProgLossとSTALの統合により、小型物体認識において顕著な改善がもたらされる。これはドローン分析、IoT、ロボティクスにおいて極めて重要である。
  • タスク特化型強化:姿勢推定のための残差対数尤度推定(RLE)や方向付きバウンディングボックス用の特化角度損失など、専門的な最適化を導入し、あらゆるコンピュータビジョンタスクにおいて優れた性能を保証します。

YOLO26についてさらに詳しく

標準的な物体検出を超えた特殊なアーキテクチャに関心のあるユーザーは、以下のようなモデルも検討できます。 RT-DETR などのトランスフォーマーベース検出モデル、YOLOオープンボキャブラリ追跡・検出モデルも検討できます。こうしたメンテナンスが行き届き高度に最適化されたツールを採用することで、コンピュータビジョンパイプラインの効率性、拡張性、そして最先端性を維持できます。


コメント