YOLO26 vs YOLOv5: 物体検出における世代を超えた飛躍

コンピュータビジョンの進化は、速度、精度、そしてアクセシビリティの絶え間ない追求によって定義されてきました。適切なアーキテクチャを選択することは、あらゆるAIプロジェクトの成功に不可欠です。この包括的なガイドでは、Ultralyticsによる2つの記念碑的なリリース、先駆的な YOLOv5 と画期的な YOLO26 を比較します。両モデルともリアルタイム 物体検出 の状況に多大な影響を与えてきましたが、その基盤となる技術は、ニューラルネットワークが視覚データを処理する方法において大きなパラダイムシフトを反映しています。

モデルの概要

アーキテクチャの細部に踏み込む前に、両モデルの基本的な詳細を確認しましょう。

YOLO26の詳細:

YOLO26の詳細はこちら

YOLOv5の詳細:

YOLOv5の詳細はこちら

他の選択肢を検討する

このガイドではYOLO26とYOLOv5に焦点を当てていますが、レガシーシステムから移行する開発者は、YOLO11YOLOv10 が採用する先駆的なNMSフリーアーキテクチャの比較にも関心があるかもしれません。どちらも特定のデプロイメント環境において優れたステップとなります。

アーキテクチャの革新

YOLOv5とYOLO26の間の6年という隔たりは、ディープラーニング研究における巨大な飛躍を意味します。YOLOv5はビジョンモデルに対する PyTorch の広範な利用を普及させ、業界標準となった非常に最適化されたアンカーベースの検出メカニズムを提供しました。しかし、後処理において Non-Maximum Suppression (NMS) に大きく依存しており、これがリソースの限られたデバイスではレイテンシのボトルネックを引き起こす可能性がありました。

YOLO26は、End-to-End NMS-Free Design を用いて推論パイプラインを完全に再構築しました。NMS後処理の必要性を排除することで、YOLO26はより高速でシンプルなデプロイメントロジックを実現しています。これはYOLOv10で初めて開拓された概念ですが、本作で完成されました。さらに、YOLO26は DFL Removal (Distribution Focal Loss) を特徴としており、出力ヘッドを劇的に簡素化します。これにより、ONNXTensorRT などのフォーマットへのモデルエクスポートが非常にスムーズになり、エッジデバイスや低電力デバイスとの優れた互換性が確保されます。

トレーニング中、YOLO26は Moonshot AI's Kimi K2 に着想を得たSGDとMuonのハイブリッドである最先端の MuSGD Optimizer を採用しています。これにより、LLMのトレーニング技術がコンピュータビジョン分野にもたらされ、YOLOv5で使用されていた従来のSGDやAdamWオプティマイザと比較して、非常に安定したトレーニングと大幅に高速な収束が保証されます。

パフォーマンスとメトリクス

モデルを評価する際、mean Average Precision (mAP) と推論速度のバランスが実用性を左右します。YOLO26はハイエンドGPUとエッジCPUの両方に対してネイティブに最適化されています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

ベンチマーク結果は驚異的な改善を明らかにしています。例えば、YOLO26n はmAP 40.9を達成し、YOLOv5n の28.0と比較して CPU推論が最大43%高速化 しています。これにより、Raspberry Pi やモバイルデバイスなどの組み込み環境において、YOLO26は圧倒的に優れた選択肢となります。YOLOv5はNanoスケールにおいてTensorRT GPU速度でわずかに優位性がありますが、精度面でのトレードオフを考慮するとYOLO26が有利です。

トレーニングエコシステムと使いやすさ

両モデルとも、十分にメンテナンスされたUltralyticsエコシステムの恩恵を最大限に受けています。これらは合理化されたPython API、広範なドキュメント、そして活発なコミュニティサポートにより「ゼロからヒーローへ」の体験を提供します。しかし、YOLO26はトレーニング効率を新たなレベルに引き上げました。

Ultralyticsモデルは、トレーニング中にTransformerベースの代替手段よりも、CUDA memory の消費量を一貫して大幅に抑えます。YOLO26は、ProgLoss + STAL 損失関数によってこれを強化しました。これらの進歩により、メモリオーバーヘッドを増やすことなく、小さな物体の認識において顕著な向上が得られます。

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model with the MuSGD optimizer (default for YOLO26)
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)

# Run fast, NMS-free inference on a test image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

このシンプルなスクリプトにより、開発者は カスタムデータセット を迅速に反復処理し、データの取り込みから本番環境に対応したモデルまでシームレスに移行できます。

デプロイメントの簡素化

Ultralytics Platform を使用すると、変換コードを一行も書くことなく、トレーニング済みのYOLO26モデルを CoreMLTensorFlow Lite などのフォーマットに自動的にエクスポートできます。

汎用性と理想的なユースケース

YOLOv5を使用すべき場面

YOLOv5はレガシーシステムにとって信頼性の高い実力派であり続けています。アンカーベースの出力に深く依存した既存の産業パイプラインがある場合、あるいは成熟した凍結されたTensorRTスタックを備えた旧式の NVIDIA Jetson デバイスで推論を実行している場合、YOLOv5は安定した、十分に文書化されたソリューションを提供します。

YOLO26を使用すべき場面

YOLO26は最新のコンピュータビジョンプロジェクトにとって決定的な選択肢です。その汎用性は前モデルを遥かに凌駕します。YOLOv5が主に検出(後にセグメンテーションが追加)に焦点を当てているのに対し、YOLO26は インスタンスセグメンテーションポーズ推定画像分類、および 指向性バウンディングボックス (OBB) に対する深いネイティブサポートを提供します。

YOLO26は、特殊なセマンティックセグメンテーション損失、超高精度なポーズキーポイントのためのResidual Log-Likelihood Estimation (RLE)、および境界の厄介な問題を解決するための高度な角度損失など、タスク固有の改善 を導入しています。

  • エッジIoTおよびロボティクス: NMSフリーのアーキテクチャと43%高速なCPU推論により、YOLO26はリアルタイムのロボットナビゲーションやスマートホームカメラに最適です。
  • 航空画像: ProgLoss + STALの強化により、駐車場内の車両や農地の作物など、ドローンから小さな物体を検出する信頼性が大幅に向上します。
  • リアルタイムビデオ分析: スポーツ放送でのアスリートの追跡や交通流の監視など、YOLO26のパフォーマンスバランスは、フレームを落とすことなく高い再現率を保証します。

最終的に、アクセスしやすく高性能なエコシステムに対するUltralyticsのコミットメントは、YOLOv5からYOLO26への移行が摩擦のないものであることを保証し、研究者と開発者の双方に最先端の機能をもたらします。

コメント