YOLO26 vs YOLO11: ビジョンAIにおける世代的な飛躍

最先端のコンピュータビジョンシステムを構築する際、精度、レイテンシ、リソース効率のバランスをとる上で、適切なモデルの選択は極めて重要です。急速に進化する人工知能の分野において、Ultralyticsは可能性の限界を押し広げ続けています。この詳細な技術比較では、非常に成功を収めたYOLO11から革新的な新しいYOLO26への移行を検討し、AIエンジニアや研究者が情報に基づいたアーキテクチャの意思決定を行うために必要な知見を提供します。

モデルの系譜とメタデータ

両モデルともUltralyticsによって開発されましたが、物体検出およびマルチタスクビジョンモデルの歴史において、それぞれ異なるパラダイムを象徴しています。

YOLO26の詳細:

YOLO26の詳細はこちら

YOLO11の詳細:

YOLO11の詳細はこちら

その他のアーキテクチャ

YOLO26は当社の最も先進的なリアルタイムモデルですが、非常に特殊なハードウェアや膨大なメモリ容量を扱うユーザーは、RT-DETRのようなTransformerベースのアーキテクチャや、NMS不要の先駆けであるYOLOv10を探求することも可能です。

アーキテクチャの違いとイノベーション

YOLO11からYOLO26への飛躍には、モデルアーキテクチャと基盤となる学習レジメンの両面における根本的な転換が含まれています。YOLO11は物体検出とマルチタスク学習の強固なベースラインを確立しましたが、YOLO26はエッジコンピューティングのためのデプロイパイプラインを全面的に刷新しています。

エンドツーエンドのNMS不要設計

YOLO26における最も重要なアップグレードの一つは、ネイティブなエンドツーエンドアーキテクチャです。重なり合うBBoxをフィルタリングするためにNon-Maximum Suppression (NMS)のポストプロセッシングに依存するYOLO11とは異なり、YOLO26はこのステップを完全に排除しています。このコンセプトは、YOLOv10で初めて導入されたもので、レイテンシのばらつきを劇的に低減し、多様なエッジデバイス間でのデプロイロジックを簡素化します。

エッジ効率のためのDFL削除

YOLO11は、BBoxの推定精度を高めるためにDistribution Focal Loss (DFL)を利用しています。しかし、DFLは低電力のエッジアクセラレータではサポートが不十分なことが多い複雑なソフトマックス演算に依存しています。YOLO26は、精度を犠牲にすることなくDFLを削除することに成功しました。このアーキテクチャの簡素化により、組み込みシステムとの互換性が大幅に向上し、先行モデルと比較して最大43%高速なCPU推論をYOLO26で実現しています。

MuSGDオプティマイザ

学習の安定性と速度は極めて重要です。YOLO26では、Stochastic Gradient Descent (SGD)とMuonを組み合わせたハイブリッドなMuSGD Optimizerが導入されました。これは、Moonshot AIのKimi K2によるLLM学習のイノベーションから大きな着想を得たものです。このオプティマイザは、コンピュータビジョンに大規模言語モデルの学習安定性をもたらし、重厚なTransformerの代替手法と比較して、学習中のメモリ消費を抑えつつ、より高速な収束を確実にします。

ProgLossとSTAL

航空写真やドローンアプリケーションを扱う研究者にとって、小さな特徴を検出することは歴史的な課題です。YOLO26は、ProgLossとSTAL (Scale-Targeted Attention Loss) を組み合わせることで、YOLO11を上回る小物体認識の顕著な向上を実現しています。

パフォーマンスとメトリクスの比較

各モデルを直接比較すると、YOLO26は精度とエッジデバイスでの効率性において明らかな優位性を示しており、同時にUltralyticsエコシステムの特徴である極めて低いメモリ要件を維持しています。

モデルサイズ
(ピクセル)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
パラメータ
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

注: YOLO26 nano (YOLO26n) モデルは、YOLO11nと比較してCPU速度が約31%向上しており (38.9ms 対 56.1ms)、そのエッジファーストの設計思想を強調しています。

コンピュータビジョンタスク全般における汎用性

両モデルとも、適切に保守管理されたUltralyticsエコシステムの恩恵を受けており、統一されたPython APIを通じて比類のない使いやすさを提供します。これらは単なる物体検出器ではなく、マルチタスクの強力なツールです。ただし、YOLO26にはタスク固有のいくつかの進歩が組み込まれています:

  • インスタンスセグメンテーション: YOLO26は、改良されたセマンティックセグメンテーション損失とマルチスケールプロトタイピングを使用しており、YOLO11よりも鮮明なマスク境界を生成します。セグメンテーションワークフローの詳細をご覧ください。
  • ポーズ推定: Residual Log-Likelihood Estimation (RLE) を統合することで、YOLO26は複雑な人体ポーズにおけるキーポイントの精度を劇的に向上させています。ポーズ推定機能をご覧ください。
  • 方向付き境界ボックス (OBB): 特殊な角度損失関数により、従来の境界不連続性の問題が解決され、YOLO26は衛星フィード内の回転物体の検出において非常に高い信頼性を発揮します。OBBタスクについてお読みください。
  • 画像分類: 両モデルとも高速な分類を効率的に処理でき、YOLO26はImageNetにおけるTop-1精度でわずかな向上を実現しています。

学習と推論のコード例

Ultralyticsは開発者体験の高さで定評があります。SOTAモデルの学習や推論スクリプトの実行はわずか数行のコードで済むため、ボイラープレートを最小限に抑え、生産性を最大化できます。さらに、YOLOモデルの学習は、大規模なTransformerネットワークよりもCUDAメモリ消費が大幅に少なくて済みます。

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset efficiently
# The MuSGD optimizer is automatically enabled for YOLO26
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="0",  # Utilize GPU for accelerated training
)

# Perform NMS-free inference directly on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the clean, instant predictions
results[0].show()

理想的なユースケースとデプロイ戦略

YOLO26とYOLO11のどちらを選択するかは、完全に本番環境の制約に依存します。

YOLO26をデプロイすべき時

YOLO26は、最新の新規プロジェクトにおいて決定的な選択肢となります。具体的には以下に向けて設計されています:

  • エッジコンピューティングとIoT: 驚異的なCPUパフォーマンスとDFLの削除により、Raspberry Pi、Coral NPU、モバイルプロセッサなどのデバイスにおいて最高の性能を発揮します。
  • ドローンおよび航空分析: ProgLoss + STALの統合により、広大なランドスケープ全体で高速移動する小さな物体を追跡する能力が非常に高くなっています。
  • Latency-Critical Applications: In autonomous robotics or manufacturing quality control, the NMS-free design ensures deterministic latency without unexpected post-processing spikes.

YOLO11を維持すべき時

YOLO26は優れていますが、YOLO11も非常に強力なモデルです。以下の場合にはYOLO11の利用を継続するのが適切かもしれません:

  • レガシーパイプライン: 既存のC++デプロイメントインフラストラクチャが、古いアーキテクチャの特定のアンカーベースの出力やNMSロジックに密結合している場合。
  • 学術的ベースライン: 研究発表を行っており、独自の新しいアルゴリズムを評価するために広く認められた2024年の標準モデルを必要としている場合。

Ultralyticsエコシステムの力

YOLO11とYOLO26のどちらをデプロイするかにかかわらず、Ultralyticsモデルを利用することは、頻繁なアップデートと広範なコミュニティサポートを備えた適切に保守されたエコシステムを活用することを意味します。

エンタープライズチーム向けに、Ultralytics Platformは、データアノテーション、モデル学習、シームレスなクラウドデプロイメントのためのエンドツーエンドのソリューションを提供します。学習済み重みをCoreMLTensorRTにエクスポートすることから、高度なハイパーパラメータ調整の設定に至るまで、提供されるツールによってAIライフサイクルを可能な限り効率化できます。

コメント