コンテンツにスキップ

Ultralytics YOLO26

概要

Ultralytics YOLO26は、リアルタイムオブジェクト検出器であるYOLOシリーズの最新の進化版であり、エッジおよび低電力デバイス向けにゼロから設計されています。不要な複雑さを排除し、的を絞ったイノベーションを統合することで、より高速、軽量、かつアクセスしやすい展開を実現する、合理化された設計を導入しています。

Ultralytics YOLO26比較プロット

Ultralytics をお試しください

Ultralytics Platform上でYOLO26モデルを直接探索・実行する。

YOLO26のアーキテクチャは、3つのコア原則に基づいて設計されています。

  • シンプルさ: YOLO26はネイティブなエンドツーエンドモデルであり、非最大抑制 (NMS) を必要とせずに直接予測を生成します。この後処理ステップを排除することで、推論はより高速、軽量になり、実世界のシステムへのデプロイが容易になります。この画期的なアプローチは、清華大学のAo Wang氏によってYOLOv10で初めて開拓され、YOLO26でさらに進化しました。
  • 展開効率: エンドツーエンド設計により、パイプライン全体のステージが削減され、統合が大幅に簡素化され、遅延が減少し、多様な環境での展開がより堅牢になります。
  • トレーニングの革新: YOLO26は、Moonshot AIのKimi K2におけるLLMトレーニングのブレークスルーに触発された、SGDMuonのハイブリッドであるMuSGDオプティマイザを導入します。このオプティマイザは、安定性の向上と収束の高速化をもたらし、言語モデルからの最適化の進歩をコンピュータビジョンに転用します。
  • タスク固有の最適化: YOLO26は、Segmentationのためのセマンティックセグメンテーション損失とマルチスケールプロトモジュール、高精度なPose推定のための残差対数尤度推定(RLE)、およびOBBにおける境界問題を解決するための角度損失を伴う最適化されたデコードなど、特殊なタスク向けに的を絞った改善を導入しています。

これらのイノベーションにより、小型オブジェクトでより高い精度を達成し、シームレスな展開を提供し、CPUで最大43%高速に動作するモデルファミリーが実現しました。これにより、YOLO26は、リソースが制約された環境にとって、これまでで最も実用的で展開可能なYOLOモデルの1つとなっています。

主な特徴

  • DFLの削除
    Distribution Focal Loss (DFL) モジュールは効果的であるものの、エクスポートを複雑にし、ハードウェア互換性を制限することがよくありました。YOLO26はDFLを完全に削除し、推論を簡素化し、エッジおよび低電力デバイスのサポートを拡大します。

  • エンドツーエンドのNMSフリー推論
    NMSを個別の後処理ステップとして利用する従来の検出器とは異なり、YOLO26はネイティブなエンドツーエンドです。予測が直接生成されるため、レイテンシが削減され、本番システムへの統合がより高速、軽量、かつ信頼性の高いものになります。

  • ProgLoss + STAL
    改善された損失関数はdetect精度を向上させ、IoT、ロボティクス、航空画像、その他のエッジアプリケーションにとって重要な要件である小物体認識において顕著な改善が見られます。

  • MuSGDオプティマイザ
    SGDMuonを組み合わせた新しいハイブリッドオプティマイザ。Moonshot AIのKimi K2に触発され、MuSGDはLLMトレーニングからの高度な最適化手法をコンピュータビジョンに導入し、より安定したトレーニングと高速な収束を可能にします。

  • 最大43%高速なCPU推論
    エッジコンピューティング向けに特別に最適化されたYOLO26は、大幅に高速なCPU推論を実現し、GPUを搭載しないデバイスでもリアルタイムパフォーマンスを保証します。

  • インスタンスセグメンテーションの強化
    モデルの収束を改善するためのセマンティックセグメンテーション損失と、優れたマスク品質のためにマルチスケール情報を活用するアップグレードされたプロトモジュールを導入しています。

  • 高精度姿勢推定
    Residual Log-Likelihood Estimation (RLE) を統合し、より正確なキーポイント局所化を実現し、推論速度向上のためにデコードプロセスを最適化します。

  • 洗練されたobbデコーディング
    特殊な角度損失を導入して正方形オブジェクトのdetect精度を向上させ、境界の不連続性の問題を解決するためにobbデコーディングを最適化します。

Ultralytics YOLO26 エンドツーエンド比較プロット


サポートされているタスクとモード

YOLO26は、以前のUltralytics YOLOリリースによって確立された多用途なモデル範囲を基盤とし、様々なコンピュータービジョンタスクにおいて強化されたサポートを提供します。

モデルファイル名タスク推論検証学習エクスポート
YOLO26yolo26n.pt yolo26s.pt yolo26m.pt yolo26l.pt yolo26x.pt検出
YOLO26-segyolo26n-seg.pt yolo26s-seg.pt yolo26m-seg.pt yolo26l-seg.pt yolo26x-seg.ptインスタンスセグメンテーション
YOLO26-poseyolo26n-pose.pt yolo26s-pose.pt yolo26m-pose.pt yolo26l-pose.pt yolo26x-pose.ptポーズ/キーポイント
YOLO26-obbyolo26n-obb.pt yolo26s-obb.pt yolo26m-obb.pt yolo26l-obb.pt yolo26x-obb.pt傾斜検出
YOLO26-clsyolo26n-cls.pt yolo26s-cls.pt yolo26m-cls.pt yolo26l-cls.pt yolo26x-cls.pt分類

この統一されたフレームワークにより、YOLO26は、リアルタイム検出、セグメンテーション、分類、姿勢推定、および方向指定されたオブジェクト検出に適用可能となり、トレーニング、検証、推論、およびエクスポートのすべてをサポートします。


パフォーマンス指標

パフォーマンス

検出ドキュメントで、80の事前学習済みクラスを含むCOCOでトレーニングされたこれらのモデルの使用例をご覧ください。

モデルサイズ
(ピクセル)
mAPval
50-95
mAPval
50-95(e2e)
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO26n64040.940.138.9 ± 0.71.7 ± 0.02.45.4
YOLO26s64048.647.887.2 ± 0.92.5 ± 0.09.520.7
YOLO26m64053.152.5220.0 ± 1.44.7 ± 0.120.468.2
YOLO26l64055.054.4286.2 ± 2.06.2 ± 0.224.886.4
YOLO26x64057.556.9525.8 ± 4.011.8 ± 0.255.7193.9

セグメンテーションドキュメントで、80の事前学習済みクラスを含むCOCOでトレーニングされたこれらのモデルの使用例をご覧ください。

モデルサイズ
(ピクセル)
mAPbox
50-95(e2e)
mAPmask
50-95(e2e)
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO26n-seg64039.633.953.3 ± 0.52.1 ± 0.02.79.1
YOLO26s-seg64047.340.0118.4 ± 0.93.3 ± 0.010.434.2
YOLO26m-seg64052.544.1328.2 ± 2.46.7 ± 0.123.6121.5
YOLO26l-seg64054.445.5387.0 ± 3.78.0 ± 0.128.0139.8
YOLO26x-seg64056.547.0787.0 ± 6.816.4 ± 0.162.8313.5

分類ドキュメントで、1000の事前学習済みクラスを含むImageNetでトレーニングされたこれらのモデルの使用例をご覧ください。

モデルサイズ
(ピクセル)
acc
top1
acc
top5
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B) at 224
YOLO26n-cls22471.490.15.0 ± 0.31.1 ± 0.02.80.5
YOLO26s-cls22476.092.97.9 ± 0.21.3 ± 0.06.71.6
YOLO26m-cls22478.194.217.2 ± 0.42.0 ± 0.011.64.9
YOLO26l-cls22479.094.623.2 ± 0.32.8 ± 0.014.16.2
YOLO26x-cls22479.995.041.4 ± 0.93.8 ± 0.029.613.6

COCOでトレーニングされ、1つの事前学習済みクラス「person」を含むこれらのモデルの使用例については、ポーズ推定ドキュメントを参照してください。

モデルサイズ
(ピクセル)
mAPpose
50-95(e2e)
mAPpose
50(e2e)
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO26n-pose64057.283.340.3 ± 0.51.8 ± 0.02.97.5
YOLO26s-pose64063.086.685.3 ± 0.92.7 ± 0.010.423.9
YOLO26m-pose64068.889.6218.0 ± 1.55.0 ± 0.121.573.1
YOLO26l-pose64070.490.5275.4 ± 2.46.5 ± 0.125.991.3
YOLO26x-pose64071.691.6565.4 ± 3.012.2 ± 0.257.6201.7

指向性検出ドキュメントで、15の事前学習済みクラスを含むDOTAv1でトレーニングされたこれらのモデルの使用例をご覧ください。

モデルサイズ
(ピクセル)
mAPtest
50-95(e2e)
mAPtest
50(e2e)
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO26n-obb102452.478.997.7 ± 0.92.8 ± 0.02.514.0
YOLO26s-obb102454.880.9218.0 ± 1.44.9 ± 0.19.855.1
YOLO26m-obb102455.381.0579.2 ± 3.810.2 ± 0.321.2183.3
YOLO26l-obb102456.281.6735.6 ± 3.113.0 ± 0.225.6230.0
YOLO26x-obb102456.781.71485.7 ± 11.530.5 ± 0.957.6516.5

使用例

このセクションでは、YOLO26のトレーニングと推論の簡単な例を提供します。これらのモードやその他のモードに関する完全なドキュメントについては、PredictTrainVal、およびExportのドキュメントページを参照してください。

以下の例は、物体detect用のYOLO26 Detectモデルに関するものです。追加でサポートされているタスクについては、SegmentClassifyOBB、およびPoseのドキュメントを参照してください。

PyTorch 学習済み *.pt モデルおよび構成 *.yaml filesを以下に渡すことができます。 YOLO() pythonでモデルインスタンスを作成するためのclass:

from ultralytics import YOLO

# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the YOLO26n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

CLIコマンドは、モデルを直接実行するために利用できます。

# Load a COCO-pretrained YOLO26n model and train it on the COCO8 example dataset for 100 epochs
yolo train model=yolo26n.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained YOLO26n model and run inference on the 'bus.jpg' image
yolo predict model=yolo26n.pt source=path/to/bus.jpg

デュアルヘッドアーキテクチャ

YOLO26はデュアルヘッドアーキテクチャを採用しており、様々な導入シナリオに対応する柔軟性を提供します:

  • 1対1ヘッド(デフォルト):NMSなしでエンドツーエンドの予測を生成し、出力する (N, 300, 6) 1画像あたり最大300回の検出が可能です。このヘッドは高速推論と簡素化されたデプロイメントに最適化されています。
  • 一対多ヘッド:YOLO 生成し、NMS 必要とし、出力する (N, nc + 4, 8400) 場所: nc クラス数である。このヘッドは通常、追加の処理コストを払う代わりに、わずかに高い精度を達成する。

エクスポート、予測、または検証中にヘッドを切り替えることができます:

from ultralytics import YOLO

model = YOLO("yolo26n.pt")

# Use one-to-one head (default, no NMS required)
results = model.predict("image.jpg")  # inference
metrics = model.val(data="coco.yaml")  # validation
model.export(format="onnx")  # export

# Use one-to-many head (requires NMS)
results = model.predict("image.jpg", end2end=False)  # inference
metrics = model.val(data="coco.yaml", end2end=False)  # validation
model.export(format="onnx", end2end=False)  # export
# Use one-to-one head (default, no NMS required)
yolo predict model=yolo26n.pt source=image.jpg
yolo val model=yolo26n.pt data=coco.yaml
yolo export model=yolo26n.pt format=onnx

# Use one-to-many head (requires NMS)
yolo predict model=yolo26n.pt source=image.jpg end2end=False
yolo val model=yolo26n.pt data=coco.yaml end2end=False
yolo export model=yolo26n.pt format=onnx end2end=False

選択はデプロイ要件によって異なります:最高速度と簡便性を求める場合は1対1ヘッドを、精度を最優先とする場合は1対多ヘッドを使用してください。

YOLOE-26: オープンボキャブラリーインスタンスセグメンテーション

YOLOE-26は、高性能なYOLO26アーキテクチャとYOLOEシリーズのオープンボキャブラリー機能を統合しています。これにより、テキストプロンプトビジュアルプロンプト、またはゼロショット推論のためのプロンプトフリーモードを使用して、あらゆるオブジェクトクラスのリアルタイムdetectおよびsegmentを可能にし、固定カテゴリトレーニングの制約を効果的に取り除きます。

YOLO26のNMSフリーのエンドツーエンド設計を活用することで、YOLOE-26は高速なオープンワールド推論を実現します。これにより、関心のあるオブジェクトが広範かつ進化するボキャブラリーを表現する動的な環境におけるエッジアプリケーション向けの強力なソリューションとなります。

パフォーマンス

Objects365v1GQA、およびFlickr30kデータセットでトレーニングされたこれらのモデルの使用例については、YOLOEドキュメントを参照してください。

モデルサイズ
(ピクセル)
プロンプトタイプmAPminival
50-95(e2e)
mAPminival
50-95
mAPrmAPcmAPfparams
(M)
FLOPs
(B)
YOLOE-26n-seg640テキスト/ビジュアル23.7 / 20.924.7 / 21.920.5 / 17.624.1 / 22.326.1 / 22.44.86.0
YOLOE-26s-seg640テキスト/ビジュアル29.9 / 27.130.8 / 28.623.9 / 25.129.6 / 27.833.0 / 29.913.121.7
YOLOE-26m-seg640テキスト/ビジュアル35.4 / 31.335.4 / 33.931.1 / 33.434.7 / 34.036.9 / 33.827.970.1
YOLOE-26l-seg640テキスト/ビジュアル36.8 / 33.737.8 / 36.335.1 / 37.637.6 / 36.238.5 / 36.132.388.3
YOLOE-26x-seg640テキスト/ビジュアル39.5 / 36.240.6 / 38.537.4 / 35.340.9 / 38.841.0 / 38.869.9196.7

Objects365v1GQA、およびFlickr30kデータセットでトレーニングされたこれらのモデルの使用例については、YOLOEドキュメントを参照してください。

モデルサイズ
(ピクセル)
mAPminival
50-95(e2e)
mAPminival
50(e2e)
params
(M)
FLOPs
(B)
YOLOE-26n-seg-pf64016.622.76.515.8
YOLOE-26s-seg-pf64021.428.616.235.5
YOLOE-26m-seg-pf64025.733.636.2122.1
YOLOE-26l-seg-pf64027.235.440.6140.4
YOLOE-26x-seg-pf64029.938.786.3314.4

使用例

YOLOE-26は、テキストベースとビジュアルベースの両方のプロンプトをサポートしています。プロンプトの使用は簡単で、単にそれらを介して渡すだけです predict メソッドを以下に示します。

テキストプロンプトを使用すると、テキストによる記述を通じて検出したいクラスを指定できます。以下のコードは、YOLOE-26を使用して画像内の人物とバスをdetectする方法を示しています。

from ultralytics import YOLO

# Initialize model
model = YOLO("yoloe-26l-seg.pt")  # or select yoloe-26s/m-seg.pt for different sizes

# Set text prompt to detect person and bus. You only need to do this once after you load the model.
names = ["person", "bus"]
model.set_classes(names, model.get_text_pe(names))

# Run detection on the given image
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

ビジュアルプロンプトを使用すると、テキストで記述する代わりに、ターゲットクラスのビジュアルな例を示すことでモデルをガイドできます。

import numpy as np

from ultralytics import YOLO
from ultralytics.models.yolo.yoloe import YOLOEVPSegPredictor

# Initialize model
model = YOLO("yoloe-26l-seg.pt")

# Define visual prompts using bounding boxes and their corresponding class IDs.
# Each box highlights an example of the object you want the model to detect.
visual_prompts = dict(
    bboxes=np.array(
        [
            [221.52, 405.8, 344.98, 857.54],  # Box enclosing person
            [120, 425, 160, 445],  # Box enclosing glasses
        ],
    ),
    cls=np.array(
        [
            0,  # ID to be assigned for person
            1,  # ID to be assigned for glasses
        ]
    ),
)

# Run inference on an image, using the provided visual prompts as guidance
results = model.predict(
    "ultralytics/assets/bus.jpg",
    visual_prompts=visual_prompts,
    predictor=YOLOEVPSegPredictor,
)

# Show results
results[0].show()

YOLOE-26には、組み込みの語彙を持つプロンプトフリーのバリアントが含まれています。これらのモデルはプロンプトを必要とせず、従来のYOLOモデルのように機能します。ユーザーが提供するラベルや視覚的な例に依存する代わりに、4,585のクラスからなる事前定義されたリストからオブジェクトをdetectします。これは、Recognize Anything Model Plus (RAM++)が使用するタグセットに基づいています。

from ultralytics import YOLO

# Initialize model
model = YOLO("yoloe-26l-seg-pf.pt")

# Run prediction. No prompts required.
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

プロンプト技術、ゼロからのトレーニング、および完全な使用例について深く掘り下げるには、YOLOEドキュメンテーションをご覧ください。

引用と謝辞

Ultralytics YOLO26の公開

Ultralyticsは、モデルの急速な進化のため、YOLO26に関する正式な研究論文を公開していません。代わりに、最先端のモデルを提供し、使いやすくすることに重点を置いています。YOLOの機能、アーキテクチャ、および使用方法に関する最新のアップデートについては、GitHubリポジトリおよびドキュメントをご覧ください。

YOLO26またはその他のUltralyticsソフトウェアをあなたの研究で使用する場合は、次のように引用してください。

@software{yolo26_ultralytics,
  author = {Glenn Jocher and Jing Qiu},
  title = {Ultralytics YOLO26},
  version = {26.0.0},
  year = {2026},
  url = {https://github.com/ultralytics/ultralytics},
  orcid = {0000-0001-5950-6979, 0000-0003-3783-7069},
  license = {AGPL-3.0}
}

DOIは保留中です。YOLO26は、AGPL-3.0およびEnterpriseライセンスの下で利用可能です。


よくある質問

YOLO11と比較して、YOLO26の主な改善点は何ですか?

  • DFL削除:エクスポートを簡素化し、エッジ互換性を拡張します
  • エンドツーエンドのNMSフリー推論: NMSを排除し、より高速でシンプルなデプロイメントを実現
  • ProgLoss + STAL:特に小さなオブジェクトの精度を向上
  • MuSGDオプティマイザ: SGDとMuon(MoonshotのKimi K2に触発)を組み合わせ、より安定した効率的なトレーニングを実現
  • 最大43%高速なCPU推論:CPUのみのデバイスのパフォーマンスが大幅に向上

YOLO26はどのようなタスクをサポートしていますか?

YOLO26は統一されたモデルファミリーであり、複数のコンピュータービジョンタスクに対してエンドツーエンドのサポートを提供します。

各サイズバリアント(n、s、m、l、x)はすべてのタスクをサポートし、さらにYOLOE-26を介したオープンボキャブラリーバージョンもサポートします。

YOLO26がエッジ展開に最適化されているのはなぜですか?

YOLO26は、以下により最先端のエッジパフォーマンスを提供します。

  • 最大43%高速なCPU推論
  • モデルサイズとメモリフットプリントの削減
  • 互換性のためにアーキテクチャを簡素化(DFLなし、NMSなし)
  • TensorRT、ONNX、CoreML、TFLite、OpenVINOを含む柔軟なエクスポート形式

YOLO26を始めるにはどうすればよいですか?

YOLO26モデルは2026年1月14日にリリースされ、ダウンロード可能です。をインストールまたは更新してください ultralytics パッケージをインストールし、モデルをロードします。

from ultralytics import YOLO

# Load a pretrained YOLO26 nano model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("image.jpg")

トレーニング、検証、およびエクスポートの手順については、使用例セクションを参照してください。



📅 3ヶ月前に作成✏️ 0日前に更新
glenn-jocherY-T-GLaughing-qraimbekovmfcakyonlmycrosspderrenger

コメント