Meet YOLO26: next-gen vision AI.

Link to this sectionUltralytics YOLO26#

Link to this section概述#

Ultralytics YOLO26 是一个统一的实时视觉模型系列,详见 Ultralytics YOLO26 论文。它引入了原生端到端推理、更轻量的检测头、更新的训练方案,以及针对检测、分割、姿态估计、分类和定向检测的特定任务头。

在五个检测尺度上,YOLO26 在 COCO 上达到了 40.9-57.5 mAP,且 T4 TensorRT 延迟仅为 1.7-11.8 毫秒。该论文还报告称,与 YOLO11n 相比,YOLO26n 在 Intel Xeon CPU @ 2.00 GHz 上的 CPU ONNX 推理速度提升了高达 43%

Ultralytics YOLO26 对比图

在 Ultralytics Platform 上试用

Ultralytics Platform 上直接探索并运行 YOLO26 模型。

YOLO26 模型系列围绕四个设计领域构建:

  • 原生端到端推理: 默认的一对一检测头无需非极大值抑制(NMS)即可生成预测,简化了部署并减少了后处理工作。
  • 更轻量的框回归: YOLO26 移除了分布焦点损失(DFL),在保持无约束回归范围的同时降低了检测头的复杂度。
  • 训练配方更新: 训练流水线结合了 MuSGDProgressive LossSTAL,旨在改进优化,将监督重点转向推理时的头部,并保持对小目标的正面标签覆盖。已发布检查点背后的完整超参数记录在 YOLO26 Training Recipe guide 中。
  • 特定任务的头部和损失函数: YOLO26 增加了针对实例分割、语义分割变体、姿态估计和定向检测的专项设计,同时在不同任务间保持统一的模型流水线。

总而言之,这些更新优化了各模型尺度和部署目标在准确率与延迟之间的权衡。

Link to this section主要特性#

  • 无 DFL 回归 YOLO26 移除了分布焦点损失(DFL),降低了检测头的复杂度并简化了模型导出。

  • 端到端无需 NMS 推理 与传统检测器依赖 NMS 作为独立的后处理步骤不同,YOLO26 默认是原生端到端的。预测结果直接生成,从而降低了延迟并简化了生产环境集成。

  • Progressive Loss + STAL Progressive Loss 将训练重点转向推理阶段的头部,而 STAL 则改善了针对小目标的正标签覆盖率。

  • MuSGD 优化器 这是一个混合优化器,结合了 SGDMuon,将大型语言模型训练中的优化思想应用于计算机视觉领域。

  • 高效部署 简化的头部和无需 NMS 的默认路径减少了跨导出目标和硬件配置文件的推理开销,包括论文中报道的 YOLO26n 对比 YOLO11n 的 CPU ONNX 速度提升。

  • 实例分割增强 引入了语义分割损失以提高模型收敛速度,并升级了原型模块(proto module),利用多尺度信息实现卓越的掩码质量。论文报告称,在 COCO 实例分割任务上,相较于 YOLO11,其框 AP 提升高达 +2.5,掩码 AP 提升高达 +3.7。

  • 精准姿态估计 集成了 Residual Log-Likelihood Estimation (RLE) 以实现更精确的关键点定位,并优化了解码过程以提高推理速度。论文报告称,在 COCO 姿态估计任务上,其 AP 较 YOLO11 提升高达 +7.2。

  • 改进的 OBB 解码 引入了专门的角度损失以提高方形物体的检测准确率,并优化了 OBB 解码以解决边界不连续问题。论文报告称,在 DOTA-v1.0 定向检测任务上,其 mAP 较 YOLO11 提升高达 +3.4。

Ultralytics YOLO26 端到端对比图


Link to this section支持的任务和模式#

YOLO26 在五个模型尺度上支持标准的 Ultralytics 任务集:

模型文件名任务推理验证训练导出
YOLO26yolo26n.pt yolo26s.pt yolo26m.pt yolo26l.pt yolo26x.pt检测
YOLO26-segyolo26n-seg.pt yolo26s-seg.pt yolo26m-seg.pt yolo26l-seg.pt yolo26x-seg.pt实例分割
YOLO26-semyolo26n-sem.pt yolo26s-sem.pt yolo26m-sem.pt yolo26l-sem.pt yolo26x-sem.pt语义分割
YOLO26-poseyolo26n-pose.pt yolo26s-pose.pt yolo26m-pose.pt yolo26l-pose.pt yolo26x-pose.pt姿态/关键点
YOLO26-obbyolo26n-obb.pt yolo26s-obb.pt yolo26m-obb.pt yolo26l-obb.pt yolo26x-obb.pt定向检测
YOLO26-clsyolo26n-cls.pt yolo26s-cls.pt yolo26m-cls.pt yolo26l-cls.pt yolo26x-cls.pt分类

这一统一框架涵盖了实时检测、实例分割、语义分割、分类、姿态估计和定向目标检测,并提供训练、验证、推理和导出支持。

仅架构变体

yolo26-p2.yamlyolo26-p6.yaml 增加了 P2(小目标)或 P6(大输入)检测头,仅作为 YAML 架构发布。没有针对特定尺度的 yolo26*-p2.ptyolo26*-p6.pt 权重。你可以从 YAML 实例化缩放配置(例如 YOLO("yolo26n-p6.yaml")),并根据需要进行训练或微调。


Link to this section性能指标#

性能

参阅 检测文档 获取在 COCO 上训练的这些模型的使用示例,这些模型包含 80 个预训练类别。

模型尺寸
(像素)
mAPval
50-95
mAPval
50-95(e2e)
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
参数量
(M)
FLOPs
(B)
YOLO26n64040.940.138.9 ± 0.71.7 ± 0.02.45.4
YOLO26s64048.647.887.2 ± 0.92.5 ± 0.09.520.7
YOLO26m64053.152.5220.0 ± 1.44.7 ± 0.120.468.2
YOLO26l64055.054.4286.2 ± 2.06.2 ± 0.224.886.4
YOLO26x64057.556.9525.8 ± 4.011.8 ± 0.255.7193.9

参数和 FLOPs 数值基于 model.fuse() 后的融合模型,该操作会合并 Conv 和 BatchNorm 层并移除辅助的一对多检测头。预训练检查点保留完整的训练架构,可能会显示更高的统计数值。


Link to this section使用示例#

本节提供简单的 YOLO26 训练和推理示例。有关这些模式及其他 模式 的完整文档,请参阅 预测 (Predict)训练 (Train)验证 (Val)导出 (Export) 文档页面。

请注意,以下示例适用于 YOLO26 检测 (Detect) 模型,用于 目标检测。有关更多支持的任务,请参阅 分割 (Segment)语义分割 (Semantic Segmentation)分类 (Classify)旋转目标检测 (OBB)姿态估计 (Pose) 文档。

示例

PyTorch 预训练的 *.pt 模型以及配置文件 *.yaml 均可传递给 YOLO() 类,从而在 Python 中创建模型实例:

from ultralytics import YOLO

# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the YOLO26n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")
双头架构

YOLO26 检测模型采用 双头架构,为不同的部署场景提供了灵活性:

  • 一对一检测头(默认):无需 NMS 即可产生端到端预测,输出 (N, 300, 6),每张图片最多 300 个检测结果。此检测头针对快速推理和简化部署进行了优化。
  • 一对多检测头:生成需要 NMS 后处理的传统 YOLO 输出,输出 (N, nc + 4, 8400),其中 nc 为类别数量。此检测头通常以额外的处理成本为代价,实现略高的精度。

你可以在导出、预测或验证过程中切换检测头:

from ultralytics import YOLO

model = YOLO("yolo26n.pt")

# Use one-to-one head (default, no NMS required)
results = model.predict("image.jpg")  # inference
metrics = model.val(data="coco.yaml")  # validation
model.export(format="onnx")  # export

# Use one-to-many head (requires NMS)
results = model.predict("image.jpg", end2end=False)  # inference
metrics = model.val(data="coco.yaml", end2end=False)  # validation
model.export(format="onnx", end2end=False)  # export

选择取决于你的部署需求:使用一对一检测头以获得最大的速度和简便性,或者在精度为首要任务时使用一对多检测头。

Link to this sectionYOLOE-26:开放词汇检测与分割#

YOLOE-26 通过 YOLOE 系列的开放词汇功能扩展了 YOLO26。它支持使用 文本提示 (text prompts)视觉提示 (visual prompts)无提示模式 (prompt-free mode) 对开放集对象类别进行实时检测和分割。

利用 YOLO26 的 无需 NMS 的端到端设计,YOLOE-26 保持了足够快的开放词汇推理速度,适用于目标类别随时间变化的动态环境。在文本提示下,YOLOE-26x 在 LVIS minival 上达到了 40.6 AP,在视觉提示下达到了 38.5 AP,在无提示的非端到端设置下达到了 31.1 AP

性能

查看 YOLOE Docs 以获取在 Objects365v1GQAFlickr30k 数据集上训练的这些模型的使用示例。

模型尺寸
(像素)
提示类型mAPminival
50-95(e2e)
mAPminival
50-95
mAPrmAPcmAPf参数量
(M)
FLOPs
(B)
YOLOE-26n-seg640文本/视觉23.7 / 20.924.7 / 21.920.5 / 17.624.1 / 22.326.1 / 22.44.86.0
YOLOE-26s-seg640文本/视觉29.9 / 27.130.8 / 28.623.9 / 25.129.6 / 27.833.0 / 29.913.121.7
YOLOE-26m-seg640文本/视觉35.4 / 31.335.4 / 33.931.1 / 33.434.7 / 34.036.9 / 33.827.970.1
YOLOE-26l-seg640文本/视觉36.8 / 33.737.8 / 36.335.1 / 37.637.6 / 36.238.5 / 36.132.388.3
YOLOE-26x-seg640文本/视觉39.5 / 36.240.6 / 38.537.4 / 35.340.9 / 38.841.0 / 38.869.9196.7

Link to this section使用示例#

YOLOE-26 支持基于文本和视觉的提示。使用提示很简单——只需通过如下所示的 predict 方法传入它们:

示例

文本提示允许你通过文本描述指定你希望检测的类别。以下代码展示了如何使用 YOLOE-26 检测图像中的人和公交车:

from ultralytics import YOLO

# Initialize model
model = YOLO("yoloe-26l-seg.pt")  # or select yoloe-26s/m-seg.pt for different sizes

# Set text prompt to detect person and bus. You only need to do this once after you load the model.
model.set_classes(["person", "bus"])

# Run detection on the given image
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

有关提示技术和完整使用示例,请访问 YOLOE 文档

Link to this section引用与致谢#

有关 YOLO26 架构、训练配方、任务头和 YOLOE-26 开放词汇扩展的完整技术描述,请阅读 Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models。如果你在研究中使用 YOLO26,请引用:

引用
@misc{jocher2026ultralyticsyolo26unifiedrealtime,
  title = {Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models},
  author = {Glenn Jocher and Jing Qiu and Mengyu Liu and Shuai Lyu and Fatih Cagatay Akyon and Muhammet Esat Kalfaoglu},
  year = {2026},
  eprint = {2606.03748},
  archivePrefix = {arXiv},
  primaryClass = {cs.CV},
  doi = {10.48550/arXiv.2606.03748},
  url = {https://arxiv.org/abs/2606.03748},
}

YOLO26 代码、模型和文档可在 Ultralytics GitHub 存储库Ultralytics 文档 中找到,并遵循 AGPL-3.0Enterprise 许可协议。


Link to this section常见问题解答#

Link to this sectionYOLO26 的主要改进是什么?#

  • 无 DFL 回归:简化了检测头和导出路径
  • 端到端无 NMS 推理:从默认推理路径中移除了 NMS
  • 渐进式损失 + STAL:改进了训练对齐和小目标标签覆盖
  • MuSGD 优化器:结合了 SGD 和受 Muon 启发的优化,以实现稳定的训练
  • 任务特定的头和损失:改进了对分割、姿态和旋转检测的支持

Link to this sectionYOLO26 支持哪些任务?#

YOLO26 是一个统一的模型系列,为多个计算机视觉任务提供端到端支持:

每种尺寸变体(n, s, m, l, x)都支持所有任务,并通过 YOLOE-26 支持开放词汇版本。

Link to this section为什么 YOLO26 在部署方面如此高效?#

YOLO26 通过以下特性提升了部署效率:

  • 默认支持无需 NMS 的原生端到端推理
  • 无 DFL 回归及更轻量化的检测头
  • 融合模型导出,移除仅用于训练的辅助组件
  • 在 Intel Xeon CPU @ 2.00 GHz 上,YOLO26n 的 CPU ONNX 推理速度比 YOLO11n 快达 43%
  • 灵活的导出格式,包括 TensorRT、ONNX、CoreML、TFLite 和 OpenVINO

Link to this section如何开始使用 YOLO26?#

你可以通过 ultralytics 软件包下载 YOLO26 模型。安装或更新该软件包并加载模型:

from ultralytics import YOLO

# Load a pretrained YOLO26 nano model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("image.jpg")

请参阅 使用示例 部分以获取训练、验证和导出说明。

评论