Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv6-3.0 与 YOLO26:深入剖析实时目标检测#

实时目标检测的演进带来了惊人的创新,人们的关注点往往在工业级 GPU 吞吐量和多功能、边缘优化架构之间摇摆。在这篇详尽的比较中,我们将探讨两个重量级模型之间的细微差别:专注于工业领域的 YOLOv6-3.0 和新发布的原生端到端 Ultralytics YOLO26

无论你是部署在高端服务器 GPU 上还是低功耗边缘设备上,理解这些模型的架构优势和理想用例对于优化你的计算机视觉流水线至关重要。

Link to this sectionYOLOv6-3.0:工业吞吐量#

YOLOv6-3.0 由美团视觉 AI 部门开发,旨在成为“工业应用的新一代目标检测器”。它高度专注于最大化硬件加速器(如专用 GPU)上的吞吐量,使其成为高速离线视频分析的强大工具。

  • 作者: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu 和 Xiangxiang Chu
  • 组织: 美团
  • 日期: 2023-01-13
  • Arxiv: 2301.05586
  • GitHub: meituan/YOLOv6
  • 文档: YOLOv6 文档

Link to this section架构重心#

YOLOv6-3.0 在其颈部采用了双向连接 (BiC) 模块来改进特征融合,并结合了锚点辅助训练 (AAT) 策略。其主干网络基于 EfficientRep,这是一种旨在对 GPU 推理高度硬件友好的拓扑结构。虽然这使得它在利用 NVIDIA TensorRT 时速度极快,但在缺乏大规模并行处理能力的 CPU 或边缘设备上可能会导致更高的延迟。

了解更多关于 YOLOv6-3.0 的信息

Link to this sectionYOLO26:边缘和云端的新标准#

于 2026 年 1 月发布的 Ultralytics YOLO26 代表了一种范式转移。它摆脱了复杂的后处理,拥抱了一个更快、更小且更易于部署的统一多任务框架。

Link to this section关键架构突破#

YOLO26 引入了多项使其区别于前几代的开拓性进步:

  • 端到端无 NMS 设计: 基于 YOLOv10 开创的概念,YOLO26 原生实现了端到端。它彻底消除了 非极大值抑制 (NMS) 后处理,从而显著降低了延迟波动并大幅简化了部署逻辑。
  • CPU 推理速度提升高达 43%: 专为边缘计算进行优化,YOLO26 在没有 GPU 的设备上表现出色,使其成为手机、物联网传感器和机器人的理想选择。
  • 移除 DFL: 已移除分布焦点损失 (Distribution Focal Loss),简化了模型导出过程,增强了与低功耗边缘设备的兼容性。
  • MuSGD 优化器: 受 Moonshot AI 的 Kimi K2 等 LLM 训练创新启发,全新的 MuSGD 优化器(随机梯度下降 与 Muon 的混合体)为视觉任务带来了大规模稳定性,确保了更快的收敛速度。
  • ProgLoss + STAL: 先进的损失函数在小目标识别方面取得了显著改进,这对于处理航拍图像和拥挤场景的应用来说是一项关键增强。

了解更多关于 YOLO26 的信息

多任务能力

与仅处理边界框的 YOLOv6-3.0 不同,YOLO26 在各个方面都进行了针对任务的改进。这包括用于实例分割的语义分割损失和多尺度原型,用于姿态估计的残差对数似然估计 (RLE),以及用于解决旋转边界框 (OBB) 边界问题的专门角度损失。

Link to this section详细性能对比#

在评估模型时,速度、精度和参数效率之间的平衡至关重要。下表重点展示了这些模型在 COCO 数据集上的表现。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
参数量
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

从数据中可以看出,YOLO26 始终实现了更卓越的性能平衡。例如,YOLO26n 在 mAP 上比 YOLOv6-3.0n 提升了 +3.4,同时仅需大约一半的参数和 FLOPs。

Link to this sectionUltralytics 的优势#

选择模型还需要评估其周围的软件生态系统。在这方面,Ultralytics 套件相比静态研究存储库提供了决定性优势:

  • 易用性: Ultralytics 提供了“从零到英雄”的开发者体验。其统一的 Python API 允许用户只需修改一个字符串参数即可在不同任务和模型之间切换。
  • Well-Maintained Ecosystem: Through the Ultralytics Platform, developers gain access to an actively updated environment that supports continuous dataset management, cloud training, and seamless model export to formats like ONNX and OpenVINO.
  • 内存需求: YOLO26 拥有一种高效的训练方法,在训练和推理期间对内存的需求显著降低。这与基于 Transformer 的架构(如 RT-DETR)形成了鲜明对比,后者需要大量的 CUDA 内存分配。
  • 多功能性: 通过原生支持分类、检测、分割和姿态估计,YOLO26 成为处理复杂多模态视觉应用的一站式解决方案。
探索替代方案

如果你正在构建一个通用的机器学习流水线并希望探索生态系统内的其他强大选项,Ultralytics YOLO11 仍然是企业部署中非常稳定且被广泛采用的基础。

Link to this section代码示例:让训练变得简单#

使用 Ultralytics 库进行部署和训练只需最少的代码,从而抽象掉了直接基于原始 PyTorch 的框架所必需的复杂样板代码。下面的代码片段演示了如何加载、训练和验证 YOLO26 模型。

from ultralytics import YOLO

# Load the highly efficient, end-to-end YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset with the advanced MuSGD optimizer
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Utilizes GPU for accelerated training
)

# Validate the trained model's performance
metrics = model.val()
print(f"Validation mAP: {metrics.box.map}")

# Run NMS-free inference on a sample image
prediction = model.predict("https://ultralytics.com/images/bus.jpg")

Link to this section理想使用场景#

选择合适的架构需要将模型优势与实际约束相匹配:

  • 何时部署 YOLOv6-3.0: 非常适合静态的服务器端部署,即批处理至关重要的场景。高速生产线或配备专用 A100 或 T4 GPU 的集中式智慧城市视频中心等环境将受益于其 EfficientRep 主干网络。
  • 何时部署 YOLO26: 现代、可扩展应用的不二之选。其快 43% 的 CPU 推理速度和无 NMS 架构使其非常适合无人机分析、远程物联网传感器、移动机器人,以及任何需要在严格功率约束下兼顾低延迟和高精度的边缘计算场景。

Link to this section结论#

虽然 YOLOv6-3.0 在运行旧版 TensorRT 配置的特定高吞吐量工业流水线中仍有实用价值,但 Ultralytics YOLO26 代表了计算机视觉的未来。通过引入受 LLM 启发的训练优化 (MuSGD) 并消除后处理瓶颈,YOLO26 提供了无与伦比的灵活性、速度和精度。再加上稳健且用户友好的 Ultralytics 生态系统,它使开发者能够以前所未有的轻松程度构建和部署最先进的视觉应用。

评论