Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO26 与 EfficientDet#

为任何 计算机视觉 应用选择合适的神经网络架构对于成功至关重要。本技术指南探讨了两种主流模型的权衡、性能指标和架构创新:尖端的 Ultralytics YOLO26 和 Google 成熟的 EfficientDet。

无论你的部署目标是高吞吐量的云服务器,还是受限于延迟的 边缘 AI 设备,了解这些架构之间的差异都能确保在速度、精度和效率之间实现最佳平衡。

Link to this section架构概述:YOLO26#

作者: Glenn Jocher 和 Jing Qiu
组织: Ultralytics
日期: 2026-01-14
GitHub: Ultralytics GitHub
文档: YOLO26 官方文档

发布于 2026 年初的 YOLO26 代表了 YOLO 系列的最新演进,专门为提供无与伦比的用户体验和顶尖的 平均精度均值 (mAP) 而设计。它专为现代硬件从零打造,在 目标检测实例分割图像分类姿态估计 方面提供了卓越的多功能性。

YOLO26 引入了多项突破性功能,极大地提高了训练稳定性和推理速度:

  • 端到端无 NMS 设计: 基于 YOLOv10 开创的概念,YOLO26 原生支持端到端,完全消除了对非极大值抑制 (NMS) 后处理的需求。这带来了更简单的部署逻辑和显著降低的延迟波动。
  • 高达 43% 的 CPU 推理速度提升: 通过深度架构优化,该模型在标准 CPU 上实现了前所未有的推理速度,使其非常适合物联网和嵌入式环境。
  • 移除 DFL: 分布焦点损失 (Distribution Focal Loss) 已被移除,从而实现了更简洁的导出过程,并增强了与使用 ONNX 等工具的低功耗边缘设备的兼容性。
  • MuSGD 优化器:Moonshot AI Kimi K2 大语言模型训练路径的启发,这种 SGD 和 Muon 的混合体将大语言模型训练的创新直接引入了计算机视觉领域,确保了更快的收敛和更稳定的训练方案。
  • ProgLoss + STAL: 这些先进的损失函数在小目标识别方面表现显著,这对于涉及无人机航拍影像和机器人的应用至关重要。
简化的导出

得益于 DFL 的移除和无 NMS 架构,将 YOLO26 模型导出为 NVIDIA TensorRTIntel OpenVINO 等边缘友好格式几乎不需要自定义插件开发。

了解更多关于 YOLO26 的信息

Link to this section架构概览:EfficientDet#

作者: Mingxing Tan, Ruoming Pang 和 Quoc V. Le
组织: Google Research
日期: 2019-11-20
Arxiv: EfficientDet 论文
GitHub: Google AutoML 仓库

由 Google 推出,EfficientDet 大量利用了 TensorFlow 生态系统,并围绕复合缩放概念进行设计。其架构根据资源约束同时扩展骨干网络、特征网络和框/类别预测网络。

EfficientDet 的关键创新包括:

  • BiFPN(双向特征金字塔网络): 一种允许简单快速的多尺度特征融合的机制,使网络能够更好地理解不同尺寸的目标。
  • 复合缩放: 一种统一缩放分辨率、深度和宽度的启发式方法,创建了从 d0(最小)到 d7(最大)的模型家族。

虽然 EfficientDet 在严格的边界框检测方面仍然是一个可靠的选择,但它通常缺乏现代多任务处理能力(如原生的 OBB 任务)以及现代开发者所期望的精简、统一的 Python 生态系统。

了解更多关于 EfficientDet 的信息

Link to this section性能与指标对比#

为了确定速度与精度的帕累托前沿,我们在使用 COCO 数据集 的标准环境中对两种架构进行了基准测试。下表重点介绍了在 AWS EC2 P4d 实例上测得的模型大小、精度和延迟差异。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
参数量
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

如上所示,YOLO26 建立了优越的性能平衡。YOLO26x 模型实现了最高精度 (57.5 mAP),显著优于最重的 EfficientDet-d7。此外,YOLO26 模型表现出显著更低的内存需求和更快的 GPU 推理速度(在 TensorRT 上低至 1.7 ms),凸显了无 NMS 设计的优势。

Link to this section训练效率与生态系统优势#

这两种架构的主要区别在于它们的开发环境。EfficientDet 深度嵌入在 Google AutoML 和 TensorFlow 生态系统中,虽然功能强大,但对于像 DOTAv1 这样的自定义数据集,可能会带来陡峭的学习曲线和僵化的配置。

相反,Ultralytics 提供了一个基于 PyTorch 维护良好的生态系统。训练期间的内存使用经过严格优化,使工程师能够训练稳健的模型,而无需像基于 Transformer 的网络那样占用过多的 VRAM。

统一平台集成

通过 Ultralytics 平台,开发者可以获得端到端的 MLOps 工作流程。这包括无缝的数据标注、自动超参数调优和一键云训练,显著加快了从原型到生产的进程。

Link to this section实现示例#

Ultralytics API 提供的易用性意味着你只需几行代码即可训练和验证最先进的 YOLO26 模型。

from ultralytics import YOLO

# Initialize the End-to-End NMS-Free YOLO26 model
model = YOLO("yolo26n.pt")

# Train using the innovative MuSGD optimizer on a custom dataset
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="0",  # Train on GPU
)

# Export natively to TensorRT for ultra-low latency deployment
model.export(format="engine")

Link to this section理想使用场景#

何时使用 YOLO26:

  • 边缘计算与移动端: 由于 CPU 推理速度提升高达 43% 且没有 NMS 开销,YOLO26 在计算预算极其受限的设备(如 Raspberry Pi 或手机)上表现出色。
  • 多任务处理: 当单个流水线需要边界框、分割掩码 和跟踪时,YOLO26 的多功能性是无与伦比的。
  • 无人机与航拍影像: ProgLoss 和 STAL 的结合极大地增强了从高空检测极小目标的能力。

何时使用 EfficientDet:

  • 遗留 TensorFlow 流水线: 如果你的基础设施被严重硬编码为仅支持 TensorFlow SavedModel,或者需要特定的 TensorFlow Serving 流水线,EfficientDet 提供了原生兼容性。
  • 资源受限的 TPU: EfficientDet 针对 Google 的自定义张量处理单元 (TPU) 进行了大量优化。

Link to this section探索其他替代方案#

尽管本指南主要关注 YOLO26 vs EfficientDet 范式,但更广泛的 Ultralytics 生态系统包含其他出色的架构。如果你的应用严重依赖 Transformer,RT-DETR 提供了基于 Transformer 的实时检测。或者,如果你在维护遗留系统,YOLO11 依然得到全面支持且非常有效。如需更全面的概述,请访问 Ultralytics 模型比较中心

总之,对于当今构建的任何现代计算机视觉流水线,YOLO26 凭借其出色的速度、易用性和最先进的精度,成为研究人员和开发者的不二之选。

评论