Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv10 vs EfficientDet:实时目标检测架构对比#

选择最优的神经网络进行 目标检测 是一项关键决策,它决定了现代计算机视觉系统的成败。在这一领域产生重大影响的两个主要架构是 YOLOv10EfficientDet。虽然两者都旨在最大化精度并最小化计算开销,但它们为实现这些目标所采用的架构方法却截然不同。

本指南全面深入探讨了它们独特的设计、训练方法和部署特性,旨在帮助开发人员和机器学习工程师为 视觉 AI 应用 做出数据驱动的决策。我们将评估它们在从嵌入式 边缘 AI 设备 到强大的云端 GPU 等各种硬件上的表现。

Link to this sectionYOLOv10:无 NMS 先驱#

YOLOv10 的开发旨在突破实时延迟的极限,它解决了 YOLO 系列中一个最顽固的瓶颈:非极大值抑制(NMS)。通过取消这一后处理步骤,该模型实现了高度可预测的延迟,这对 自动驾驶汽车 和高速机器人技术至关重要。

Link to this section架构创新#

YOLOv10 引入了用于免 NMS 训练的一致性双重分配。在训练期间,它同时利用一对多(one-to-many)和一对一(one-to-one)标签分配,使网络能够学习丰富的表征,同时在推理时原生输出每个目标的唯一最佳边框(bounding box)。该架构还结合了整体效率与精度驱动的设计,简化了分类头并减少了先前版本中存在的计算冗余。

Link to this section模型详情#

精简的部署

由于 YOLOv10 移除了 NMS 步骤,它本质上更容易导出为 ONNX 格式NVIDIA TensorRT 等格式,而无需依赖自定义运行时插件来进行边框过滤。

优势:

  • 可预测的推理: 移除 NMS 确保了无论场景中有多少个目标,推理时间都能保持一致。
  • 更低的内存使用:RT-DETR 等基于 Transformer 的模型相比,YOLOv10 在训练和推理期间的内存需求显著降低。
  • 出色的速度/精度权衡: 专为低延迟场景优化,且不会牺牲 性能指标

劣势:

了解更多关于 YOLOv10 的信息

Link to this sectionEfficientDet:可扩展且均衡#

EfficientDet 由 Google Brain 推出,通过系统化网络缩放的视角来进行目标检测。它基于 EfficientNet 图像分类骨干网络,并引入了一种新颖的特征融合机制。

Link to this section架构创新#

EfficientDet 的核心是 双向特征金字塔网络(BiFPN),它实现了简单且快速的多尺度特征融合。与仅进行自顶向下特征求和的传统 FPN 不同,BiFPN 引入了双向跨尺度连接和可训练权重,以学习不同输入特征的重要性。此外,EfficientDet 使用了一种复合缩放方法,均匀地缩放骨干网络、特征网络和框/类别预测网络的分辨率、深度和宽度。

Link to this section模型详情#

优势:

  • 高效率: 极佳的参数与精度比,使得较小的 -d0-d2 变体非常轻量。
  • 原则性缩放: 复合缩放允许用户轻松选择符合其精确计算预算的模型大小。

劣势:

  • 遗留框架集成: 最初的实现非常依赖旧版本的 TensorFlow,这可能会使现代部署流程变得复杂。
  • 训练较慢: 与 YOLO 架构的快速收敛相比,从头开始训练 EfficientDet 众所周知非常缓慢,并且需要仔细的超参数调整。
  • 推理速度: 虽然参数效率高,但复杂的 BiFPN 操作往往导致在标准硬件上,其真实环境下的推理速度比高度优化的 YOLO 模型更慢。

了解更多关于 EfficientDet 的信息

Link to this section性能与基准测试#

这些模型的真正考验在于它们在 COCO 数据集 等标准基准测试上的实测表现。下表展示了它们在参数量、浮点运算(FLOPs)以及在 NVIDIA T4 GPU 上的推理延迟方面的关键差异。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
参数量
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

如上所示,YOLOv10 在原始推理速度上保持显著优势。例如,YOLOv10-S 达到 46.7 mAP,TensorRT 延迟仅为 2.66ms,而 EfficientDet-d3 虽然达到相似的 47.5 mAP,但耗时近 20ms——这使得 YOLOv10 在实时视频流或高速制造流水线中具有巨大优势。

Link to this section应用场景与建议#

在 YOLOv10 和 EfficientDet 之间进行选择取决于你的具体项目要求、部署限制和生态系统偏好。

Link to this section何时选择 YOLOv10#

YOLOv10 是以下情况的有力选择:

  • 无需 NMS 的实时检测: 得益于无需非极大值抑制(Non-Maximum Suppression)的端到端检测,能够降低部署复杂性的应用。
  • 平衡的速度与精度权衡: 需要在推理速度和检测精度之间取得良好平衡的各类项目,适用于多种模型规模。
  • 延迟一致的应用:机器人或自动驾驶系统等对可预测推理时间有严格要求的部署场景中。

Link to this section何时选择 EfficientDet#

推荐使用 EfficientDet 的场景:

  • Google Cloud 和 TPU 流水线: 与 Google Cloud Vision API 或 TPU 基础设施深度集成的系统,EfficientDet 在其中具有原生优化优势。
  • 复合缩放研究: 专注于研究平衡网络深度、宽度和分辨率缩放效果的学术基准测试。
  • 通过 TFLite 进行移动端部署: 专门需要 TensorFlow Lite 导出以用于 Android 或嵌入式 Linux 设备的各种项目。

Link to this section何时选择 Ultralytics (YOLO26)#

对于大多数新项目,Ultralytics YOLO26 提供了性能和开发者体验的最佳组合:

  • 无 NMS 的边缘部署: 需要一致、低延迟推理且无需复杂非极大值抑制后处理的应用。
  • 仅 CPU 环境: 没有专用 GPU 加速的设备,YOLO26 带来的高达 43% 的 CPU 推理提速可提供决定性优势。
  • 小目标检测: 具有挑战性的场景,如 aerial drone imagery 或 IoT 传感器分析,其中 ProgLoss 和 STAL 可显著提升对极小目标的检测精度。

Link to this section现代标准:隆重推出 Ultralytics YOLO26#

虽然 YOLOv10 引入了开创性的免 NMS 范式,EfficientDet 展示了原则性缩放,但计算机视觉领域仍在持续发展。对于今天开始新项目的开发人员来说,Ultralytics YOLO26 代表了无可争议的行业顶尖水平。它于 2026 年 1 月发布,将各方的精华融合成一个在 Ultralytics 平台 内高度精炼、可直接生产的套件。

Link to this section为什么 YOLO26 优于竞争对手#

  1. 端到端免 NMS 设计: YOLO26 原生采用了 YOLOv10 首创的端到端免 NMS 架构,简化了部署并加速了推理。
  2. CPU 推理速度提升高达 43%: 对于缺乏专用加速器的边缘设备,YOLO26 经过专门优化,可在标准 CPU 上高效运行。
  3. 先进的 MuSGD 优化器: 受大语言模型训练创新的启发,YOLO26 结合了 SGD 和 Muon 的混合算法,实现了极度稳定的训练和快速收敛,与 EfficientDet 相比,显著提高了 训练效率
  4. ProgLoss + STAL: 这些改进的损失函数在小目标识别上提供了显著提升,而这正是 YOLOv10 和 EfficientDet 的传统弱点。
  5. 移除 DFL: 通过移除分布式焦点损失(Distribution Focal Loss),YOLO26 可以无缝导出到几乎任何硬件格式,包括 OpenVINO 和 CoreML。

Furthermore, YOLO26 provides unmatched versatility. While EfficientDet and YOLOv10 are strictly detection models, YOLO26 seamlessly handles oriented bounding boxes, image classification, and instance segmentation using the same intuitive Ultralytics Python package.

维护完善的生态系统

YOLO11YOLOv8 在 Ultralytics 生态系统中均保持全面支持。为了获得性能、稳定性和长期支持的最佳结合,我们建议使用官方维护的 Ultralytics 模型。

Link to this section借助 Ultralytics 实现轻松使用#

Ultralytics 提供的完善生态系统确保了流畅的开发体验。训练模型、验证模型并将其导出为 TensorRT 集成 只需几行代码即可完成。

from ultralytics import YOLO

# Load a pre-trained YOLOv10 model (or upgrade to YOLO26 natively)
model = YOLO("yolov10n.pt")

# Train the model efficiently on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference and immediately visualize results
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

# Export for rapid deployment
model.export(format="engine", half=True)

Link to this section结论#

在比较 YOLOv10 和 EfficientDet 时,选择很大程度上取决于你的框架偏好和速度限制。EfficientDet 在 TensorFlow 生态系统中提供了一种结构化的模型缩放方法。然而,由于其免 NMS 的架构,YOLOv10 在实时性能、较低内存占用和更直接的部署路径方面表现更优。

为了获得绝对最佳的性能平衡、易用性和多任务处理能力,强烈建议升级到 Ultralytics 平台 并使用 YOLO26。它汲取了 YOLOv10 免 NMS 的创新,应用了 MuSGD 优化器等顶尖训练技术,并将其封装在由庞大全球社区支持的稳健开源框架中。

评论