Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv10 与 YOLOv8#

实时目标检测的演进见证了一系列开创性架构的快速更迭,每一代都在不断挑战精度、推理速度和计算效率的极限。在这份全面的技术指南中,我们将对比计算机视觉领域两个重要的里程碑:YOLOv10Ultralytics YOLOv8。虽然 YOLOv8 确立了一个高度通用且可直接用于生产的标准,但 YOLOv10 引入了旨在专门消除后处理瓶颈的架构变革。

对于旨在将最先进的视觉 AI 解决方案部署到实际场景中的开发者和研究人员来说,了解这些模型独特的优势、架构和性能指标至关重要。

Link to this section技术规格与作者信息#

为了有效评估这些模型,了解它们的起源以及各自研究团队的核心关注点会有所帮助。

Link to this sectionYOLOv10:端到端效率#

YOLOv10 由清华大学的研究人员开发,旨在解决前几代模型中因后处理步骤而带来的计算开销问题。

了解更多关于 YOLOv10 的信息

Link to this sectionUltralytics YOLOv8:多功能标准#

YOLOv8 发布于 2023 年初,凭借其稳健的架构以及在更广泛的机器学习生态系统中的无与伦比的集成能力,迅速成为行业主流。

了解更多关于 YOLOv8 的信息

Link to this section架构创新#

这两个模型都对传统的 YOLO 架构进行了重大改进,尽管它们侧重的流水线方面略有不同。

Link to this sectionYOLOv10 架构#

YOLOv10 的突出特点是其 NMS-free 训练策略。传统上,目标检测器在推理过程中依赖 非极大值抑制 (NMS) 来过滤掉重叠的边界框。这一步骤可能会引入延迟并使端到端部署变得复杂。YOLOv10 在训练期间采用了一致的双重分配机制,这使得模型能够原生预测每个对象单个、精确的边界框。此外,它利用了以效率-精度为导向的整体模型设计,优化了各种组件,从而显著减少了 FLOPs 和参数量。

Link to this sectionYOLOv8 架构#

YOLOv8 引入了 无锚点(anchor-free)检测头,摒弃了其前身基于锚点(anchor-based)的方法。这减少了框预测的数量并加快了 NMS 操作 的速度。此外,YOLOv8 集成了 C2f 模块(带有两个卷积的跨阶段局部瓶颈),该模块改善了梯度流,并允许网络在不大幅增加计算成本的情况下学习更丰富的特征表示。其解耦头结构将目标性、分类和回归任务分离开来,从而实现了更快的收敛和更高的整体精度。

Link to this section性能与基准测试#

当将模型部署到边缘设备或云服务器时,速度与精度之间的权衡至关重要。下表直接对比了两种模型在不同尺寸下的表现。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
参数量
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

注:空白单元格表示未在相同测试条件下正式报告的指标。

正如数据所示,YOLOv10 表现出了卓越的参数效率,通常能在使用更少参数和 FLOPs 的情况下达到或超过其 YOLOv8 对应模型的 mAP。然而,YOLOv8 仍然极具竞争力,通过提供高度优化的 TensorRT 集成,确保了在现代 GPU 上实现最小的推理延迟。

硬件加速

在面向生产环境时,利用 ONNX 或 TensorRT 等格式可以显著提高推理速度。YOLOv8 和 YOLOv10 都支持无缝导出到这些高度优化的图形格式。

Link to this section生态系统、训练效率和多功能性#

选择模型不仅仅是看理论基准;开发者体验和周边生态系统也同样重要。

Link to this sectionUltralytics 的优势#

YOLOv8 的核心优势之一是它与 Ultralytics 生态系统 的深度集成。该环境提供了“从零到英雄”的体验,其特点是具有高度直观的 Python API 和详尽的文档。与可能需要复杂环境配置的以研究为中心的存储库不同,Ultralytics 模型以其 易用性 而闻名。

此外,YOLOv8 天生具有多功能性。虽然 YOLOv10 专门针对目标检测进行了优化,但 Ultralytics 框架允许开发者在完全相同的库和 API 结构内,无缝切换 目标检测实例分割图像分类姿态估计旋转边界框 (OBB) 任务。

Link to this section内存需求与训练#

Ultralytics YOLO 模型的设计重点在于训练效率。与复杂的 Transformer 模型 相比,它们在训练和推理过程中通常表现出更低的内存占用,使开发者能够在消费级硬件或标准云实例上训练最先进的模型,而不会耗尽 CUDA 内存。对超参数调整和数据增强的自动处理确保了快速收敛。

以下是一个使用 Ultralytics Python API 训练和验证模型的简便示例:

from ultralytics import YOLO

# Load a pretrained model (YOLOv8 recommended for general tasks)
model = YOLO("yolov8n.pt")

# Train the model on the COCO8 dataset with automatic memory management
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Run inference on a test image
predictions = model("https://ultralytics.com/images/zidane.jpg")
predictions[0].show()

Link to this section下一代:YOLO26#

虽然 YOLOv8 和 YOLOv10 代表了卓越的里程碑,但机器学习领域正在不断进步。对于开启新项目的开发者,我们强烈建议使用 YOLO26,这是 Ultralytics 于 2026 年 1 月发布的最新旗舰模型。

YOLO26 将过去几年中最优秀的架构改进集成到一个高度优化的框架中。它继承了以 YOLOv10 为代表的模型所开创的 端到端 NMS-Free 设计,简化了部署流水线并减少了延迟波动。此外,YOLO26 引入了 MuSGD 优化器,这是一种受 LLM 训练稳定性启发而来的混合优化器,可确保更快速、更稳定的收敛。

YOLO26 的主要改进包括:

  • CPU 推理速度提升高达 43%: 通过去除分布焦点损失(DFL),针对边缘设备进行了深度优化。
  • ProgLoss + STAL: 先进的损失函数显著改善了小目标识别能力,这对于无人机图像和 IoT 传感器至关重要。
  • 针对任务的增强: 针对分割、姿态估计和 OBB 的专业架构,确保了在所有视觉领域均能实现顶级性能。

Link to this section理想用例与部署策略#

在决定采用哪种架构时,请考虑你部署环境的具体需求:

  • 选择 YOLOv10,如果: 你正在处理纯目标检测流水线,其中压榨每一分参数效率都至关重要,并且你想尝试 NMS-free 架构的早期实现。
  • 选择 Ultralytics YOLOv8,如果: 你需要一个由强大的 Ultralytics 平台 支持的、高度稳定且可直接用于生产的模型。如果你的项目需要执行多种任务(例如:检测对象后进行分割),并希望使用统一且易于维护的代码库,这是最理想的选择。
  • 选择 YOLO26(推荐),如果: 你追求最先进的精度、原生端到端 NMS-free 效率以及在 CPU 和边缘硬件上实现最快速度之间的终极平衡。

如果你正在探索更广阔的领域,你可能也会对将这些模型与 YOLO11 进行对比,或查看如 Intel OpenVINO 等特定的边缘部署集成感兴趣,以进一步加速你的视觉 AI 应用程序。通过利用 Ultralytics 提供的统一工具,部署稳健的计算机视觉解决方案从未如此便捷。

评论