YOLO26 so với YOLOv8: Những bước tiến trong phát hiện đối tượng thế hệ tiếp theo

Sự phát triển của thị giác máy tính được định nghĩa bởi việc theo đuổi hiệu suất thời gian thực mà không làm giảm độ chính xác. Khi các nhà phát triển và nghiên cứu điều hướng bối cảnh machine learning hiện đại, việc chọn kiến trúc model phù hợp là rất quan trọng. So sánh kỹ thuật toàn diện này khám phá bước nhảy vọt thế hệ từ Ultralytics YOLOv8, một kiến trúc vô cùng phổ biến đã định nghĩa lại tiêu chuẩn vào năm 2023, đến Ultralytics YOLO26 tiên tiến, được phát hành vào tháng 1 năm 2026.

Bằng cách đi sâu vào kiến trúc, các chỉ số hiệu suất và phương pháp đào tạo của chúng, chúng tôi làm nổi bật lý do tại sao việc nâng cấp lên những đổi mới mới nhất mang lại những lợi thế khác biệt cho object detection, segmentation và hơn thế nữa.

Thông tin nền tảng và Metadata của Model

Hiểu nguồn gốc của các kiến trúc này cung cấp bối cảnh cho những đột phá tương ứng của chúng. Cả hai model đều được phát triển bởi Ultralytics, một công ty nổi tiếng trong việc làm cho AI tiên tiến trở nên dễ tiếp cận và dễ triển khai.

Chi tiết YOLO26:
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2026-01-14
GitHub: https://github.com/ultralytics/ultralytics
Docs: https://docs.ultralytics.com/models/yolo26/

Tìm hiểu thêm về YOLO26

Chi tiết YOLOv8:
Tác giả: Glenn Jocher, Ayush Chaurasia và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2023-01-10
GitHub: https://github.com/ultralytics/ultralytics
Docs: https://docs.ultralytics.com/models/yolov8/

Tìm hiểu thêm về YOLOv8

Đổi mới kiến trúc

Sự chuyển đổi từ YOLOv8 sang YOLO26 giới thiệu những thay đổi mô hình đáng kể trong cách các mạng thần kinh xử lý dữ liệu hình ảnh và tính toán loss.

YOLO26: Đỉnh cao của hiệu suất Edge

YOLO26 được thiết kế từ đầu để loại bỏ các điểm nghẽn triển khai và tối đa hóa tốc độ inference trên phần cứng bị hạn chế.

  • Thiết kế End-to-End NMS-Free: Dựa trên các khái niệm tiên phong lần đầu trong YOLOv10, YOLO26 sử dụng kiến trúc end-to-end một cách tự nhiên. Bằng cách loại bỏ hoàn toàn nhu cầu hậu xử lý Non-Maximum Suppression (NMS), sự biến đổi về độ trễ gần như được xóa bỏ. Điều này đơn giản hóa logic triển khai cho các ứng dụng yêu cầu đảm bảo thời gian thực nghiêm ngặt.
  • Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss (DFL) giúp đơn giản hóa đáng kể phần đầu ra (head). Lựa chọn kiến trúc này cho phép khả năng tương thích tốt hơn đáng kể với các thiết bị edge năng lượng thấp và xuất sang các định dạng như ONNXCoreML một cách dễ dàng hơn.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ sự ổn định trong đào tạo của các Large Language Models (LLMs) như Kimi K2 của Moonshot AI, YOLO26 sử dụng bộ tối ưu hóa MuSGD—một sự kết hợp giữa Stochastic Gradient Descent và Muon. Điều này mang những đổi mới đào tạo ở quy mô LLM vào thị giác máy tính, tạo ra sự hội tụ nhanh hơn và các lần chạy đào tạo ổn định cao.
  • ProgLoss + STAL: Để chống lại vấn đề nổi tiếng khó khăn trong việc nhận dạng các đối tượng cực nhỏ, YOLO26 triển khai Progressive Loss (ProgLoss) kết hợp với Scale-Tolerant Anchor Loss (STAL). Điều này cung cấp những cải tiến quan trọng cho small object detection, làm cho nó trở nên lý tưởng cho các ứng dụng drone.
Cải tiến dành riêng cho tác vụ

YOLO26 cũng mang đến các nâng cấp có mục tiêu trên nhiều lĩnh vực thị giác máy tính. Nó sử dụng loss Semantic Segmentation và multi-scale proto để instance segmentation tốt hơn, Residual Log-Likelihood Estimation (RLE) cho pose estimation cực kỳ chính xác và các thuật toán angle loss chuyên biệt để giải quyết các vấn đề về biên trong Oriented Bounding Boxes (OBB).

YOLOv8: Cỗ máy đa năng mạnh mẽ

Khi được phát hành vào năm 2023, YOLOv8 đã đặt ra một chuẩn mực mới bằng cách chuyển đổi hoàn toàn sang thiết kế anchor-free, giúp tổng quát hóa tốt hơn trên các tỷ lệ khung hình dữ liệu khác nhau.

  • Module C2f: Nó thay thế module C3 cũ hơn bằng khối C2f, cho phép luồng gradient tốt hơn trên toàn bộ xương sống của mạng.
  • Decoupled Head: YOLOv8 có một phần đầu (head) tách rời, nơi việc phân loại và hồi quy bounding box được tính toán độc lập, thúc đẩy đáng kể mAP.
  • Tính đa năng của tác vụ: Đây là một trong những model đầu tiên cung cấp một API thống nhất thực sự cho image classification, phát hiện, phân đoạn và các tác vụ tư thế ngay từ khi cài đặt.

Các chỉ số hiệu suất và yêu cầu tài nguyên

Khi đánh giá các model cho sản xuất, sự cân bằng giữa độ chính xác, tốc độ inference và kích thước model là quan trọng nhất. YOLO26 thể hiện lợi thế thế hệ rõ ràng trên tất cả các biến thể kích thước.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Lưu ý: Các giá trị được đánh dấu thể hiện sự cân bằng hiệu suất và lợi ích hiệu quả của kiến trúc YOLO26 so với phiên bản tiền nhiệm.

Phân tích

YOLO26 đạt được tốc độ CPU inference nhanh hơn tới 43% so với các model YOLOv8 tương tự. Ví dụ, YOLO26n đạt 38,9 ms trên CPU khi sử dụng ONNX, so với 80,4 ms của YOLOv8n, đồng thời tăng mAP từ 37,3 lên 40,9. Bước nhảy vọt về hiệu quả CPU này là kết quả trực tiếp của việc loại bỏ DFL và thiết kế NMS-free, giúp YOLO26 trở thành một cỗ máy mạnh mẽ tuyệt đối cho các môi trường thiếu GPU chuyên dụng.

Hơn nữa, các model YOLO26 có số lượng tham số và FLOP thấp hơn cho các cấp kích thước tương ứng của chúng, đồng nghĩa với việc giảm đáng kể mức sử dụng GPU memory trong quá trình inference và đào tạo so với các kiến trúc dựa trên Transformer kế thừa.

Lợi thế của hệ sinh thái Ultralytics

Một cân nhắc chính khi chọn một model AI là cơ sở hạ tầng xung quanh. Cả YOLO26 và YOLOv8 đều được hưởng lợi rất nhiều từ Ultralytics Platform thống nhất, mang lại trải nghiệm nhà phát triển vô song.

  1. Dễ sử dụng: Triết lý "từ con số không đến anh hùng" đảm bảo các nhà phát triển có thể tải, đào tạo và xuất model với mã tối thiểu. Python API vẫn nhất quán giữa các thế hệ model.
  2. Hiệu quả đào tạo: Các model Ultralytics YOLO yêu cầu bộ nhớ CUDA thấp hơn đặc biệt trong quá trình đào tạo so với các model transformer (như RT-DETR). Điều này cho phép sử dụng kích thước batch lớn hơn trên phần cứng tiêu dùng, dân chủ hóa nghiên cứu AI.
  3. Hệ sinh thái được bảo trì tốt: Được hỗ trợ bởi các bản cập nhật liên tục, các pipeline CI/CD nghiêm ngặt và tích hợp sâu với các công cụ như Weights & BiasesTensorRT, kho lưu trữ Ultralytics rất mạnh mẽ và sẵn sàng cho sản xuất.
  4. Sự linh hoạt vô song: Các model Ultralytics không phải là loại chỉ biết một chiêu trò; một lần import duy nhất xử lý các tập dữ liệu đa dạng, tăng cường quy trình làm việc cho các hệ thống phức tạp yêu cầu theo dõi, phân loại và phân đoạn đồng thời.
Nâng cấp hợp lý

Vì Ultralytics API được tiêu chuẩn hóa cao, việc nâng cấp một hệ thống sản xuất từ YOLOv8 lên YOLO26 đơn giản như việc thay đổi chuỗi "yolov8n.pt" thành "yolo26n.pt" trong script của bạn.

Ứng dụng trong thế giới thực

Việc lựa chọn giữa các model này thường phụ thuộc vào các hạn chế triển khai của bạn, mặc dù YOLO26 được khuyến nghị rộng rãi cho các dự án mới.

Edge Computing và mạng IoT

Đối với các môi trường edge—chẳng hạn như Raspberry Pi deployments hoặc các cảm biến trên sàn nhà máy cục bộ—YOLO26 là nhà vô địch không thể tranh cãi. Tốc độ CPU được tối ưu hóa tự nhiên và cấu trúc NMS-free của nó có nghĩa là các camera thông minh có thể xử lý video tốc độ khung hình cao cho parking management mà không bị rớt khung hình do các điểm nghẽn hậu xử lý.

Hình ảnh trên không và độ cao lớn

Trong agricultural monitoring hoặc kiểm tra cơ sở hạ tầng qua drone, việc phát hiện đối tượng nhỏ là tối quan trọng. Việc triển khai ProgLoss + STAL trong YOLO26 cho phép nó phát hiện nhất quán các loài gây hại nhỏ hoặc các vết nứt siêu nhỏ trong đường ống mà các kiến trúc cũ hơn như YOLOv8 có thể bỏ lỡ, cung cấp recall và precision vượt trội trên các tập dữ liệu như VisDrone.

Các hệ thống GPU cũ

YOLOv8 vẫn phù hợp cho các hệ thống gắn chặt với kết quả hồi quy bounding box cụ thể của nó hoặc các triển khai doanh nghiệp bị khóa trong các chu kỳ xác thực mở rộng và không thể dễ dàng di chuyển kiến trúc.

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa YOLO26 và YOLOv8 phụ thuộc vào các yêu cầu dự án cụ thể, hạn chế triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn YOLO26

YOLO26 là một lựa chọn mạnh mẽ cho:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Khi nào nên chọn YOLOv8

YOLOv8 được khuyến nghị cho:

  • Triển khai đa tác vụ linh hoạt: Các dự án yêu cầu một model đã được kiểm chứng cho detection, segmentation, classificationpose estimation trong hệ sinh thái Ultralytics.
  • Các hệ thống sản xuất đã được thiết lập: Các môi trường sản xuất hiện có đã được xây dựng trên kiến trúc YOLOv8 với các đường ống triển khai ổn định, đã được kiểm tra kỹ lưỡng.
  • Hỗ trợ cộng đồng và hệ sinh thái rộng lớn: Các ứng dụng được hưởng lợi từ các hướng dẫn mở rộng, tích hợp của bên thứ ba và các tài nguyên cộng đồng tích cực của YOLOv8.

Ví dụ mã: Bắt đầu

Tận dụng sức mạnh của các model Ultralytics mới nhất cực kỳ đơn giản. Mã Python sau đây minh họa việc đào tạo một model YOLO26 trên một tập dữ liệu tùy chỉnh, quan sát bộ tối ưu hóa MuSGD tự động thúc đẩy sự hội tụ nhanh chóng.

from ultralytics import YOLO

# Load the highly efficient YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train on the standard COCO8 dataset
# The ecosystem handles hyperparameter tuning and augmentations natively
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="0",  # Automatically utilizes CUDA if available
)

# Run end-to-end, NMS-free inference on a source image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Visualize the resulting detections
predictions[0].show()

Các model khác cần xem xét

Mặc dù YOLO26 đại diện cho công nghệ hiện đại nhất hiện nay, các nhà phát triển xây dựng các ứng dụng đa dạng cũng có thể khám phá:

  • YOLO11: Người tiền nhiệm trực tiếp của YOLO26, cung cấp sự tinh chỉnh đặc biệt so với YOLOv8 và vẫn được sử dụng nhiều trong các hệ thống sản xuất tiên tiến.
  • RT-DETR: Real-Time DEtection TRansformer của Baidu. Đây là một lựa chọn tuyệt vời cho các nhà nghiên cứu đang khám phá cơ chế chú ý trong các tác vụ thị giác, mặc dù nó yêu cầu bộ nhớ CUDA nhiều hơn đáng kể để đào tạo so với các model Ultralytics YOLO tiêu chuẩn.

Để có một bộ công cụ toàn diện về đào tạo trên đám mây, gắn nhãn tập dữ liệu và triển khai ngay lập tức, hãy khám phá Ultralytics Platform ngay hôm nay.

Bình luận