YOLOv5 so với YOLO26: Bước tiến thế hệ trong nhận diện đối tượng thời gian thực

Sự phát triển của thị giác máy tính được định nghĩa bởi nỗ lực không ngừng để tạo ra các model nhanh hơn, chính xác hơn và dễ tiếp cận hơn. Khi so sánh Ultralytics YOLOv5 với Ultralytics YOLO26 tiên tiến, chúng ta đang chứng kiến một sự chuyển dịch mô hình giúp xóa bỏ khoảng cách giữa các hệ thống legacy mạnh mẽ và đỉnh cao của việc triển khai AI hiện đại.

Hướng dẫn này cung cấp phân tích kỹ thuật toàn diện về cả hai kiến trúc, làm nổi bật các chỉ số hiệu năng, sự khác biệt về cấu trúc và các kịch bản triển khai lý tưởng.

Tổng quan về các model

YOLOv5: Ngựa thồ của ngành

Ra mắt vào năm 2020, YOLOv5 đã cách mạng hóa khả năng tiếp cận nhận diện đối tượng. Bằng cách chuyển đổi kiến trúc một cách tự nhiên sang framework PyTorch, nó đã mang đến cho các nhà phát triển trải nghiệm "zero-to-hero" chưa từng có.

YOLOv5 đã thiết lập nền tảng cho hệ sinh thái Ultralytics được bảo trì chặt chẽ. Nó giới thiệu các kỹ thuật tăng cường dữ liệu mạnh mẽ, các vòng lặp huấn luyện hiệu quả và các đường dẫn xuất tệp được tối ưu hóa cao sang các định dạng edge như CoreMLONNX. Sự dễ sử dụng và yêu cầu bộ nhớ thấp trong quá trình huấn luyện đã biến nó thành lựa chọn chủ đạo cho các startup và nhà nghiên cứu trên toàn thế giới.

Tìm hiểu thêm về YOLOv5

YOLO26: Chuẩn mực Vision AI thế hệ tiếp theo

Nhìn về tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho đỉnh cao của Vision AI thời gian thực. Nó tích hợp một cách tự nhiên những bài học rút ra từ các thế hệ trung gian như YOLOv8YOLO11, đồng thời giới thiệu những đột phá lớn được lấy cảm hứng từ quá trình huấn luyện Large Language Model (LLM).

YOLO26 đặt ra chuẩn mực mới cho sự cân bằng về hiệu năng, cung cấp độ chính xác tối tân trong khi được thiết kế rõ ràng để thống trị các kịch bản edge computing.

Tìm hiểu thêm về YOLO26

Các mô hình Ultralytics khác

Nếu bạn đang di chuyển một codebase cũ, bạn có thể quan tâm đến việc so sánh YOLOv5 với YOLO11, model thế hệ trước đã giới thiệu hỗ trợ ban đầu cho các tác vụ đa dạng như Pose Estimation và Oriented Bounding Boxes (OBB).

Các đột phá kiến trúc trong YOLO26

Trong khi YOLOv5 dựa vào các detection head dựa trên anchor và các hàm loss tiêu chuẩn, YOLO26 đại tu hoàn toàn các cơ chế nội bộ để loại bỏ các nút thắt trong triển khai.

  1. Thiết kế End-to-End NMS-Free: Sự khác biệt đáng kể nhất là kiến trúc end-to-end tự nhiên của YOLO26. Không giống như YOLOv5 yêu cầu Non-Maximum Suppression (NMS) thủ công để lọc các bbox trùng lặp, YOLO26 loại bỏ hoàn toàn bước hậu xử lý này. Điều này đảm bảo độ trễ suy luận tất định và đơn giản hóa đáng kể việc tích hợp vào C++ hoặc phần cứng nhúng.
  2. Loại bỏ DFL: YOLO26 loại bỏ Distribution Focal Loss (DFL). Lựa chọn kiến trúc này giúp đơn giản hóa đáng kể việc xuất model và tăng cường khả năng tương thích với các thiết bị edge công suất thấp và vi điều khiển vốn thường gặp khó khăn với các toán tử phức tạp.
  3. MuSGD Optimizer: Lấy cảm hứng từ Kimi K2 của Moonshot AI, YOLO26 sử dụng MuSGD Optimizer, một sự kết hợp giữa SGD và Muon. Điều này mang lại sự ổn định và khả năng hội tụ nhanh chóng như trong huấn luyện LLM vào thị giác máy tính, giúp giảm mức sử dụng bộ nhớ và chu kỳ huấn luyện nhanh hơn so với các model nặng về Transformer.
  4. ProgLoss + STAL: YOLO26 sử dụng các hàm ProgLoss và STAL tinh vi, cải thiện đáng kể khả năng nhận diện các đối tượng nhỏ và dày đặc—một thách thức lịch sử đối với YOLOv5.

So sánh hiệu năng

Khi so sánh các model trên COCO dataset, YOLO26 cho thấy sự cải thiện vượt bậc về độ chính xác (mAP) trong khi đồng thời giảm số lượng tham số và tốc độ suy luận trên CPU.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Lưu ý: YOLO26 Nano (YOLO26n) đạt mức mAP đáng kinh ngạc 40.9 so với 28.0 mAP của YOLOv5n, trong khi vẫn cung cấp tốc độ suy luận CPU nhanh hơn tới 43% nhờ loại bỏ DFL và phần head không cần NMS.

Tính linh hoạt và hỗ trợ tác vụ

YOLOv5 nổi tiếng chủ yếu với object detection. Trong khi các bản cập nhật sau đó đã giới thiệu segmentation cơ bản, YOLO26 được xây dựng từ đầu để trở thành một engine đa tác vụ thống nhất.

YOLO26 hỗ trợ tự nhiên:

  • Instance Segmentation: Tính năng protos đa quy mô dành riêng cho tác vụ và loss hàm cho semantic segmentation.
  • Pose Estimation: Sử dụng Residual Log-Likelihood Estimation (RLE) để nhận diện điểm chính (keypoint) có độ chính xác cao.
  • Oriented Bounding Boxes (OBB): Bao gồm hàm loss góc chuyên biệt để giải quyết các vấn đề gián đoạn ranh giới, rất quan trọng cho phân tích hình ảnh vệ tinh.
  • Image Classification: Phân loại toàn bộ hình ảnh tiêu chuẩn.
Tích hợp hệ sinh thái

Cả hai model đều được hưởng lợi từ Ultralytics Platform, cung cấp khả năng chú thích dữ liệu liền mạch, điều chỉnh siêu tham số tự động và triển khai đám mây chỉ với một cú nhấp chuột. Tuy nhiên, YOLO26 tận dụng tối đa các cấu trúc API hiện đại.

Cách sử dụng và ví dụ mã

Ultralytics Python API giúp việc chuyển đổi giữa các model trở nên vô cùng đơn giản. Vì cả hai model đều chia sẻ chung một hệ sinh thái được bảo trì tốt, việc cập nhật pipeline YOLOv5 cũ sang YOLO26 chỉ yêu cầu thay đổi tệp trọng số.

Ví dụ Python

from ultralytics import YOLO

# To use YOLOv5, load a v5 weights file
# model = YOLO("yolov5su.pt")

# Migrate to the recommended YOLO26 model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset using the efficient MuSGD optimizer
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    batch=32,  # YOLO26's low memory footprint allows larger batch sizes
)

# Run an NMS-free inference
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

Ví dụ CLI

Bạn có thể triển khai YOLO26 trực tiếp qua dòng lệnh sử dụng tích hợp TensorRT để đạt lưu lượng GPU tối đa:

# Export the model to TensorRT format
yolo export model=yolo26n.pt format=engine

# Run inference with the compiled engine
yolo predict model=yolo26n.engine source=path/to/video.mp4

Các trường hợp sử dụng lý tưởng

Khi nào nên chọn YOLO26

Đối với bất kỳ dự án thị giác máy tính hiện đại nào, YOLO26 là lựa chọn không thể tranh cãi.

  • Edge AI và IoT: Tốc độ suy luận CPU nhanh hơn 43% và việc loại bỏ DFL giúp nó trở nên hoàn hảo để triển khai trên Raspberry Pi hoặc các thiết bị di động.
  • Pipeline tốc độ cao: Kiến trúc không cần NMS đảm bảo độ trễ ổn định, có thể dự đoán được, điều này rất quan trọng đối với robot tự hành và hệ thống báo động an ninh thời gian thực.
  • Kịch bản phức tạp: Nếu ứng dụng của bạn yêu cầu theo dõi các đối tượng nhỏ (ví dụ: giám sát bằng drone) hoặc các đối tượng xoay (OBB), các hàm loss tiên tiến của YOLO26 (ProgLoss + STAL) mang lại lợi thế chính xác rất lớn.

Khi nào nên chọn YOLOv5

  • Hệ thống Legacy: Nếu môi trường sản xuất của bạn có các phụ thuộc được hardcode vào logic tạo anchor hoặc logic phân tích NMS cụ thể của YOLOv5, việc di chuyển có thể yêu cầu một khoảng thời gian refactor ngắn.
  • Các tiêu chuẩn học thuật cụ thể: Các nhà nghiên cứu thường sử dụng YOLOv5 như một baseline kinh điển để chứng minh sự tiến triển lịch sử của các kiến trúc nhận diện đối tượng.

Tóm tắt

Quá trình chuyển đổi từ YOLOv5 sang YOLO26 không chỉ là một bản cập nhật lặp đi lặp lại; đó là một bước nhảy vọt cơ bản về cách huấn luyện và triển khai các model nhận diện đối tượng. Bằng cách tận dụng MuSGD Optimizer, loại bỏ hậu xử lý phức tạp thông qua thiết kế NMS-free và tăng tốc đáng kể tốc độ CPU, Ultralytics YOLO26 mang lại sự cân bằng không khoan nhượng giữa tốc độ và độ chính xác.

Trong khi YOLOv5 sẽ luôn được ghi nhớ là model đã dân chủ hóa thị giác AI, các nhà phát triển đang tìm cách xây dựng các ứng dụng mạnh mẽ, sẵn sàng cho sản xuất và bền vững với tương lai nên tự tin xây dựng dựa trên YOLO26.

Bình luận