Meet YOLO26: next-gen vision AI.

Link to this sectionSo sánh YOLOv5 và YOLO11#

Khi lựa chọn kiến trúc thị giác máy tính phù hợp cho một dự án mới, việc hiểu rõ sự phát triển của các model hiện đại là vô cùng quan trọng. Sự tiến hóa từ các kiến trúc cũ sang các framework thống nhất hiện đại làm nổi bật những bước nhảy vọt đáng kể cả về hiệu quả thuật toán lẫn trải nghiệm lập trình viên. Hướng dẫn này cung cấp so sánh kỹ thuật chuyên sâu giữa hai model mang tính dấu ấn do Ultralytics phát triển: YOLOv5 tiên phong và YOLO11 đã được tinh chỉnh tối ưu.

Link to this sectionGiới thiệu về các Model#

Cả hai kiến trúc này đều đại diện cho những cột mốc quan trọng trong lĩnh vực phát hiện đối tượng thời gian thực, mang đến những ưu điểm riêng biệt tùy thuộc vào môi trường triển khai và yêu cầu hệ thống cũ của bạn.

Link to this sectionYOLOv5: Ngựa thồ của ngành công nghiệp#

Được ra mắt vào mùa hè năm 2020, YOLOv5 nhanh chóng trở thành tiêu chuẩn công nghiệp nhờ vào việc triển khai PyTorch tự nhiên, giúp giảm đáng kể rào cản gia nhập để huấn luyện và triển khai. Nó đã loại bỏ các framework Darknet C phức tạp của những phiên bản tiền nhiệm, cung cấp cách tiếp cận Pythonic để xây dựng model.

YOLOv5 thiết lập một nền tảng vững chắc về sự dễ sử dụng và giới thiệu các phương pháp huấn luyện mạnh mẽ, bao gồm tăng cường dữ liệu mosaic nâng cao và auto-anchoring. Nó vẫn cực kỳ phổ biến đối với các nhà nghiên cứu đang phát triển dựa trên một cơ sở mã nguồn được tài liệu hóa kỹ lưỡng và thử nghiệm khắt khe.

Tìm hiểu thêm về YOLOv5

Link to this sectionYOLO11: Framework thị giác thống nhất#

Dựa trên nhiều năm phản hồi và nghiên cứu kiến trúc, YOLO11 được giới thiệu như một phần của framework thống nhất có khả năng xử lý nhiều tác vụ thị giác một cách tự nhiên. Vượt xa hơn phạm vi các bounding box đơn thuần, nó được thiết kế từ đầu để đạt được sự linh hoạt và hiệu quả tối đa.

YOLO11 mang lại trải nghiệm người dùng tinh gọn thông qua gói Python ultralytics, tự hào với API đơn giản thống nhất hóa object detection, instance segmentation, classification, pose estimation và oriented bounding boxes (OBB). Nó đạt được sự đánh đổi rất thuận lợi giữa tốc độ và độ chính xác, khiến nó trở nên lý tưởng cho nhiều kịch bản triển khai thực tế đa dạng.

Tìm hiểu thêm về YOLO11

Nền tảng tích hợp

Cả hai model đều được hưởng lợi từ hệ sinh thái được duy trì tốt do Ultralytics Platform cung cấp. Môi trường tích hợp này đơn giản hóa quá trình gán nhãn tập dữ liệu, huấn luyện trên đám mây và xuất model sang các mục tiêu phần cứng khác nhau.

Link to this sectionSo sánh Hiệu năng và Chỉ số#

So sánh trực tiếp các model này cho thấy cách các tinh chỉnh kiến trúc chuyển hóa thành những cải thiện hiệu suất hữu hình. Bảng dưới đây minh họa mean Average Precision (mAP) được đánh giá trên COCO dataset, cùng với tốc độ suy luận CPU và GPU cũng như số lượng tham số.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Link to this sectionPhân tích kết quả#

Các chỉ số làm nổi bật bước nhảy vọt rõ rệt trong cân bằng hiệu suất đạt được bởi YOLO11. Ví dụ, model YOLO11n (nano) đạt 39.5% mAP so với 28.0% của YOLOv5n, trong khi đồng thời giảm thời gian suy luận CPU khi được xuất qua ONNX. Hơn nữa, YOLO11 duy trì yêu cầu bộ nhớ thấp đáng kể trong quá trình huấn luyện so với các model nặng dựa trên Transformer, giúp nó dễ dàng tiếp cận để triển khai trên phần cứng người dùng và các thiết bị biên.

Link to this sectionSự khác biệt về kiến trúc#

Những cải tiến hiệu suất trong YOLO11 bắt nguồn từ một số bước tiến kiến trúc chính. Trong khi YOLOv5 sử dụng xương sống CSPNet tiêu chuẩn với các module C3, YOLO11 đã giới thiệu các khối trích xuất đặc trưng hiệu quả hơn như C2f và sau đó là C3k2, giúp tối ưu hóa dòng gradient và giảm chi phí tính toán.

YOLO11 cũng có phần head được tinh chỉnh mạnh mẽ. Không còn sử dụng thiết kế dựa trên anchor của các model cũ, các kiến trúc Ultralytics mới hơn áp dụng phương pháp không cần anchor (anchor-free). Điều này làm giảm số lượng dự đoán box, tinh giản quy trình xử lý hậu kỳ và cải thiện khả năng tổng quát hóa của model trên các quy mô và tỷ lệ khung hình khác nhau. Ngoài ra, các model này tự hào về training efficiency vượt trội và các trọng số được huấn luyện sẵn luôn có sẵn giúp tăng tốc quá trình hội tụ cho các tập dữ liệu tinh chỉnh.

Link to this sectionTriển khai và các ví dụ mã nguồn#

Một trong những tính năng nổi bật của hệ sinh thái Ultralytics là sự đơn giản. Trong khi YOLOv5 phổ biến việc sử dụng torch.hub cho suy luận nhanh, YOLO11 tiến thêm một bước với gói Python ultralytics thống nhất.

Link to this sectionHuấn luyện với YOLO11#

Việc tải, huấn luyện và xác thực một model đòi hỏi mã nguồn tối thiểu. API xử lý việc điều chỉnh siêu tham số và quản lý model một cách liền mạch.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11s.pt")

# Train on a custom dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run fast inference and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Easily export the model to TensorRT for hardware acceleration
model.export(format="engine")

Link to this sectionSuy luận kế thừa với YOLOv5#

Nếu bạn đang duy trì một pipeline cũ, YOLOv5 tích hợp trực tiếp với cơ chế tải tự nhiên của PyTorch, giúp việc đưa nó vào các script suy luận hiện có trở nên đơn giản.

import torch

# Load a custom or pretrained YOLOv5 model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Perform inference on an image URL
results = model("https://ultralytics.com/images/zidane.jpg")

# Print prediction details to the console
results.print()
Tính linh hoạt trong triển khai

Cả hai model đều hỗ trợ các định dạng xuất rộng rãi. Cho dù bạn đang nhắm mục tiêu đến NVIDIA Jetson sử dụng TensorRT hay một ứng dụng iOS sử dụng CoreML, quá trình triển khai đều được tài liệu hóa kỹ lưỡng và được hỗ trợ bởi cộng đồng.

Link to this sectionCác trường hợp sử dụng lý tưởng#

Việc lựa chọn giữa các model này phụ thuộc phần lớn vào giai đoạn vòng đời dự án và các yêu cầu cụ thể của bạn.

Link to this sectionKhi nào nên chọn YOLOv5#

  • Duy trì cơ sở mã cũ: Nếu môi trường sản xuất của bạn được tùy chỉnh mạnh mẽ xung quanh cấu trúc kho lưu trữ YOLOv5 hoặc các kỹ thuật hyperparameter evolution cụ thể.
  • Nền tảng học thuật: Khi xuất bản nghiên cứu yêu cầu benchmarking trực tiếp với các tiêu chuẩn thị giác máy tính giai đoạn 2020-2022 đã được thiết lập.

Link to this sectionKhi nào nên chọn YOLO11#

  • Dự án đa tác vụ: Khi ứng dụng của bạn yêu cầu kết hợp các tác vụ như pose estimationinstance segmentation sử dụng một API thống nhất duy nhất.
  • Triển khai biên (Edge): Đối với các kịch bản edge computing nơi việc tối đa hóa mAP cho một ngân sách tính toán (FLOPs) nhất định là rất quan trọng.
  • Giải pháp AI thương mại: Lý tưởng cho các ứng dụng doanh nghiệp trong bán lẻ và bảo mật, tận dụng sự hỗ trợ mạnh mẽ của Ultralytics Platform.

Link to this sectionThế hệ tiếp theo: Ultralytics YOLO26#

Trong khi YOLO11 đại diện cho sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, lĩnh vực trí tuệ nhân tạo phát triển rất nhanh. Đối với các lập trình viên bắt đầu dự án mới hôm nay, chúng tôi đặc biệt khuyến nghị khám phá tiêu chuẩn mới nhất trong AI thị giác: Ultralytics YOLO26.

Ra mắt vào tháng 1 năm 2026, YOLO26 giới thiệu các tiến bộ thay đổi mô hình được thiết kế đặc biệt cho các nhu cầu triển khai hiện đại:

  • Thiết kế End-to-End không NMS: Xây dựng trên các khái niệm lần đầu được tiên phong trong YOLOv10, YOLO26 là end-to-end một cách tự nhiên. Nó loại bỏ nhu cầu xử lý hậu kỳ Non-Maximum Suppression (NMS), giúp đơn giản hóa đáng kể các pipeline triển khai và giảm độ trễ.
  • Bộ tối ưu hóa MuSGD: Được lấy cảm hứng từ những đổi mới trong huấn luyện LLM từ các model như Kimi K2 của Moonshot AI, sự kết hợp giữa SGD và Muon này đảm bảo quá trình huấn luyện ổn định đáng kinh ngạc và hội tụ nhanh hơn đáng kể.
  • Tốc độ CPU chưa từng có: Bằng cách loại bỏ Distribution Focal Loss (DFL), YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43%, khiến nó trở thành lựa chọn tuyệt đối tốt nhất cho các thiết bị biên và môi trường không có GPU chuyên dụng.
  • Hàm mất mát nâng cao: Việc tích hợp ProgLoss và STAL mang lại những cải thiện đáng chú ý trong việc nhận diện đối tượng nhỏ, điều rất quan trọng đối với phân tích drone, IoT và robot.
  • Cải tiến tác vụ cụ thể: Nó giới thiệu các tối ưu hóa chuyên biệt, chẳng hạn như Residual Log-Likelihood Estimation (RLE) cho Pose và tổn thất góc chuyên biệt cho oriented bounding boxes, đảm bảo hiệu suất vượt trội trên tất cả các tác vụ thị giác máy tính.

Tìm hiểu thêm về YOLO26

Đối với người dùng quan tâm đến các kiến trúc chuyên biệt ngoài phát hiện đối tượng tiêu chuẩn, bạn có thể khám phá thêm các model như RT-DETR để phát hiện dựa trên Transformer, hoặc YOLO-World để theo dõi và phát hiện từ vựng mở. Việc áp dụng các công cụ được duy trì tốt và tối ưu hóa cao này đảm bảo các pipeline thị giác máy tính của bạn luôn hiệu quả, có khả năng mở rộng và luôn đi trước xu hướng.

Những người đóng góp

Bình luận