Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO11 so với YOLO26#

Sự phát triển nhanh chóng của thị giác máy tính liên tục đẩy lùi các giới hạn về tốc độ, độ chính xác và hiệu quả triển khai. Trong bối cảnh phát hiện đối tượng thời gian thực, Ultralytics luôn thiết lập nên tiêu chuẩn. Bài so sánh kỹ thuật này khám phá quá trình chuyển đổi từ YOLO11 rất thành công sang YOLO26 tiên tiến, phân tích các kiến trúc, số liệu hiệu năng và các kịch bản triển khai lý tưởng.

Cho dù bạn đang xây dựng hệ thống giao hàng bằng drone hay tối ưu hóa quy trình sản xuất thông minh toàn cầu, việc hiểu rõ những khác biệt tinh tế giữa hai model này sẽ giúp bạn xây dựng các giải pháp AI mạnh mẽ và có tính ứng dụng lâu dài.

Link to this sectionDòng dõi và hệ sinh thái Model#

Cả hai model đều hưởng lợi từ hệ sinh thái Ultralytics toàn diện, được đặc trưng bởi API trực quan, bảo trì liên tục và cộng đồng sôi nổi. Chúng cung cấp sự linh hoạt vượt trội, hỗ trợ tự nhiên các tác vụ phát hiện đối tượng, phân đoạn đối tượng, phân loại hình ảnh, ước tính tư thếOriented Bounding Box (OBB) ngay khi cài đặt.

Link to this sectionYOLO11: Tiêu chuẩn đã được thiết lập#

Được phát hành vào cuối năm 2024, YOLO11 đã tinh chỉnh những tiến bộ của các thế hệ trước, củng cố vị thế của mình như một cỗ máy đáng tin cậy cho các môi trường sản xuất.

Tìm hiểu thêm về YOLO11

Link to this sectionYOLO26: Biên giới mới#

Được giới thiệu vào đầu năm 2026, YOLO26 đại diện cho một sự thay đổi mô hình trong điện toán biên và kiến trúc end-to-end, mang lại những cải tiến đáng kể về tốc độ xử lý và sự dễ dàng trong tích hợp.

Tìm hiểu thêm về YOLO26

Quản lý dữ liệu và triển khai

Cả YOLO11 và YOLO26 đều được tích hợp hoàn toàn với Nền tảng Ultralytics, cung cấp các quy trình làm việc không cần mã (no-code) liền mạch cho việc gắn nhãn tập dữ liệu, huấn luyện trên đám mây và giám sát đội ngũ.

Link to this sectionCải tiến kiến trúc#

Trong khi YOLO11 dựa vào các phương pháp hậu xử lý truyền thống đã thúc đẩy thị giác máy tính trong nhiều năm, YOLO26 giới thiệu một số đột phá về cấu trúc được thiết kế để loại bỏ các nút thắt cổ chai.

Link to this sectionThiết kế End-to-End không dùng NMS#

Một trong những nâng cấp quan trọng nhất trong YOLO26 là kiến trúc end-to-end nguyên bản. Nó loại bỏ hậu xử lý Non-Maximum Suppression (NMS), một khái niệm lần đầu tiên được tiên phong trong YOLOv10. Việc bỏ qua NMS giúp đơn giản hóa đáng kể quy trình triển khai và đảm bảo độ trễ nhất quán, điều này rất cần thiết cho các ứng dụng thời gian thực như thuật toán xe tự lái.

Link to this sectionLoại bỏ DFL để tối ưu hóa biên#

YOLO26 loại bỏ Distribution Focal Loss (DFL). Mặc dù DFL hữu ích trong YOLO11 để định vị chi tiết, việc loại bỏ nó giúp đơn giản hóa đồ thị xuất của mạng. Thay đổi này đảm bảo khả năng tương thích nâng cao với phần cứng công suất thấp, biến YOLO26 thành một cỗ máy mạnh mẽ trên các thiết bị biên như Raspberry Pi hoặc NVIDIA Jetson.

Link to this sectionTrình tối ưu hóa MuSGD#

Lấy cảm hứng từ các cơ chế huấn luyện Large Language Model (LLM), cụ thể là Kimi K2 của Moonshot AI, YOLO26 sử dụng bộ tối ưu hóa MuSGD Optimizer mang tính cách mạng. Sự kết hợp giữa Stochastic Gradient Descent (SGD) và Muon này cung cấp các đợt huấn luyện ổn định đáng kinh ngạc, hội tụ nhanh hơn nhiều so với các bộ tối ưu hóa AdamW tiêu chuẩn được sử dụng trong các kiến trúc cũ hơn.

Link to this sectionCác hàm mất mát (Loss Function) nâng cao#

YOLO26 kết hợp ProgLoss + STAL (Progressive Loss and Scale-Aware Task Alignment Learning). Sự kết hợp này cải thiện đáng kể việc phát hiện các đối tượng nhỏ và dày đặc. Hơn nữa, YOLO26 giới thiệu các cải tiến cụ thể theo tác vụ: một prototype đa quy mô chuyên biệt cho phân đoạn ngữ nghĩa, Residual Log-Likelihood Estimation (RLE) cho các tác vụ ước tính tư thế người phức tạp và một angle loss chuyên dụng để giảm thiểu các vấn đề về biên trong các tác vụ phát hiện OBB.

Link to this sectionSo sánh hiệu năng#

Khi đánh giá các model này, sự cân bằng giữa số lượng tham số, độ phức tạp tính toán (FLOPs) và tốc độ quyết định việc lựa chọn phần cứng. YOLO26 tập trung đặc biệt vào tốc độ suy luận CPU, đạt được tốc độ suy luận CPU nhanh hơn tới 43% so với phiên bản tiền nhiệm.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Như đã chứng minh, YOLO26 Nano (YOLO26n) có bước nhảy vọt đáng kể về độ chính xác trong khi giảm thời gian suy luận CPU từ 56.1ms xuống 38.9ms bằng cách sử dụng ONNX Runtime.

Xuất để đạt tốc độ tối đa

Để tận dụng tối đa hiệu năng từ các model này, hãy xuất chúng bằng cách sử dụng TensorRT trên phần cứng NVIDIA hoặc OpenVINO cho các CPU Intel. Thiết kế không sử dụng NMS của YOLO26 giúp quy trình xuất này trở nên mượt mà hơn bao giờ hết.

Link to this sectionCác trường hợp sử dụng và ứng dụng thực tế#

Việc lựa chọn giữa YOLO11 và YOLO26 phần lớn phụ thuộc vào cơ sở hạ tầng cụ thể và mục tiêu dự án của bạn.

Link to this sectionĐiện toán biên và IoT#

Đối với các ứng dụng bị hạn chế bởi nguồn điện và phần cứng, chẳng hạn như giám sát nông nghiệp thông minh qua drone hoặc hệ thống báo động an ninh cục bộ, YOLO26 là nhà vô địch không thể tranh cãi. Việc loại bỏ DFL và tăng 43% tốc độ CPU có nghĩa là bạn có thể chạy các model thị giác phức tạp trên các thiết bị không có GPU chuyên dụng trong khi vẫn duy trì tốc độ khung hình cao.

Link to this sectionQuy mô đám mây và doanh nghiệp#

YOLO11 vẫn là một lựa chọn tuyệt vời cho các giải pháp doanh nghiệp, nơi các trang trại máy chủ khổng lồ đã được tối ưu hóa cho các cấu trúc tensor của nó. Nó phục vụ hoàn hảo cho phân tích video dựa trên đám mây và các quy trình xử lý phương tiện quy mô lớn vốn đã được tích hợp sâu với các định dạng đầu ra cụ thể của nó.

Link to this sectionĐa nhiệm phức tạp#

Nếu dự án của bạn yêu cầu độ chính xác tuyệt đối trên các đối tượng nhỏ—chẳng hạn như phát hiện lỗi trên bảng mạch hoặc theo dõi các phương tiện ở xa trong ảnh chụp từ trên không—việc triển khai ProgLoss + STAL trong YOLO26 cung cấp một sự gia tăng đáng chú ý về độ recall và precision cho các trường hợp biên khó khăn đó.

Link to this sectionHiệu quả đào tạo và yêu cầu bộ nhớ#

Một ưu điểm lớn của framework Ultralytics là mức tiêu thụ bộ nhớ cực thấp trong quá trình huấn luyện. Không giống như các vision transformer khổng lồ như RT-DETR hoặc YOLOv8 cũ hơn, vốn có thể tiêu tốn một lượng lớn bộ nhớ CUDA, cả YOLO11 và YOLO26 đều được tối ưu hóa để huấn luyện hiệu quả trên phần cứng thương mại phổ thông.

Việc tích hợp bộ tối ưu hóa MuSGD trong YOLO26 tăng cường hơn nữa điều này bằng cách đảm bảo rằng model tìm thấy các trọng số tối ưu nhanh hơn, giảm tổng số giờ tính toán trên GPU và chi phí điện toán đám mây.

Dưới đây là một ví dụ đơn giản minh họa việc huấn luyện model YOLO26 mới nhất bằng Python API nguyên bản dễ dàng như thế nào:

from ultralytics import YOLO

# Initialize the YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# The MuSGD optimizer and efficient memory management are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Run a quick validation to verify the mAP metrics
metrics = model.val()

# Export the trained model to ONNX for fast CPU inference
model.export(format="onnx")

Link to this sectionKhám phá các kiến trúc thay thế#

Trong khi YOLO26 đại diện cho đỉnh cao của phát hiện thời gian thực, việc khám phá các model khác trong tài liệu của Ultralytics có thể mang lại lợi ích. Đối với người dùng gắn liền với các môi trường cũ, các kiến trúc trước đó như YOLOv5 vẫn cung cấp hiệu năng mạnh mẽ. Đối với các khả năng zero-shot nơi việc xác định các lớp trước không thể thực hiện được, YOLO-World cung cấp khả năng phát hiện từ vựng mở được hỗ trợ bởi các câu lệnh văn bản.

Link to this sectionKết luận#

Bước nhảy từ YOLO11 lên YOLO26 không chỉ là một bản cập nhật tăng dần; đó là một sự tái tưởng tượng về cấu trúc cách các model phát hiện đối tượng thời gian thực hoạt động trong sản xuất. Bằng cách loại bỏ các bước hậu xử lý phức tạp và tối ưu hóa cho thực thi ưu tiên biên, YOLO26 nổi bật là lựa chọn hàng đầu cho các nhà phát triển hiện đại. Được hỗ trợ bởi hệ sinh thái Ultralytics mạnh mẽ và tài liệu toàn diện, việc nâng cấp lên YOLO26 đảm bảo triển khai nhanh hơn, huấn luyện ổn định và độ chính xác SOTA cho hầu như mọi tác vụ thị giác máy tính.

Người đóng góp

Bình luận