YOLO11 so với YOLO26: Sự tiến hóa của Vision AI thế hệ tiếp theo

Sự phát triển nhanh chóng của thị giác máy tính liên tục vượt qua các giới hạn về tốc độ, độ chính xác và hiệu quả triển khai. Trong lĩnh vực nhận diện đối tượng thời gian thực, Ultralytics luôn thiết lập nên các tiêu chuẩn. Bài so sánh kỹ thuật này khám phá quá trình chuyển đổi từ YOLO11 vốn rất thành công sang YOLO26 tiên tiến, phân tích cấu trúc, chỉ số hiệu suất và các kịch bản triển khai lý tưởng của chúng.

Cho dù bạn đang xây dựng hệ thống giao hàng bằng drone hay tối ưu hóa quy trình sản xuất thông minh toàn cầu, việc hiểu rõ những khác biệt tinh tế giữa hai model này sẽ giúp bạn xây dựng các giải pháp AI mạnh mẽ và phù hợp với tương lai.

Dòng dõi Model và Hệ sinh thái

Cả hai model đều được hưởng lợi từ hệ sinh thái Ultralytics toàn diện, nổi bật với API đơn giản, được bảo trì liên tục và cộng đồng năng động. Chúng cung cấp sự linh hoạt vượt trội, hỗ trợ sẵn các tác vụ nhận diện đối tượng, phân đoạn thực thể, phân loại hình ảnh, ước tính tư thếOriented Bounding Box (OBB).

YOLO11: Tiêu chuẩn đã được thiết lập

Ra mắt vào cuối năm 2024, YOLO11 đã tinh chỉnh những tiến bộ của các thế hệ trước, củng cố vị thế là một công cụ đáng tin cậy cho các môi trường production.

Tìm hiểu thêm về YOLO11

YOLO26: Biên giới mới

Được giới thiệu vào đầu năm 2026, YOLO26 đại diện cho một bước ngoặt về tư duy trong điện toán biên và kiến trúc end-to-end, mang lại những cải tiến đáng kể về tốc độ xử lý và khả năng tích hợp dễ dàng.

Tìm hiểu thêm về YOLO26

Quản lý Dữ liệu và Triển khai

Cả YOLO11 và YOLO26 đều được tích hợp hoàn toàn với Nền tảng Ultralytics, cung cấp quy trình làm việc không mã (no-code) liền mạch cho việc gán nhãn tập dữ liệu, huấn luyện trên đám mây và giám sát đội ngũ.

Đổi mới kiến trúc

Trong khi YOLO11 dựa vào các phương pháp hậu xử lý truyền thống vốn đã thúc đẩy thị giác máy tính trong nhiều năm, YOLO26 giới thiệu một vài đột phá về cấu trúc được thiết kế để loại bỏ các điểm nghẽn.

Thiết kế không NMS end-to-end

Một trong những nâng cấp quan trọng nhất trong YOLO26 là kiến trúc end-to-end tự nhiên. Nó loại bỏ hậu xử lý Non-Maximum Suppression (NMS), một khái niệm tiên phong từ YOLOv10. Việc bỏ qua NMS giúp đơn giản hóa đáng kể quy trình triển khai và đảm bảo độ trễ ổn định, vốn là yếu tố thiết yếu cho các ứng dụng thời gian thực như thuật toán xe tự lái.

Loại bỏ DFL để Tối ưu hóa Biên

YOLO26 loại bỏ Distribution Focal Loss (DFL). Mặc dù DFL hữu ích trong YOLO11 cho việc định vị chi tiết, việc loại bỏ nó giúp đơn giản hóa biểu đồ xuất (export graph) của mạng. Thay đổi này đảm bảo khả năng tương thích nâng cao với phần cứng công suất thấp, giúp YOLO26 trở thành một cỗ máy mạnh mẽ trên các thiết bị biên như Raspberry Pi hoặc NVIDIA Jetson.

Bộ tối ưu hóa MuSGD

Lấy cảm hứng từ các cơ chế huấn luyện Large Language Model (LLM), cụ thể là Kimi K2 của Moonshot AI, YOLO26 sử dụng MuSGD Optimizer mang tính cách mạng. Sự kết hợp giữa Stochastic Gradient Descent (SGD) và Muon này cung cấp các đợt huấn luyện ổn định đáng kinh ngạc, hội tụ nhanh hơn nhiều so với các bộ tối ưu hóa AdamW tiêu chuẩn được sử dụng trong các kiến trúc cũ.

Các hàm Loss nâng cao

YOLO26 kết hợp ProgLoss + STAL (Progressive Loss và Scale-Aware Task Alignment Learning). Sự kết hợp này cải thiện đáng kể khả năng nhận diện các đối tượng nhỏ và dày đặc. Hơn nữa, YOLO26 giới thiệu các cải tiến cụ thể cho từng tác vụ: một prototype đa quy mô chuyên dụng cho phân đoạn ngữ nghĩa, Residual Log-Likelihood Estimation (RLE) cho các tác vụ ước tính tư thế người phức tạp, và một hàm loss góc chuyên biệt để giảm thiểu các vấn đề về biên trong các tác vụ OBB.

So sánh hiệu năng

Khi đánh giá các model này, sự cân bằng giữa số lượng tham số, độ phức tạp tính toán (FLOPs) và tốc độ quyết định việc lựa chọn phần cứng. YOLO26 tập trung cụ thể vào tốc độ inference trên CPU, đạt tốc độ inference trên CPU nhanh hơn tới 43% so với phiên bản tiền nhiệm.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Như đã chứng minh, YOLO26 Nano (YOLO26n) có bước nhảy vọt đáng kể về độ chính xác trong khi giảm thời gian inference trên CPU từ 56,1ms xuống 38,9ms bằng cách sử dụng ONNX Runtime.

Xuất (Export) để đạt Tốc độ Tối đa

Để vắt kiệt hiệu suất từ các model này, hãy xuất chúng bằng TensorRT trên phần cứng NVIDIA hoặc OpenVINO cho CPU Intel. Thiết kế không cần NMS của YOLO26 giúp quá trình xuất này trở nên mượt mà hơn bao giờ hết.

Các trường hợp sử dụng và Ứng dụng thực tế

Việc lựa chọn giữa YOLO11 và YOLO26 phụ thuộc phần lớn vào cơ sở hạ tầng và mục tiêu dự án cụ thể của bạn.

Điện toán Biên và IoT

Đối với các ứng dụng bị giới hạn bởi năng lượng và phần cứng, chẳng hạn như giám sát nông nghiệp thông minh thông qua drone hoặc hệ thống báo động an ninh tại chỗ, YOLO26 là nhà vô địch không thể tranh cãi. Việc loại bỏ DFL và tốc độ CPU tăng 43% đồng nghĩa với việc bạn có thể chạy các model thị giác phức tạp trên các thiết bị không có GPU chuyên dụng mà vẫn duy trì tốc độ khung hình cao.

Quy mô Đám mây và Doanh nghiệp

YOLO11 vẫn là một lựa chọn tuyệt vời cho các giải pháp doanh nghiệp, nơi các trang trại máy chủ khổng lồ đã được tối ưu hóa cho cấu trúc tensor của nó. Nó phục vụ hoàn hảo cho phân tích video dựa trên đám mây và các quy trình xử lý phương tiện quy mô lớn vốn đã được tích hợp sâu với các định dạng đầu ra cụ thể của nó.

Đa tác vụ phức tạp

Nếu dự án của bạn đòi hỏi độ chính xác tuyệt đối trên các đối tượng nhỏ—chẳng hạn như phát hiện lỗi trên bảng mạch hoặc theo dõi các phương tiện ở xa trong hình ảnh trên không—thì việc triển khai ProgLoss + STAL trong YOLO26 mang lại sự cải thiện rõ rệt về khả năng thu hồi (recall) và độ chính xác (precision) cho những trường hợp khó khăn đó.

Hiệu quả Huấn luyện và Yêu cầu bộ nhớ

Một ưu điểm lớn của khung làm việc Ultralytics là mức tiêu thụ bộ nhớ cực thấp trong quá trình huấn luyện. Không giống như các vision transformer khổng lồ như RT-DETR hoặc YOLOv8 cũ hơn, vốn có thể tiêu tốn lượng lớn bộ nhớ CUDA, cả YOLO11 và YOLO26 đều được tối ưu hóa để huấn luyện hiệu quả trên phần cứng thương mại phổ thông.

Việc tích hợp bộ tối ưu hóa MuSGD trong YOLO26 nâng cao hơn nữa điều này bằng cách đảm bảo model tìm thấy trọng số tối ưu nhanh hơn, giảm tổng số giờ tính toán của GPU và chi phí điện toán đám mây.

Dưới đây là một ví dụ đơn giản chứng minh việc huấn luyện model YOLO26 mới nhất dễ dàng như thế nào khi sử dụng Python API gốc:

from ultralytics import YOLO

# Initialize the YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# The MuSGD optimizer and efficient memory management are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Run a quick validation to verify the mAP metrics
metrics = model.val()

# Export the trained model to ONNX for fast CPU inference
model.export(format="onnx")

Khám phá các Kiến trúc thay thế

Mặc dù YOLO26 đại diện cho đỉnh cao của nhận diện thời gian thực, việc khám phá các model khác trong tài liệu Ultralytics có thể mang lại lợi ích. Đối với người dùng gắn bó với môi trường cũ, các kiến trúc trước đó như YOLOv5 vẫn cung cấp hiệu suất mạnh mẽ. Đối với khả năng zero-shot, nơi không thể xác định trước các lớp, YOLO-World cung cấp khả năng nhận diện từ vựng mở được hỗ trợ bởi các câu lệnh văn bản (text prompts).

Kết luận

Bước nhảy vọt từ YOLO11 lên YOLO26 không chỉ là một bản cập nhật gia tăng; đó là sự tái hình dung về cấu trúc cách thức hoạt động của các model nhận diện đối tượng thời gian thực trong production. Bằng cách loại bỏ các bước hậu xử lý phức tạp và tối ưu hóa cho việc thực thi ưu tiên biên, YOLO26 nổi bật như sự lựa chọn hàng đầu cho các nhà phát triển hiện đại. Được hỗ trợ bởi hệ sinh thái Ultralytics mạnh mẽ và tài liệu toàn diện, việc nâng cấp lên YOLO26 đảm bảo triển khai nhanh hơn, huấn luyện ổn định và độ chính xác SOTA cho hầu như bất kỳ tác vụ thị giác máy tính nào.

Bình luận