YOLO26 so với YOLO11: Một bước nhảy vọt thế hệ trong Vision AI

Khi xây dựng các hệ thống computer vision hiện đại, việc lựa chọn model phù hợp là rất quan trọng để cân bằng giữa độ chính xác, độ trễ và hiệu quả tài nguyên. Trong bối cảnh trí tuệ nhân tạo đang phát triển nhanh chóng, Ultralytics tiếp tục vượt qua các giới hạn của những gì khả thi. Bài so sánh kỹ thuật chi tiết này khám phá quá trình chuyển đổi từ YOLO11 cực kỳ thành công sang YOLO26 mới đầy tính cách mạng, cung cấp cho các kỹ sư và nhà nghiên cứu AI những thông tin chuyên sâu cần thiết để đưa ra các quyết định về kiến trúc sáng suốt.

Dòng dõi và siêu dữ liệu của Model

Cả hai model đều được phát triển bởi Ultralytics, nhưng chúng đại diện cho các mô hình khác nhau trong dòng thời gian của object detection và các model vision đa tác vụ.

Chi tiết về YOLO26:

Tìm hiểu thêm về YOLO26

Chi tiết về YOLO11:

Tìm hiểu thêm về YOLO11

Các kiến trúc khác

Mặc dù YOLO26 là model thời gian thực tiên tiến nhất của chúng tôi, người dùng làm việc với phần cứng chuyên biệt cao hoặc dung lượng bộ nhớ lớn có thể khám phá thêm các kiến trúc dựa trên Transformer như RT-DETR hoặc model tiên phong không cần NMS đầy đột phá, YOLOv10.

Những khác biệt và đổi mới về kiến trúc

Bước nhảy vọt từ YOLO11 lên YOLO26 bao gồm những thay đổi cơ bản trong cả kiến trúc model lẫn quy trình huấn luyện nền tảng. Trong khi YOLO11 thiết lập một cơ sở vững chắc cho object detection và học đa tác vụ, YOLO26 hoàn toàn đại tu pipeline triển khai cho edge computing.

Thiết kế không NMS end-to-end

Một trong những nâng cấp quan trọng nhất ở YOLO26 là kiến trúc end-to-end nguyên bản. Không giống như YOLO11, vốn dựa vào Non-Maximum Suppression (NMS) hậu xử lý để lọc các bbox chồng lấn, YOLO26 loại bỏ hoàn toàn bước này. Khái niệm này, được tiên phong lần đầu trong YOLOv10, làm giảm đáng kể sự biến thiên độ trễ và đơn giản hóa logic triển khai trên các thiết bị edge đa dạng.

Loại bỏ DFL để tối ưu hóa Edge

YOLO11 sử dụng Distribution Focal Loss (DFL) để tinh chỉnh ước tính bbox. Tuy nhiên, DFL dựa vào các phép toán softmax phức tạp thường không được hỗ trợ tốt bởi các bộ tăng tốc edge công suất thấp. YOLO26 đã loại bỏ thành công DFL mà không làm giảm độ chính xác. Sự đơn giản hóa kiến trúc này giúp cải thiện đáng kể khả năng tương thích với các hệ thống nhúng và cho phép YOLO26 đạt được tốc độ inference CPU nhanh hơn tới 43% so với phiên bản tiền nhiệm.

Bộ tối ưu hóa MuSGD

Sự ổn định và tốc độ huấn luyện là tối quan trọng. YOLO26 giới thiệu Bộ tối ưu hóa MuSGD, một sự kết hợp giữa Stochastic Gradient Descent (SGD) và Muon, chịu ảnh hưởng mạnh mẽ từ những đổi mới trong huấn luyện LLM từ Kimi K2 của Moonshot AI. Bộ tối ưu hóa này mang lại sự ổn định khi huấn luyện các model ngôn ngữ vào computer vision, đảm bảo hội tụ nhanh hơn và giảm mức tiêu thụ bộ nhớ trong quá trình huấn luyện so với các lựa chọn thay thế transformer nặng nề.

ProgLoss và STAL

Đối với các nhà nghiên cứu làm việc với aerial imagery hoặc các ứng dụng drone, việc phát hiện các đặc điểm nhỏ là một thách thức lịch sử. YOLO26 giới thiệu ProgLoss kết hợp với STAL (Scale-Targeted Attention Loss), mang lại những cải tiến đáng chú ý trong việc nhận diện vật thể nhỏ so với YOLO11.

So sánh hiệu suất và các chỉ số

Khi so sánh trực tiếp các model, YOLO26 chứng minh sự vượt trội rõ rệt về độ chính xác và hiệu quả trên thiết bị edge, trong khi vẫn duy trì yêu cầu bộ nhớ cực thấp đặc trưng của hệ sinh thái Ultralytics.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Lưu ý: Model YOLO26 nano (YOLO26n) cho thấy sự cải thiện ~31% về tốc độ CPU so với YOLO11n (38.9ms so với 56.1ms), làm nổi bật triết lý thiết kế ưu tiên edge của nó.

Tính linh hoạt trên các tác vụ Computer Vision

Cả hai model đều được hưởng lợi từ hệ sinh thái Ultralytics được duy trì kỹ lưỡng, mang đến sự dễ sử dụng tuyệt vời thông qua Python API thống nhất. Chúng không chỉ là các model object detection; chúng là những cỗ máy đa tác vụ mạnh mẽ. Tuy nhiên, YOLO26 tích hợp một số cải tiến đặc thù cho từng tác vụ:

  • Instance Segmentation: YOLO26 sử dụng loss semantic segmentation đã được tinh chỉnh và đa quy mô prototyping, tạo ra các đường viền mặt nạ sắc nét hơn so với YOLO11. Tìm hiểu thêm về quy trình segmentation.
  • Pose Estimation: Bằng cách tích hợp Residual Log-Likelihood Estimation (RLE), YOLO26 cải thiện đáng kể độ chính xác của keypoint trong các tư thế phức tạp của con người. Khám phá khả năng pose estimation.
  • Oriented Bounding Boxes (OBB): Một hàm loss góc chuyên biệt giải quyết các vấn đề gián đoạn biên giới mang tính lịch sử, làm cho YOLO26 trở nên đặc biệt đáng tin cậy để phát hiện các vật thể bị xoay trong dữ liệu vệ tinh. Đọc về các tác vụ OBB.
  • Image Classification: Cả hai model đều xử lý classification tốc độ cao một cách hiệu quả, với việc YOLO26 mang lại những cải tiến nhỏ về độ chính xác top-1 trên ImageNet.

Ví dụ mã nguồn huấn luyện và inference

Ultralytics is celebrated for its developer experience. Training a SOTA model or running an inference script takes only a few lines of code, minimizing boilerplate and maximizing productivity. Furthermore, training YOLO models requires significantly less CUDA memory than large transformer networks.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset efficiently
# The MuSGD optimizer is automatically enabled for YOLO26
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="0",  # Utilize GPU for accelerated training
)

# Perform NMS-free inference directly on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the clean, instant predictions
results[0].show()

Các trường hợp sử dụng lý tưởng và chiến lược triển khai

Việc lựa chọn giữa YOLO26 và YOLO11 phụ thuộc hoàn toàn vào những hạn chế trong môi trường sản xuất của bạn.

Khi nào nên triển khai YOLO26

YOLO26 là lựa chọn dứt khoát cho các dự án mới, hiện đại. Nó được xây dựng đặc biệt cho:

  • Edge Computing và IoT: Hiệu suất CPU đáng kinh ngạc và việc loại bỏ DFL khiến nó trở thành vua của các thiết bị như Raspberry Pi, Coral NPU và bộ xử lý di động.
  • Drone và Phân tích trên không: Việc tích hợp ProgLoss + STAL khiến nó có khả năng duy nhất trong việc theo dõi các vật thể nhỏ, di chuyển nhanh trên các cảnh quan rộng lớn.
  • Latency-Critical Applications: In autonomous robotics or manufacturing quality control, the NMS-free design ensures deterministic latency without unexpected post-processing spikes.

Khi nào nên giữ lại YOLO11

Mặc dù YOLO26 vượt trội hơn, YOLO11 vẫn là một model cực kỳ mạnh mẽ. Bạn có thể gắn bó với YOLO11 nếu:

  • Pipeline cũ: Cơ sở hạ tầng triển khai C++ hiện có của bạn bị ràng buộc chặt chẽ với các đầu ra dựa trên anchor và logic NMS cụ thể của các kiến trúc cũ hơn.
  • Các cơ sở nghiên cứu học thuật: Bạn đang xuất bản nghiên cứu và cần một tiêu chuẩn năm 2024 được công nhận rộng rãi để làm chuẩn so sánh các thuật toán mới của mình.

Sức mạnh của hệ sinh thái Ultralytics

Bất kể bạn triển khai YOLO11 hay YOLO26, việc sử dụng các model Ultralytics có nghĩa là bạn đang khai thác một hệ sinh thái được bảo trì tốt với các bản cập nhật thường xuyên và sự hỗ trợ lớn từ cộng đồng.

Đối với các đội ngũ doanh nghiệp, Ultralytics Platform cung cấp giải pháp end-to-end cho việc data annotation, huấn luyện model và triển khai cloud liền mạch. Từ việc xuất các weights đã huấn luyện sang CoreML hoặc TensorRT, cho đến việc cấu hình nâng cao hyperparameter tuning, các công cụ được cung cấp đảm bảo vòng đời AI của bạn được tinh gọn nhất có thể.

Bình luận