Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO11 so với YOLOv10#

Bối cảnh thị giác máy tính thời gian thực không ngừng phát triển, với các kiến trúc mới vượt qua những giới hạn của những gì có thể thực hiện trên cả thiết bị biên và cơ sở hạ tầng đám mây. Trong bài phân tích kỹ thuật chi tiết này, chúng tôi khám phá những sắc thái giữa hai mô hình then chốt trong lĩnh vực này: Ultralytics YOLO11YOLOv10. Cả hai đều đại diện cho những bước nhảy vọt đáng kể về khả năng phát hiện đối tượng, tuy nhiên chúng áp dụng các triết lý kiến trúc cơ bản khác nhau để đạt được hiệu suất của mình.

Link to this sectionGiải mã kiến trúc YOLO11#

Chi tiết về YOLO11:

Được giới thiệu như một công cụ mạnh mẽ và linh hoạt, YOLO11 được xây dựng dựa trên nhiều năm nghiên cứu nền tảng về thị giác máy tính và AI. Triết lý thiết kế cốt lõi của YOLO11 xoay quanh sự phong phú về tính năng và tính linh hoạt cực cao trên nhiều tác vụ thị giác máy tính.

Một trong những cải tiến nổi bật của YOLO11 là việc triển khai C3k2 Block. Module bottleneck được tinh chỉnh này tối ưu hóa luồng gradient trên toàn bộ mạng lưới, cải thiện đáng kể hiệu quả tham số trong khi vẫn duy trì độ chính xác cao. Ngoài ra, YOLO11 sử dụng cơ chế chú ý không gian (spatial attention) nâng cao, rất quan trọng để xác định các mục nhỏ hoặc bị che khuất một phần. Điều này làm cho nó trở thành một lựa chọn đặc biệt cho các trường hợp sử dụng hình ảnh trên khôngphân tích hình ảnh y tế chi tiết.

YOLO11 sử dụng thiết kế không cần anchor, giúp giảm thiểu sự phức tạp của việc tinh chỉnh hyperparameter, cho phép tổng quát hóa mạnh mẽ trên một loạt các tập dữ liệu tùy chỉnh. Hơn nữa, yêu cầu về bộ nhớ trong quá trình huấn luyện thấp hơn đáng kể so với các kiến trúc dựa trên Transformer, cho phép các nhà nghiên cứu huấn luyện các mô hình lớn một cách hiệu quả trên phần cứng tiêu dùng tiêu chuẩn.

Tìm hiểu thêm về YOLO11

Link to this sectionKhám phá kiến trúc YOLOv10#

Chi tiết về YOLOv10:

Được phát triển bởi các nhà nghiên cứu tại Đại học Thanh Hoa, YOLOv10 đã tạo nên tiếng vang như một người tiên phong end-to-end trong gia đình YOLO. Điểm đặc trưng của YOLOv10 là phương pháp Huấn luyện không cần NMS (NMS-Free Training). Bằng cách áp dụng các phép gán kép nhất quán trong giai đoạn huấn luyện, mô hình dự đoán chính xác một BBox cho mỗi đối tượng. Bước đột phá này loại bỏ hoàn toàn nhu cầu sử dụng Non-Maximum Suppression (NMS) trong quá trình suy luận (inference), một bước hậu xử lý trước đây thường gây ra các nút thắt độ trễ trong các quy trình triển khai.

Kiến trúc này cũng giới thiệu một chiến lược thiết kế hiệu quả-độ chính xác toàn diện. Nó kết hợp việc giảm lấy mẫu tách biệt kênh không gian (spatial-channel decoupled downsampling) và các thiết kế khối được dẫn dắt bởi hạng (rank-guided block) giúp giảm thiểu dư thừa trong các giai đoạn của mạng lưới một cách có chọn lọc. Điều này dẫn đến ít FLOPs hơn và giảm chi phí tính toán mà không làm giảm đáng kể mean Average Precision (mAP). Đối với các ứng dụng thời gian thực mà mỗi mili giây đều quan trọng, việc loại bỏ NMS cung cấp một đồ thị suy luận xác định rất phù hợp cho các thiết bị Edge AI.

Tìm hiểu thêm về YOLOv10

Link to this sectionCác chỉ số và Benchmark hiệu suất#

Khi đánh giá hai mô hình này, chúng tôi xem xét sự cân bằng giữa độ chính xác, số lượng tham số và tốc độ. Bảng sau đây cho thấy sự so sánh của chúng qua các quy mô khác nhau trên tập dữ liệu COCO.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Như đã thấy trong các chỉ số hiệu suất YOLO, YOLO11 thường đạt được điểm mAP cao hơn một chút trên các biến thể của nó, đặc biệt là trong các mô hình lớn hơn. Thiết kế không cần NMS của YOLOv10 đảm bảo thời gian suy luận end-to-end ổn định cao, nhưng YOLO11 vẫn quản lý thông lượng đặc biệt khi được tối ưu hóa với TensorRT trên phần cứng NVIDIA.

Xuất mô hình để triển khai thực tế (Production)

Khi chuẩn bị các mô hình để triển khai, việc xuất sang các định dạng tối ưu là rất quan trọng. Cả YOLO11 và YOLOv10 đều có thể được xuất liền mạch sang các định dạng như ONNX và TensorRT bằng cách sử dụng framework Ultralytics. Xem hướng dẫn của chúng tôi về các tùy chọn triển khai mô hình để biết hướng dẫn từng bước.

Link to this sectionLợi thế từ hệ sinh thái Ultralytics#

Mặc dù các chỉ số hiệu suất độc lập là quan trọng, nhưng framework xung quanh quyết định sự thành công thực tế của một dự án học máy. Đây là nơi YOLO11, với tư cách là một phần bản địa của hệ sinh thái Ultralytics, thực sự tỏa sáng.

Nền tảng Ultralytics cung cấp trải nghiệm người dùng vô cùng tinh gọn. Với Python API đơn giản và thống nhất, các nhà phát triển có thể xử lý các tác vụ vượt xa các BBox cơ bản. YOLO11 hỗ trợ nguyên bản instance segmentation, pose estimation, image classification, và phát hiện Oriented Bounding Box (OBB) ngay từ đầu. Sự linh hoạt to lớn này thường thiếu trong các kho lưu trữ nghiên cứu chuyên biệt.

Hơn nữa, hệ sinh thái này được hỗ trợ bởi tài liệu phong phú và sự hỗ trợ tích cực từ cộng đồng. Các tích hợp với các công cụ như Weights & Biases để theo dõi thử nghiệm, và OpenVINO để tối ưu hóa phần cứng Intel, được xây dựng trực tiếp vào thư viện. Việc huấn luyện một mô hình đòi hỏi ít mã boilerplate và hưởng lợi từ các quy trình huấn luyện hiệu quả cao, cần ít bộ nhớ CUDA hơn so với các mô hình Transformer nặng như RT-DETR.

Link to this sectionVí dụ mã thực hành#

Huấn luyện và chạy suy luận với Ultralytics được thiết kế để trở nên trực quan nhất có thể. API đồng nhất xử lý cả YOLO11 và YOLOv10 một cách dễ dàng.

from ultralytics import YOLO

# Initialize the model (YOLO11n or YOLOv10n)
model = YOLO("yolo11n.pt")

# Train the model efficiently on a custom dataset
# Ultralytics automatically handles hyperparameters and memory optimization
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Run inference on an image
inference_results = model("https://ultralytics.com/images/bus.jpg")

# Display the detected objects
inference_results[0].show()

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLO11 và YOLOv10 phụ thuộc vào các yêu cầu dự án cụ thể, hạn chế triển khai và tùy chọn hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLO11#

YOLO11 là lựa chọn mạnh mẽ cho:

  • Triển khai Edge trong sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson, nơi độ tin cậy và sự bảo trì tích cực là tối quan trọng.
  • Các ứng dụng thị giác đa tác vụ: Các dự án yêu cầu phát hiện, phân đoạn, ước tính tư thế, và OBB trong một khung duy nhất.
  • Tạo mẫu và triển khai nhanh: Các nhóm cần di chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng Ultralytics Python API được tinh giản.

Link to this sectionKhi nào nên chọn YOLOv10#

YOLOv10 được khuyến nghị cho:

  • Phát hiện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc phát hiện đầu cuối (end-to-end) mà không cần NMS, giúp giảm độ phức tạp khi triển khai.
  • Sự cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác của phát hiện trên nhiều quy mô model khác nhau.
  • Các ứng dụng có độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là yếu tố quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionThế hệ tiếp theo: YOLO26#

Trong khi YOLOv10 giới thiệu mô hình NMS-free mang tính cách mạng và YOLO11 hoàn thiện tính linh hoạt đa tác vụ, lĩnh vực AI di chuyển rất nhanh. Đối với các nhà phát triển bắt đầu triển khai sản xuất mới hiện nay, chúng tôi thực sự khuyên bạn nên khám phá Ultralytics YOLO26.

Được phát hành vào tháng 1 năm 2026, YOLO26 hợp nhất những gì tốt nhất của cả hai thế giới. Nó áp dụng nguyên bản Thiết kế End-to-End NMS-Free được tiên phong bởi YOLOv10, giúp đơn giản hóa đáng kể quy trình triển khai và đảm bảo độ trễ nhất quán. Hơn nữa, YOLO26 kết hợp các tối ưu hóa điện toán biên chuyên biệt. Bằng cách thực hiện DFL Removal (loại bỏ Distribution Focal Loss), kiến trúc đảm bảo khả năng xuất dễ dàng hơn và đạt được hiệu suất suy luận CPU nhanh hơn tới 43% so với các mô hình cũ, biến nó thành lựa chọn hàng đầu cho các thiết bị IoT năng lượng thấp và các ứng dụng di động.

YOLO26 cũng mang đến sự ổn định trong huấn luyện mô hình ngôn ngữ lớn (LLM) cho thị giác máy tính thông qua MuSGD Optimizer sáng tạo, một sự kết hợp lấy cảm hứng từ nghiên cứu AI tiên tiến. Kết hợp với các hàm mất mát ProgLoss + STAL, YOLO26 mang lại độ chính xác chưa từng có trên các đối tượng nhỏ, điều này rất cần thiết cho phát hiện video giao thông chi tiết và tự động hóa robot phức tạp.

Tìm hiểu thêm về YOLO26

Link to this sectionKết luận#

Việc chọn mô hình thị giác phù hợp phụ thuộc vào các hạn chế vận hành cụ thể của bạn. YOLOv10 đứng như một cột mốc quan trọng trong học thuật, chứng minh rằng NMS có thể được loại bỏ hiệu quả khỏi quy trình phát hiện. Tuy nhiên, để có sự cân bằng vượt trội về hiệu suất, tính linh hoạt đa tác vụ toàn diện và các công cụ triển khai liền mạch, YOLO11 cung cấp một giải pháp mạnh mẽ, sẵn sàng cho doanh nghiệp.

Đối với các kỹ sư muốn sự tiên tiến tuyệt đối—kết hợp sự đơn giản end-to-end với hiệu suất biên nhanh chóng—việc chuyển sang YOLO26 mới nhất là khuyến nghị cuối cùng. Bằng cách tận dụng Nền tảng Ultralytics toàn diện, bạn đảm bảo các dự án của mình được xây dựng trên một nền tảng được duy trì tốt, hiệu quả cao và sẵn sàng cho tương lai.

Những người đóng góp

Bình luận