YOLO11 so với YOLOv10: So sánh kỹ thuật toàn diện về các mô hình phát hiện đối tượng thời gian thực

Bối cảnh thị giác máy tính thời gian thực không ngừng phát triển, với các kiến trúc mới liên tục phá vỡ giới hạn của những gì có thể thực hiện trên cả thiết bị biên và cơ sở hạ tầng đám mây. Trong phân tích kỹ thuật chi tiết này, chúng ta khám phá những sắc thái giữa hai mô hình then chốt trong lĩnh vực này: Ultralytics YOLO11YOLOv10. Cả hai đều đại diện cho những bước nhảy vọt đáng kể về khả năng phát hiện đối tượng, nhưng chúng áp dụng các triết lý kiến trúc cơ bản khác nhau để đạt được hiệu suất của mình.

Giải mã kiến trúc YOLO11

Chi tiết về YOLO11:

Được giới thiệu như một giải pháp linh hoạt và mạnh mẽ, YOLO11 được xây dựng dựa trên nhiều năm nghiên cứu nền tảng về thị giác máy tính và AI. Triết lý thiết kế cốt lõi của YOLO11 xoay quanh độ phong phú của tính năng và sự linh hoạt tối đa trên nhiều tác vụ thị giác máy tính.

Một trong những cải tiến nổi bật của YOLO11 là việc triển khai C3k2 Block. Module bottleneck tinh chỉnh này tối ưu hóa luồng gradient xuyên suốt mạng, cải thiện đáng kể hiệu quả tham số trong khi vẫn duy trì độ chính xác cao. Ngoài ra, YOLO11 sử dụng cơ chế chú ý không gian (spatial attention) được tăng cường, rất quan trọng để nhận diện các đối tượng nhỏ hoặc bị che khuất một phần. Điều này làm cho nó trở thành một lựa chọn đặc biệt cho các trường hợp sử dụng hình ảnh trên khôngphân tích hình ảnh y tế chi tiết.

YOLO11 sử dụng thiết kế không cần anchor (anchor-free), giúp giảm thiểu độ phức tạp trong việc điều chỉnh siêu tham số, cho phép khả năng tổng quát hóa mạnh mẽ trên một loạt các tập dữ liệu tùy chỉnh. Hơn nữa, yêu cầu bộ nhớ trong quá trình huấn luyện thấp hơn đáng kể so với các kiến trúc dựa trên Transformer, cho phép các nhà nghiên cứu huấn luyện các mô hình lớn một cách hiệu quả trên phần cứng tiêu dùng phổ thông.

Tìm hiểu thêm về YOLO11

Khám phá kiến trúc YOLOv10

Chi tiết YOLOv10:

Được phát triển bởi các nhà nghiên cứu tại Đại học Thanh Hoa, YOLOv10 đã tạo nên tiếng vang như một người tiên phong end-to-end trong gia đình YOLO. Điểm nhấn của YOLOv10 là phương pháp NMS-Free Training. Bằng cách áp dụng các gán ghép kép nhất quán trong giai đoạn huấn luyện, mô hình tự nhiên dự đoán chính xác một hộp bao (bounding box) cho mỗi đối tượng. Bước đột phá này loại bỏ hoàn toàn nhu cầu sử dụng Non-Maximum Suppression (NMS) trong quá trình suy luận, một bước hậu xử lý vốn trước đây gây ra các nút thắt độ trễ trong các quy trình triển khai.

Kiến trúc này cũng giới thiệu một chiến lược thiết kế toàn diện về hiệu suất và độ chính xác. Nó kết hợp thiết kế downsampling tách biệt kênh-không gian và các thiết kế khối có thứ hạng (rank-guided block) nhằm giảm thiểu sự dư thừa trong các tầng mạng. Điều này dẫn đến ít FLOPs hơn và giảm chi phí tính toán mà không làm giảm đáng kể mean Average Precision (mAP). Đối với các ứng dụng thời gian thực nơi mỗi mili giây đều có giá trị, việc loại bỏ NMS cung cấp một đồ thị suy luận xác định, rất phù hợp cho các thiết bị AI biên.

Tìm hiểu thêm về YOLOv10

Số liệu hiệu suất và Benchmark

Khi đánh giá hai mô hình này, chúng tôi xem xét sự cân bằng giữa độ chính xác, số lượng tham số và tốc độ. Bảng sau đây cho thấy sự so sánh giữa chúng qua các quy mô khác nhau trên tập dữ liệu COCO.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Như đã quan sát trong số liệu hiệu suất YOLO, YOLO11 thường đạt được điểm mAP cao hơn một chút trên các biến thể của nó, đặc biệt là ở các mô hình lớn hơn. Thiết kế không cần NMS của YOLOv10 đảm bảo thời gian suy luận end-to-end cực kỳ ổn định, nhưng YOLO11 vẫn đạt được thông lượng vượt trội khi được tối ưu hóa với TensorRT trên phần cứng NVIDIA.

Xuất mô hình cho sản xuất

Khi chuẩn bị mô hình cho việc triển khai, việc xuất sang các định dạng tối ưu là rất quan trọng. Cả YOLO11 và YOLOv10 đều có thể được xuất một cách liền mạch sang các định dạng như ONNX và TensorRT bằng cách sử dụng framework Ultralytics. Xem hướng dẫn của chúng tôi về các tùy chọn triển khai mô hình để có hướng dẫn từng bước.

Lợi thế của hệ sinh thái Ultralytics

Mặc dù các số liệu hiệu suất độc lập rất quan trọng, nhưng hệ sinh thái xung quanh mới là yếu tố quyết định sự thành công thực tế của một dự án học máy. Đây là nơi YOLO11, với tư cách là một thành viên bản địa của hệ sinh thái Ultralytics, thực sự tỏa sáng.

Ultralytics Platform mang đến trải nghiệm người dùng vô cùng tinh gọn. Với Python API đơn giản và thống nhất, các nhà phát triển có thể xử lý các tác vụ vượt xa các hộp bao cơ bản. YOLO11 hỗ trợ nguyên bản instance segmentation, pose estimation, image classificationOriented Bounding Box (OBB) ngay từ khi bắt đầu. Sự linh hoạt to lớn này thường thiếu trong các kho lưu trữ nghiên cứu chuyên biệt.

Hơn nữa, hệ sinh thái được hỗ trợ bởi tài liệu mở rộng và sự hỗ trợ tích cực từ cộng đồng. Các tích hợp với những công cụ như Weights & Biases để theo dõi thử nghiệm, và OpenVINO để tối ưu hóa phần cứng Intel, được tích hợp trực tiếp vào thư viện. Huấn luyện một mô hình đòi hỏi rất ít mã nguồn bổ trợ và hưởng lợi từ các quy trình huấn luyện hiệu quả cao, cần ít bộ nhớ CUDA hơn so với các mô hình Transformer nặng nề như RT-DETR.

Ví dụ mã nguồn thực tế

Việc huấn luyện và chạy suy luận với Ultralytics được thiết kế để trở nên trực quan nhất có thể. API đồng nhất xử lý cả YOLO11 và YOLOv10 một cách dễ dàng.

from ultralytics import YOLO

# Initialize the model (YOLO11n or YOLOv10n)
model = YOLO("yolo11n.pt")

# Train the model efficiently on a custom dataset
# Ultralytics automatically handles hyperparameters and memory optimization
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Run inference on an image
inference_results = model("https://ultralytics.com/images/bus.jpg")

# Display the detected objects
inference_results[0].show()

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa YOLO11 và YOLOv10 phụ thuộc vào yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLO11

YOLO11 là lựa chọn mạnh mẽ cho:

  • Triển khai sản xuất tại biên: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson nơi mà độ tin cậy và sự bảo trì tích cực là tối quan trọng.
  • Ứng dụng thị giác đa tác vụ: Các dự án yêu cầu phát hiện, phân đoạn, ước tính tư thếOBB trong một framework thống nhất duy nhất.
  • Tạo mẫu nhanh và Triển khai: Các đội ngũ cần di chuyển nhanh từ thu thập dữ liệu đến sản xuất bằng cách sử dụng Ultralytics Python API được sắp xếp hợp lý.

Khi nào nên chọn YOLOv10

YOLOv10 được khuyến nghị cho:

  • Nhận diện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc nhận diện end-to-end mà không cần Non-Maximum Suppression, giảm bớt độ phức tạp khi triển khai.
  • Cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng tốt giữa tốc độ suy luận và độ chính xác nhận diện trên nhiều quy mô mô hình khác nhau.
  • Ứng dụng yêu cầu độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.

Khi nào nên chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu suất và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Thế hệ tiếp theo: YOLO26

Trong khi YOLOv10 giới thiệu mô hình không cần NMS mang tính cách mạng và YOLO11 hoàn thiện sự linh hoạt đa tác vụ, lĩnh vực AI tiến triển rất nhanh. Đối với các nhà phát triển bắt đầu triển khai sản xuất mới ngay hôm nay, chúng tôi đặc biệt khuyến khích khám phá Ultralytics YOLO26.

Được ra mắt vào tháng 1 năm 2026, YOLO26 kết hợp những điểm tốt nhất của cả hai thế giới. Nó áp dụng nguyên bản Thiết kế NMS-Free End-to-End được tiên phong bởi YOLOv10, đơn giản hóa đáng kể quy trình triển khai và đảm bảo độ trễ nhất quán. Hơn nữa, YOLO26 tích hợp các tối ưu hóa điện toán biên chuyên biệt. Bằng cách thực thi DFL Removal (loại bỏ Distribution Focal Loss), kiến trúc đảm bảo khả năng xuất dễ dàng hơn và đạt được tốc độ suy luận trên CPU nhanh hơn tới 43% so với các mô hình thế hệ trước, biến nó thành lựa chọn hàng đầu cho các thiết bị IoT công suất thấp và ứng dụng di động.

YOLO26 cũng mang tính ổn định trong huấn luyện Mô hình Ngôn ngữ Lớn (LLM) vào thị giác máy tính thông qua trình tối ưu hóa MuSGD Optimizer sáng tạo, một sự kết hợp lấy cảm hứng từ nghiên cứu AI tiên tiến. Kết hợp với các hàm mất mát ProgLoss + STAL, YOLO26 mang lại độ chính xác vô song trên các đối tượng nhỏ, điều này rất cần thiết cho phát hiện video giao thông chi tiết và tự động hóa robot phức tạp.

Tìm hiểu thêm về YOLO26

Kết luận

Việc chọn đúng mô hình thị giác phụ thuộc vào các ràng buộc vận hành cụ thể của bạn. YOLOv10 là một cột mốc quan trọng trong học thuật, chứng minh rằng NMS có thể được loại bỏ hiệu quả khỏi quy trình phát hiện. Tuy nhiên, để có sự cân bằng vượt trội về hiệu suất, tính linh hoạt của tác vụ toàn diện và các công cụ triển khai liền mạch, YOLO11 cung cấp một giải pháp mạnh mẽ, sẵn sàng cho doanh nghiệp.

Đối với các kỹ sư muốn sự đột phá tuyệt đối—kết hợp sự đơn giản end-to-end với hiệu suất biên nhanh chớp nhoáng—việc di chuyển sang YOLO26 mới nhất là lời khuyên cuối cùng. Bằng cách tận dụng Ultralytics Platform toàn diện, bạn đảm bảo các dự án của mình được xây dựng trên một nền tảng được bảo trì tốt, hiệu quả cao và sẵn sàng cho tương lai.

Bình luận