Link to this sectionSo sánh YOLOv10 và YOLO11#

Bối cảnh thị giác máy tính đang không ngừng phát triển, với các kiến trúc mới liên tục mở rộng giới hạn của những gì khả thi trong xử lý thời gian thực. Đối với các lập trình viên và nhà nghiên cứu đang làm việc trong lĩnh vực tốc độ cao này, việc nắm bắt các sắc thái giữa các mô hình tiên tiến là rất quan trọng. Bài so sánh chi tiết này khám phá những khác biệt về kỹ thuật, các đánh đổi về hiệu năng và các trường hợp sử dụng lý tưởng cho YOLOv10 và Ultralytics YOLO11, hai framework phát hiện đối tượng có năng lực cao.

Mặc dù cả hai mô hình đều đạt được kết quả đáng chú ý trên các tập dữ liệu benchmark, triết lý thiết kế cơ bản và sự tích hợp hệ sinh thái của chúng lại khác biệt đáng kể. Bằng cách kiểm tra kiến trúc của chúng, chúng ta có thể xác định giải pháp nào phù hợp nhất với các ràng buộc triển khai và mục tiêu dự án của bạn.

Link to this sectionYOLOv10: Tiên phong trong phát hiện End-to-End không dùng NMS#

Được ra mắt vào mùa xuân năm 2024, YOLOv10 đã giới thiệu một cách tiếp cận mới cho quy trình phát hiện đối tượng truyền thống bằng cách giải quyết trực tiếp độ trễ phát sinh từ việc hậu xử lý.

Tác giả: Ao Wang, Hui Chen, Lihao Liu, và cộng sự.
Tổ chức: Đại học Thanh Hoa
Ngày: 23 tháng 5 năm 2024
Bài nghiên cứu: arXiv:2405.14458
Mã nguồn: THU-MIG/yolov10 trên GitHub
Tài liệu: Tài liệu YOLOv10

Cải tiến nổi bật của YOLOv10 là chiến lược gán kép nhất quán (consistent dual assignments), cho phép huấn luyện không cần NMS. Các bộ phát hiện đối tượng truyền thống dựa nhiều vào Non-Maximum Suppression (NMS) để lọc bỏ các dự đoán BBox trùng lặp. Bằng cách loại bỏ bước này, YOLOv10 đạt được khả năng phát hiện end-to-end thực sự, giảm độ trễ suy luận và đơn giản hóa việc triển khai trên các bộ tăng tốc phần cứng như Neural Processing Units (NPUs), nơi các thao tác NMS tùy chỉnh rất khó tối ưu hóa.

Tìm hiểu thêm về YOLOv10

Link to this sectionYOLO11: Sự linh hoạt và hiệu năng được thúc đẩy bởi hệ sinh thái#

Được ra mắt vào cuối năm đó, YOLO11 đại diện cho sự tinh chỉnh liên tục của dòng mô hình Ultralytics, tập trung vào sự cân bằng tối ưu giữa tốc độ, độ chính xác và trải nghiệm lập trình viên.

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 27 tháng 9, 2024
Mã nguồn: Ultralytics trên GitHub
Tích hợp nền tảng: Nền tảng Ultralytics

YOLO11 được thiết kế cho mục đích sản xuất. Trong khi nó vượt trội trong việc phát hiện BBox tiêu chuẩn, thế mạnh thực sự của nó nằm ở tính linh hoạt. Không giống như YOLOv10 vốn chủ yếu tập trung vào phát hiện đối tượng, YOLO11 hỗ trợ nguyên bản các tác vụ instance segmentation, pose estimation, image classification và Oriented Bounding Box (OBB) bằng cách sử dụng một kiến trúc thống nhất. Nó tự hào với yêu cầu bộ nhớ cực kỳ thấp trong quá trình huấn luyện, giúp các nhóm làm việc với GPU tiêu dùng dễ dàng tiếp cận hơn so với các kiến trúc nặng dựa trên Transformer.

Tìm hiểu thêm về YOLO11

Link to this sectionSo sánh Hiệu năng và Chỉ số#

Khi so sánh các mô hình này cạnh nhau, điều cần thiết là phải xem xét cách chúng thể hiện trên các biến thể quy mô khác nhau dựa trên các benchmark tiêu chuẩn như tập dữ liệu COCO.

Bảng dưới đây nêu bật những khác biệt về hiệu năng. YOLO11 thường xuyên vượt qua YOLOv10 về mAP ở hầu hết các hạng mục kích thước trong khi vẫn duy trì tốc độ suy luận TensorRT có tính cạnh tranh cao.

Mô hình	kích thước ^(pixel)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Tăng tốc phần cứng

Để tái tạo tốc độ suy luận nhanh chóng này tại local, hãy đảm bảo bạn xuất mô hình của mình sang các định dạng được tối ưu hóa như OpenVINO cho CPU Intel hoặc TensorRT cho GPU NVIDIA.

Link to this sectionPhân tích chuyên sâu về kiến trúc#

Link to this sectionPhương pháp luận và hiệu quả huấn luyện#

Kiến trúc của YOLOv10 nhấn mạnh việc giảm bớt sự dư thừa tính toán. Bằng cách tối ưu hóa các thiết kế backbone và neck sử dụng chiến lược dựa trên hiệu suất-độ chính xác toàn diện, các tác giả từ Đại học Thanh Hoa đã giảm đáng kể số lượng tham số trong các mô hình tầm trung (như YOLOv10m) so với các phiên bản trước đó.

Tuy nhiên, Hiệu quả huấn luyện là một dấu ấn quan trọng của các mô hình Ultralytics. YOLO11 sử dụng gói Python ultralytics được tinh chỉnh cao, giúp trừu tượng hóa các tác vụ phức tạp như tinh chỉnh siêu tham số. Framework này tự động xử lý các kỹ thuật tăng cường dữ liệu nâng cao, lập lịch tốc độ học và huấn luyện phân tán đa GPU ngay khi sử dụng. Kiến trúc của YOLO11 cũng thể hiện luồng gradient tuyệt vời, dẫn đến khả năng hội tụ nhanh hơn và sử dụng ít VRAM hơn trong giai đoạn huấn luyện.

Link to this sectionSự dễ sử dụng và lợi thế hệ sinh thái#

Một yếu tố quan trọng đối với việc áp dụng trong doanh nghiệp là Hệ sinh thái được duy trì tốt. Các kho lưu trữ nghiên cứu, mặc dù mang tính đột phá, thường trở nên không còn hoạt động sau khi bài báo được xuất bản lần đầu. Hệ sinh thái Ultralytics, hỗ trợ YOLO11, cung cấp trải nghiệm lập trình viên liền mạch, từ đầu đến cuối.

Tích hợp liền mạch với các công cụ như Weights & Biases để theo dõi thí nghiệm và Roboflow để quản lý tập dữ liệu, YOLO11 tăng tốc quá trình chuyển đổi từ nguyên mẫu sang sản xuất. Sự dễ sử dụng được thể hiện rõ qua API hợp lý hóa, cho phép các lập trình viên huấn luyện và xuất mô hình chỉ với vài dòng code.

from ultralytics import YOLO

# Initialize the YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model efficiently with optimized memory handling
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="0")

# Export to ONNX format for deployment flexibility
model.export(format="onnx")

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLOv10 và YOLO11 phụ thuộc vào yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLOv10#

YOLOv10 là một lựa chọn mạnh mẽ cho:

Phát hiện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc phát hiện đầu cuối (end-to-end) mà không cần NMS, giúp giảm độ phức tạp khi triển khai.
Sự cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác của phát hiện trên nhiều quy mô model khác nhau.
Các ứng dụng có độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là yếu tố quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.

Link to this sectionKhi nào nên chọn YOLO11#

YOLO11 được khuyến nghị cho:

Triển khai Edge trong sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson, nơi độ tin cậy và sự bảo trì tích cực là tối quan trọng.
Các ứng dụng thị giác đa tác vụ: Các dự án yêu cầu phát hiện, phân đoạn, ước tính tư thế, và OBB trong một khung duy nhất.
Tạo mẫu và triển khai nhanh: Các nhóm cần di chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng Ultralytics Python API được tinh giản.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionKhám phá các kiến trúc khác#

Mặc dù YOLOv10 và YOLO11 là những lựa chọn xuất sắc, nhưng trường hợp sử dụng cụ thể của bạn có thể hưởng lợi từ các kiến trúc khác có sẵn trong tài liệu. Đối với suy luận dựa trên trình tự, các mô hình Transformer như RT-DETR cung cấp độ chính xác cao, mặc dù chúng thường đòi hỏi yêu cầu bộ nhớ lớn hơn. Ngược lại, nếu bạn cần khả năng zero-shot để nhận diện các lớp mới mà không cần huấn luyện lại, YOLO-World cung cấp cách tiếp cận từ vựng mở dựa trên các câu lệnh ngôn ngữ tự nhiên.

Link to this sectionThế hệ tiếp theo: YOLO26#

Đối với các nhóm đang tìm kiếm công nghệ hiện đại nhất, phiên bản Ultralytics YOLO26 mới được phát hành đã kết hợp các tính năng tốt nhất của cả hai mô hình được thảo luận ở trên. Được phát hành vào tháng 1 năm 2026, YOLO26 là khuyến nghị tối ưu cho các kịch bản triển khai hiện đại.

Xây dựng dựa trên nền tảng của những người tiền nhiệm, YOLO26 tích hợp nguyên bản Thiết kế không dùng NMS End-to-End, loại bỏ hiệu quả các nút thắt cổ chai về hậu xử lý mà YOLOv10 đã giải quyết đầu tiên, nhưng thực hiện điều đó trong khung công tác Ultralytics mạnh mẽ. Hơn nữa, YOLO26 còn có tính năng Loại bỏ DFL (Distribution Focal Loss), giúp đơn giản hóa đáng kể các đồ thị xuất mô hình và tăng cường khả năng tương thích với các thiết bị edge và IoT năng lượng thấp.

Sự ổn định trong huấn luyện cũng đã đạt được bước tiến thế hệ với việc giới thiệu Bộ tối ưu hóa MuSGD, một cách tiếp cận lai lấy cảm hứng từ các phương pháp luận huấn luyện LLM đảm bảo khả năng hội tụ cực nhanh. Kết hợp với các hàm loss nâng cao như ProgLoss + STAL, YOLO26 mang lại những cải tiến đáng chú ý trong việc nhận diện đối tượng nhỏ. Để triển khai trên các thiết bị edge tiêu chuẩn, những tinh chỉnh kiến trúc này mang lại CPU Inference nhanh hơn tới 43%, biến YOLO26 thành một lựa chọn vô song trong tất cả các tác vụ thị giác máy tính.

Người đóng góp

GLglenn-jocher¹² PDpderrenger¹

Đã tạo 27 thg 1, 2025Đã cập nhật 3 tuần trước