YOLOv10 so với YOLO11 Khám phá chuyên sâu về các kiến trúc phát hiện đối tượng trong thời gian thực

Lĩnh vực thị giác máy tính liên tục phát triển, với các kiến trúc mới liên tục đẩy mạnh giới hạn của những gì có thể thực hiện được trong xử lý thời gian thực. Đối với các nhà phát triển và nhà nghiên cứu đang hoạt động trong lĩnh vực phát triển nhanh chóng này, việc hiểu rõ những điểm khác biệt tinh tế giữa các mô hình tiên tiến là rất quan trọng. Bài so sánh chi tiết này sẽ khám phá những khác biệt kỹ thuật, sự đánh đổi về hiệu năng và các trường hợp sử dụng lý tưởng cho YOLOv10 và Ultralytics YOLO11 , hai khung phần mềm phát hiện đối tượng có khả năng cao.

Mặc dù cả hai mô hình đều đạt được kết quả ấn tượng trên các bộ dữ liệu chuẩn, nhưng triết lý thiết kế cơ bản và sự tích hợp hệ sinh thái của chúng lại khác biệt đáng kể. Bằng cách xem xét kiến trúc của chúng, chúng ta có thể xác định giải pháp nào phù hợp nhất với các ràng buộc triển khai và mục tiêu dự án của bạn.

YOLOv10 Tiên phong NMS - Phát hiện từ đầu đến cuối miễn phí

Được phát hành vào mùa xuân năm 2024, YOLOv10 Đã giới thiệu một phương pháp tiếp cận mới cho quy trình phát hiện đối tượng truyền thống bằng cách trực tiếp giải quyết độ trễ phát sinh trong quá trình xử lý hậu kỳ.

Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức:Đại học Thanh Hoa
Ngày: 23 tháng 5 năm 2024
Bài báo nghiên cứu:arXiv:2405.14458
Mã nguồn:THU-MIG/yolov10 trên GitHub
Tài liệu:Tài liệu YOLOv10

Sự đổi mới nổi bật của YOLOv10 đó là chiến lược phân công nhiệm vụ kép nhất quán của nó, cho phép NMS - huấn luyện miễn phí. Các bộ phát hiện đối tượng truyền thống phụ thuộc rất nhiều vào phương pháp loại bỏ cực đại không đồng nhất (Non-Maximum Suppression - NMS ) để lọc ra các dự đoán hộp giới hạn dư thừa. Bằng cách loại bỏ bước này, YOLOv10 Đạt được khả năng phát hiện từ đầu đến cuối thực sự, giảm độ trễ suy luận và đơn giản hóa việc triển khai trên các bộ tăng tốc phần cứng như Bộ xử lý thần kinh (NPU) nơi cần tùy chỉnh. NMS Việc tối ưu hóa hoạt động vận hành vốn nổi tiếng là khó khăn.

Tìm hiểu thêm về YOLOv10

YOLO11 Tính linh hoạt và hiệu suất được thúc đẩy bởi hệ sinh thái

Ra mắt vào cuối năm đó, YOLO11 thể hiện sự tinh chỉnh liên tục của Ultralytics Dòng sản phẩm này tập trung vào sự cân bằng tối ưu giữa tốc độ, độ chính xác và trải nghiệm của nhà phát triển.

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 27 tháng 9 năm 2024
Mã nguồn:Ultralytics trên GitHub
Tích hợp nền tảng:Nền tảng Ultralytics

YOLO11 được thiết kế cho sản xuất. Mặc dù nó hoạt động xuất sắc trong việc phát hiện hộp giới hạn tiêu chuẩn, nhưng sức mạnh thực sự của nó nằm ở tính linh hoạt . Không giống như YOLOv10 , chủ yếu tập trung vào phát hiện đối tượng, YOLO11 Nó hỗ trợ nguyên bản các tác vụ phân đoạn đối tượng , ước lượng tư thế , phân loại hình ảnh và hộp giới hạn định hướng (OBB) bằng cách sử dụng kiến trúc thống nhất. Nó có yêu cầu bộ nhớ cực thấp trong quá trình huấn luyện, giúp nó dễ tiếp cận hơn nhiều đối với các nhóm làm việc với GPU cấp độ người tiêu dùng so với các kiến trúc dựa trên Transformer nặng nề hơn.

Tìm hiểu thêm về YOLO11

So sánh hiệu năng và số liệu

Khi so sánh các mô hình này cạnh nhau, điều cần thiết là phải xem xét hiệu suất của chúng trên các biến thể quy mô khác nhau trên các bộ dữ liệu chuẩn như bộ dữ liệu COCO .

Bảng dưới đây nêu bật sự khác biệt về hiệu năng. YOLO11 thường xuyên vượt ra ngoài YOLOv10 TRONG mAP trên hầu hết các loại kích thước khác nhau trong khi vẫn duy trì tốc độ suy luận TensorRT rất cạnh tranh.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Tăng tốc phần cứng

Để tái tạo tốc độ suy luận nhanh chóng này tại chỗ, hãy đảm bảo bạn xuất mô hình của mình sang các định dạng được tối ưu hóa như OpenVINO . Intel CPU hoặc TensorRT vì NVIDIA GPU.

Tìm hiểu sâu về kiến trúc

Phương pháp đào tạo và hiệu quả

YOLOv10 Kiến trúc của hệ thống nhấn mạnh việc giảm thiểu sự dư thừa tính toán. Bằng cách tối ưu hóa thiết kế xương sống và cổ họng bằng chiến lược toàn diện hướng đến hiệu quả và độ chính xác, các tác giả từ Đại học Thanh Hoa đã giảm đáng kể số lượng tham số trong các mô hình tầng giữa (như YOLOv10m) so với các phiên bản trước đó.

Tuy nhiên, Hiệu quả huấn luyện là một dấu ấn quan trọng của Ultralytics mô hình. YOLO11 sử dụng phương pháp tinh chế cao cấp. ultralytics Python gói này trừu tượng hóa các vấn đề phức tạp. tinh chỉnh siêu tham số. Khung này tự động xử lý các tăng cường dữ liệu nâng cao, lịch trình tốc độ học và huấn luyện phân tán đa GPU một cách sẵn có. Kiến trúc của YOLO11 cũng thể hiện luồng gradient tuyệt vời, dẫn đến hội tụ nhanh hơn và sử dụng VRAM thấp hơn trong giai đoạn huấn luyện.

Dễ sử dụng và lợi thế hệ sinh thái

Một yếu tố quan trọng để doanh nghiệp áp dụng là Hệ sinh thái được duy trì tốt. Các kho lưu trữ nghiên cứu, mặc dù mang tính đột phá, thường trở nên không hoạt động sau khi công bố bài báo ban đầu. Hệ sinh thái Ultralytics, hỗ trợ YOLO11, cung cấp trải nghiệm phát triển liền mạch, từ đầu đến cuối.

Tích hợp liền mạch với các công cụ như Weights & Biases để theo dõi thí nghiệm và Roboflow để quản lý tập dữ liệu, YOLO11 Công cụ này giúp đẩy nhanh quá trình chuyển đổi từ nguyên mẫu sang sản phẩm hoàn chỉnh. Tính dễ sử dụng được thể hiện rõ qua API được tối giản hóa, cho phép các nhà phát triển huấn luyện và xuất mô hình chỉ với một vài dòng mã.

from ultralytics import YOLO

# Initialize the YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model efficiently with optimized memory handling
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="0")

# Export to ONNX format for deployment flexibility
model.export(format="onnx")

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOv10 và YOLO11 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLOv10

YOLOv10 là một lựa chọn tốt cho:

detect thời gian thực không NMS: Các ứng dụng hưởng lợi từ detect end-to-end mà không cần Non-Maximum Suppression, giảm độ phức tạp khi triển khai.
Đánh đổi cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác detect trên các quy mô mô hình khác nhau.
Ứng dụng có độ trễ nhất quán: Các kịch bản triển khai mà thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như trong robot học hoặc các hệ thống tự hành.

Khi nào nên chọn YOLO11

YOLO11 Được khuyến nghị cho:

Triển khai biên sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson, nơi độ tin cậy và việc bảo trì tích cực là tối quan trọng.
Ứng dụng thị giác đa nhiệm: Các dự án yêu cầu detect, segmentation, ước tính tư thế, và OBB trong một framework thống nhất duy nhất.
Tạo mẫu và triển khai nhanh: Các nhóm cần chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng API Python của Ultralytics được tối ưu hóa.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Khám phá các kiến trúc khác

Trong khi YOLOv10 Và YOLO11 Mặc dù đây là những lựa chọn tuyệt vời, trường hợp sử dụng cụ thể của bạn có thể sẽ được hưởng lợi từ các kiến trúc khác có sẵn trong tài liệu. Đối với suy luận dựa trên chuỗi, các mô hình transformer như RT-DETR cung cấp độ chính xác cao, mặc dù chúng thường yêu cầu bộ nhớ cao hơn. Ngược lại, nếu bạn cần khả năng nhận diện các lớp mới mà không cần huấn luyện lại, YOLO -World cung cấp phương pháp từ vựng mở được điều khiển bởi các lời nhắc bằng ngôn ngữ tự nhiên.

Thế hệ tiếp theo: YOLO26

Đối với các nhóm đang tìm kiếm giải pháp hiện đại nhất, Ultralytics YOLO26 vừa được phát hành kết hợp những tính năng tốt nhất của cả hai mô hình đã đề cập ở trên. Được phát hành vào tháng 1 năm 2026, YOLO26 là sự lựa chọn tối ưu cho các kịch bản triển khai hiện đại.

Dựa trên nền tảng của các phiên bản tiền nhiệm, YOLO26 tích hợp nguyên bản Thiết kế NMS-Free từ đầu đến cuối, loại bỏ hiệu quả các nút thắt cổ chai trong xử lý hậu kỳ mà YOLOv10 đã giải quyết lần đầu, nhưng thực hiện điều này trong khuôn khổ Ultralytics mạnh mẽ. Hơn nữa, YOLO26 còn có tính năng Loại bỏ DFL (Distribution Focal Loss), giúp đơn giản hóa đáng kể biểu đồ xuất mô hình và tăng cường khả năng tương thích với các thiết bị biên và IoT công suất thấp.

Tính ổn định của quá trình huấn luyện cũng đã có một bước tiến vượt bậc với sự ra mắt của Trình tối ưu hóa MuSGD , một phương pháp lai ghép lấy cảm hứng từ các phương pháp huấn luyện LLM, đảm bảo sự hội tụ cực nhanh. Kết hợp với các hàm mất mát tiên tiến như ProgLoss + STAL , YOLO26 mang lại những cải tiến đáng kể trong nhận dạng đối tượng nhỏ. Đối với việc triển khai trên các thiết bị biên tiêu chuẩn, những cải tiến về kiến trúc này giúp tăng tốc độ suy luận CPU lên tới 43% , biến YOLO26 trở thành lựa chọn vô song cho tất cả các tác vụ thị giác máy tính.

YOLOv10 so với YOLO11 Khám phá chuyên sâu về các kiến ​​trúc phát hiện đối tượng trong thời gian thực