YOLOv10 So sánh kỹ thuật giữa PP-YOLOE+ và các kiến trúc phát hiện thời gian thực.

Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc tìm kiếm sự cân bằng tối ưu giữa tốc độ suy luận và độ chính xác phát hiện thúc đẩy sự đổi mới liên tục. Hai kiến trúc đáng chú ý đã định hình cuộc thảo luận này là YOLOv10 , một bước đột phá trong giới học thuật về phát hiện từ đầu đến cuối, và PP-YOLOE+ , một bộ phát hiện cấp công nghiệp được tối ưu hóa cho... PaddlePaddle hệ sinh thái. Phân tích này cung cấp cái nhìn sâu sắc về các thông số kỹ thuật, sự khác biệt về kiến trúc và các chỉ số hiệu suất để giúp các nhà nghiên cứu và kỹ sư lựa chọn công cụ phù hợp cho các nhiệm vụ phát hiện đối tượng cụ thể của họ.

Các chỉ số hiệu suất và điểm chuẩn

Bảng sau đây so sánh hiệu suất của YOLOv10 và PP-YOLOE+ trên nhiều quy mô mô hình khác nhau. Các chỉ số tập trung vào Độ chính xác trung bình ( mAP ) trên COCO độ trễ của tập dữ liệu và suy luận, làm nổi bật sự đánh đổi giữa hiệu quả tham số và thông lượng thô.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv10: Sự tiến hóa Đầu cuối

YOLOv10 đại diện cho một sự thay đổi mang tính đột phá trong lĩnh vực này. YOLO gia đình bằng cách giới thiệu NMS - Đào tạo miễn phí. Không giống như các máy dò truyền thống dựa vào phương pháp triệt tiêu cực đại không tối đa (Non-Maximum Suppression) NMS ) để lọc các hộp giới hạn chồng chéo, YOLOv10 Mô hình sử dụng chiến lược gán kép nhất quán. Điều này cho phép mô hình dự đoán trực tiếp một hộp tối ưu nhất cho mỗi đối tượng, giảm đáng kể độ trễ suy luận và độ phức tạp khi triển khai.

Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức:Đại học Thanh Hoa
Ngày: 2024-05-23
Arxiv:https://arxiv.org/abs/2405.14458
GitHub:https://github.com/THU-MIG/yolov10

Tìm hiểu thêm về YOLOv10

Các tính năng kiến trúc chính

NMS - Đào tạo miễn phí: Bằng cách sử dụng gán nhãn kép — một-nhiều để giám sát chi tiết trong quá trình đào tạo và một-một để suy luận — YOLOv10 Loại bỏ nhu cầu xử lý hậu kỳ NMS .
Thiết kế hướng đến hiệu quả và độ chính xác: Kiến trúc này có đầu phân loại gọn nhẹ, lấy mẫu giảm độ phân giải tách rời kênh không gian và thiết kế khối hướng dẫn theo thứ hạng để tối đa hóa hiệu quả tính toán .
Tối ưu hóa toàn diện: Mô hình kết hợp các phép tích chập nhân lớn và các mô-đun tự chú ý một phần để tăng cường trường tiếp nhận mà không gây ra chi phí tính toán lớn.

Đơn giản hóa triển khai

Việc loại bỏ NMS Đây là một lợi thế lớn cho việc triển khai ở biên mạng. NMS Các phép toán thường tạo ra nút thắt cổ chai trên các bộ tăng tốc phần cứng như FPGA hoặc NPU, vốn được tối ưu hóa cho phép nhân ma trận nhưng lại gặp khó khăn với việc sắp xếp và lọc logic.

PP-YOLOE+: Tiêu chuẩn công nghiệp

PP-YOLOE+ là phiên bản nâng cấp của PP-YOLOE, được Baidu phát triển như một phần của dự án. PaddlePaddle Khung phần mềm này tập trung mạnh vào các ứng dụng công nghiệp thực tiễn, tinh chỉnh cơ chế không cần neo và giới thiệu cấu trúc xương sống và cổ mạnh mẽ. Nó được thiết kế để có khả năng tương thích cao với nhiều hệ thống phần cứng khác nhau, đặc biệt khi được sử dụng với PaddleLite.

Tác giả: Các tác giả của PaddlePaddle
Tổ chức:Baidu
Ngày: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHub:https://github.com/PaddlePaddle/PaddleDetection/

Các tính năng kiến trúc chính

Mạng trục CSPRepResNet: Mạng trục này kết hợp những lợi ích của các kết nối dư với hiệu quả của mạng CSP (Cross Stage Partial), mang lại khả năng trích xuất đặc trưng mạnh mẽ.
ET-Head: Đầu dò hiệu quả được căn chỉnh theo nhiệm vụ giúp thống nhất chất lượng phân loại và định vị, đảm bảo rằng các phát hiện có độ tin cậy cao cũng có các hộp giới hạn chính xác.
Gán nhãn động: Sử dụng TAL (Học tập căn chỉnh nhiệm vụ) để gán nhãn động trong quá trình huấn luyện, cải thiện tốc độ hội tụ và độ chính xác cuối cùng.

Phân tích so sánh

Khi lựa chọn giữa YOLOv10 Đối với PP-YOLOE+, quyết định thường phụ thuộc vào môi trường triển khai và các yêu cầu cụ thể của dự án.

Độ chính xác so với Tốc độ

YOLOv10 Nhìn chung, phương pháp này mang lại sự cân bằng tốt hơn giữa hiệu quả và độ chính xác, đặc biệt là ở các mô hình có kích thước nhỏ hơn. Ví dụ, YOLOv10n Đạt được độ chính xác tương đương với các mô hình lớn hơn trong khi vẫn duy trì độ trễ cực thấp nhờ việc loại bỏ... NMS PP-YOLOE+ vẫn duy trì tính cạnh tranh, đặc biệt là ở các phân khúc lớn hơn. x các biến thể mà trong đó cấu trúc mạnh mẽ của nó tỏa sáng trong việc trích xuất các đặc điểm phức tạp.

Hệ sinh thái và Dễ sử dụng

Mặc dù PP-YOLOE+ là một ứng cử viên nặng ký trong số các sản phẩm của hãng này, PaddlePaddle Trong hệ sinh thái này, các mô hình Ultralytics mang đến trải nghiệm toàn diện và liền mạch hơn. Nền tảng Ultralytics cho phép người dùng quản lý tập dữ liệu, huấn luyện trên đám mây và triển khai ở bất kỳ định dạng nào ( ONNX , TensorRT , CoreML , TFLite Chỉ với một cú nhấp chuột. Mức độ tích hợp này giúp giảm đáng kể chi phí kỹ thuật so với việc sử dụng các công cụ chuyên biệt của từng framework.

Hiệu quả huấn luyện và Tài nguyên

YOLOv10 Các lợi ích đến từ các kỹ thuật tối ưu hóa hiện đại giúp giảm thiểu lượng bộ nhớ sử dụng trong quá trình huấn luyện. Ngược lại, các kiến trúc cũ hơn thường yêu cầu lượng bộ nhớ đáng kể. CUDA bộ nhớ hạn chế, khiến việc huấn luyện chúng trên GPU dành cho người tiêu dùng trở nên khó khăn hơn. Ultralytics Các mô hình này nổi tiếng với quy trình huấn luyện hiệu quả , cho phép tạo ra các mô hình hiệu năng cao trên phần cứng có cấu hình khiêm tốn.

Cái Ultralytics Ưu điểm: Không thể phát hiện

Mặc dù việc so sánh các kiến trúc cụ thể rất hữu ích, nhưng hệ sinh thái xung quanh thường là yếu tố quyết định đến sự thành công lâu dài của dự án.

Tính linh hoạt: Ultralytics Nó hỗ trợ nhiều tác vụ khác nhau ngoài việc phát hiện đơn giản, bao gồm phân đoạn đối tượng , ước lượng tư thế và phát hiện OBB (Oriented Bounding Box) . Điều này cho phép các nhà phát triển giải quyết các vấn đề đa diện chỉ với một thư viện duy nhất.
Tài liệu: Tài liệu đầy đủ và cập nhật đảm bảo các nhà phát triển có thể khắc phục sự cố và triển khai các tính năng nâng cao mà không gặp khó khăn.
Phát triển tích cực: Ultralytics Cộng đồng rất năng động, đảm bảo cập nhật thường xuyên, sửa lỗi và tích hợp những đột phá nghiên cứu mới nhất.

Giới thiệu YOLO26: Tiêu chuẩn mới

Đối với các nhà phát triển đang tìm kiếm hiệu năng tối ưu tuyệt đối, YOLO26 mới ra mắt được xây dựng dựa trên những cải tiến của... YOLOv10 và tinh chỉnh chúng hơn nữa.

Tìm hiểu thêm về YOLO26

YOLO26 tích hợp một số cải tiến tiên tiến:

NMS từ đầu đến cuối - Thiết kế miễn phí: Giống như YOLOv10 YOLO26 là hệ thống đầu cuối hoàn chỉnh, loại bỏ NMS Để triển khai nhanh hơn, đơn giản hơn.
Loại bỏ DFL: Hiện tượng suy hao tiêu điểm phân tán (Distribution Focal Loss - DFL) đã được loại bỏ để đơn giản hóa quá trình xuất dữ liệu và cải thiện khả năng tương thích với các thiết bị biên và thiết bị công suất thấp.
MuSGD Optimizer: Một sự kết hợp của... SGD Và với Muon (lấy cảm hứng từ quá trình huấn luyện LLM), trình tối ưu hóa này cung cấp quá trình huấn luyện ổn định hơn và hội tụ nhanh hơn.
Cải tiến dành riêng cho từng nhiệm vụ: Bao gồm các nâng cấp như tổn thất phân đoạn ngữ nghĩa cho các mô hình Seg và tổn thất góc chuyên biệt cho các nhiệm vụ OBB .
Suy luận nhanh hơn: Được tối ưu hóa đặc biệt cho CPU Khả năng suy luận này mang lại tốc độ nhanh hơn tới 43% so với các thế hệ trước, lý tưởng cho điện toán biên.

Các ứng dụng thực tế

Bán lẻ thông minh và quản lý kho hàng

Đối với các ứng dụng bán lẻ thông minh , tốc độ và khả năng phát hiện vật thể nhỏ là vô cùng quan trọng. YOLOv10 khả năng chạy mà không cần NMS Camera gắn trên cao rất lý tưởng để theo dõi khách hàng hoặc nhận diện sản phẩm trên kệ bằng video trực tiếp.

Tự động hóa công nghiệp

Trong ngành sản xuất, PP-YOLOE+ đã được sử dụng rộng rãi để phát hiện lỗi trên dây chuyền lắp ráp. Tuy nhiên, tính dễ sử dụng mà phần mềm này mang lại vẫn chưa được khẳng định. Ultralytics Các mô hình như YOLO26 cho phép các kỹ sư nhà máy đào tạo lại và triển khai lại mô hình một cách nhanh chóng khi sản phẩm thay đổi, giảm thời gian ngừng hoạt động và nợ kỹ thuật.

Hệ thống tự hành và Robot học

Các ứng dụng robot yêu cầu độ trễ thấp để phản ứng với môi trường năng động. Phần bị loại bỏ NMS bước vào YOLOv10 và YOLO26 trực tiếp giúp tăng tốc độ phản hồi cho robot di động tự hành (AMR) hoặc máy bay không người lái khi di chuyển trong không gian phức tạp.

Kết luận

Cả hai YOLOv10 và PP-YOLOE+ là những công cụ mạnh mẽ trong kho vũ khí thị giác máy tính. PP-YOLOE+ là một lựa chọn mạnh mẽ dành cho những người tích hợp sâu vào hệ sinh thái Baidu. YOLOv10 , với... NMS Kiến trúc không phụ thuộc vào ngôn ngữ, mang đến cái nhìn thoáng qua về tương lai của việc phát hiện hiệu quả.

Tuy nhiên, đối với một giải pháp toàn diện kết hợp độ chính xác hàng đầu, tốc độ suy luận cực nhanh và trải nghiệm phát triển vượt trội, Ultralytics YOLO26 nổi bật như một lựa chọn ưu việt. Việc tích hợp với Nền tảng Ultralytics , hỗ trợ nhiều tác vụ khác nhau và tối ưu hóa cho các thiết bị biên khiến nó trở thành khoản đầu tư bền vững nhất cho năm 2026 và những năm tiếp theo.

Để tìm hiểu thêm về các mô hình hiệu quả, hãy xem xét YOLO11 hoặc RT-DETR dựa trên transformer.

Ví dụ mã: Bắt đầu với Ultralytics

Trải nghiệm sự đơn giản của... Ultralytics API. Việc chuyển đổi giữa các mô hình dễ dàng như thay đổi một chuỗi ký tự.

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on a custom dataset
# This handles data loading, augmentation, and training loops automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
# NMS-free architecture in YOLO26 means faster post-processing
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

YOLOv10 So sánh kỹ thuật giữa PP-YOLOE+ và các kiến ​​trúc phát hiện thời gian thực.

Các chỉ số hiệu suất và điểm chuẩn

YOLOv10: Sự tiến hóa Đầu cuối

Các tính năng kiến trúc chính

PP-YOLOE+: Tiêu chuẩn công nghiệp

Các tính năng kiến trúc chính

Phân tích so sánh

Độ chính xác so với Tốc độ

Hệ sinh thái và Dễ sử dụng

Hiệu quả huấn luyện và Tài nguyên

Cái Ultralytics Ưu điểm: Không thể phát hiện

Giới thiệu YOLO26: Tiêu chuẩn mới

Các ứng dụng thực tế

Bán lẻ thông minh và quản lý kho hàng

Tự động hóa công nghiệp

Hệ thống tự hành và Robot học

Kết luận

Ví dụ mã: Bắt đầu với Ultralytics

Bình luận

YOLOv10 So sánh kỹ thuật giữa PP-YOLOE+ và các kiến trúc phát hiện thời gian thực.