Chuyển đến nội dung

YOLOv10 so với PP-YOLOE+: So sánh kỹ thuật toàn diện

Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một bước then chốt trong việc phát triển các ứng dụng thị giác máy tính hiệu quả. Việc lựa chọn thường liên quan đến việc cân nhắc các yếu tố đánh đổi giữa tốc độ suy luận, độ chính xác phát hiện và các hạn chế về phần cứng. Bài so sánh kỹ thuật này phân tích YOLOv10 , một bộ phát hiện đầu cuối thời gian thực từ Đại học Thanh Hoa, và PP-YOLOE+ , một mô hình có độ chính xác cao từ Baidu. PaddlePaddle hệ sinh thái. Cả hai mô hình đều giới thiệu những cải tiến đáng kể về kiến trúc, nhưng chúng đáp ứng các nhu cầu triển khai và môi trường phát triển khác nhau.

YOLOv10 : Tiêu chuẩn mới cho phát hiện đầu cuối thời gian thực

YOLOv10 là một bước tiến đáng kể trong dòng sản phẩm YOLO (Bạn Chỉ Nhìn Một Lần) , tập trung vào việc loại bỏ các điểm nghẽn hiệu suất liên quan đến xử lý hậu kỳ truyền thống. Được phát triển bởi các nhà nghiên cứu tại Đại học Thanh Hoa, công nghệ này đạt được độ trễ thấp hơn và hiệu quả cao hơn bằng cách loại bỏ nhu cầu loại bỏ Non-Maximum Suppression ( NMS ).

Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức: Đại học Thanh Hoa
Ngày: 23-05-2024
ArXiv: https://arxiv.org/abs/2405.14458
GitHub: https://github.com/THU-MIG/yolov10
Tài liệu: https://docs. ultralytics .com/models/yolov10/

Kiến trúc và các tính năng chính

YOLOv10 giới thiệu một chiến lược gán kép nhất quán trong quá trình huấn luyện. Phương pháp này cho phép mô hình dự đoán một hộp tốt nhất duy nhất cho mỗi đối tượng trong quá trình suy luận, loại bỏ hiệu quả nhu cầu xử lý hậu kỳ NMS . Điều này " NMS Thiết kế "-free" làm giảm đáng kể độ trễ suy luận , đặc biệt là trong các cảnh có cụm đối tượng dày đặc.

Những tiến bộ quan trọng về kiến trúc bao gồm:

  • Thiết kế hiệu quả-chính xác toàn diện: Mô hình sử dụng đầu phân loại nhẹ và lấy mẫu hạ tần tách rời kênh không gian để giảm chi phí tính toán ( FLOP ) mà không ảnh hưởng đến độ chính xác.
  • Thiết kế khối theo thứ hạng: Để tối ưu hóa sự đánh đổi giữa tốc độ và độ chính xác, các giai đoạn khác nhau của mô hình sử dụng các thiết kế khối khác nhau, giảm sự trùng lặp trong các lớp sâu.
  • Tích chập hạt nhân lớn: Sử dụng chiến lược tích chập hạt nhân lớn giúp tăng cường trường tiếp nhận , cho phép mô hình hiểu rõ hơn về ngữ cảnh và detect những vật nhỏ.

Điểm mạnh và Điểm yếu

YOLOv10 được thiết kế để đạt hiệu quả tối đa, trở thành lựa chọn tuyệt vời cho các ứng dụng thời gian thực.

  • Điểm mạnh: Việc loại bỏ NMS mang lại tốc độ suy luận nhanh hơn, xác định hơn. Nó mang lại hiệu quả tham số vượt trội, đạt điểm mAP cao với ít tham số hơn so với các phiên bản trước. Việc tích hợp nó vào Ultralytics hệ sinh thái đảm bảo việc đào tạo và triển khai dễ dàng bằng cách sử dụng API Python đơn giản.
  • Điểm yếu: Là một máy dò đối tượng chuyên dụng, hiện tại nó tập trung chủ yếu vào việc phát hiện hộp giới hạn, trong khi các mô hình khác trong Ultralytics Bộ phần mềm hỗ trợ nhiều tác vụ hơn như phân đoạnước tính tư thế .

Các trường hợp sử dụng lý tưởng

  • Robot tự động: Bản chất độ trễ thấp của YOLOv10 rất quan trọng đối với ngành robot, nơi cần phải đưa ra quyết định nhanh chóng để điều hướng và tránh chướng ngại vật.
  • Triển khai AI Edge: Với các biến thể nhỏ như YOLOv10 -N, nó hoàn toàn phù hợp với các thiết bị biên như NVIDIA Jetson hoặc Raspberry Pi.
  • Giám sát giao thông: Khả năng xử lý các cảnh dày đặc của mô hình mà không cần NMS chi phí cao khiến nó trở nên lý tưởng cho việc quản lý giao thông theo thời gian thực.

Tìm hiểu thêm về YOLOv10

PP-YOLOE+: Kỹ thuật chính xác trong PaddlePaddle Hệ sinh thái

PP-YOLOE+ là phiên bản nâng cấp của dòng PP-YOLOE do Baidu phát triển. Sản phẩm được thiết kế như một máy dò không cần neo, có khả năng mở rộng, ưu tiên độ chính xác cao. Nó đóng vai trò là mô hình nền tảng trong khuôn khổ PaddlePaddle , được tối ưu hóa đặc biệt cho môi trường đó.

Tác giả: PaddlePaddle Tác giả
Tổ chức: Baidu
Ngày: 2022-04-02
ArXiv: https://arxiv.org/abs/2203.16250
GitHub: https://github.com/ PaddlePaddle /PaddleDetection/
Tài liệu: https://github.com/ PaddlePaddle /PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md

Kiến trúc và các tính năng chính

PP-YOLOE+ áp dụng kiến trúc không có mỏ neo , giúp đơn giản hóa không gian tìm kiếm siêu tham số so với các kiến trúc tiền nhiệm dựa trên mỏ neo.

Các tính năng chính bao gồm:

  • Xương sống CSPRepResNet: Xương sống này kết hợp các lợi ích về luồng gradient của CSPNet với hiệu quả suy luận của các khối ResNet được tham số hóa lại.
  • Học căn chỉnh tác vụ (TAL): Một chiến lược gán nhãn chuyên biệt giúp căn chỉnh động chất lượng phân loại mỏ neo với độ chính xác định vị.
  • Đầu hiệu quả theo nhiệm vụ (ET-Head): Đầu phát hiện tách rời xử lý các tính năng phân loại và định vị độc lập để tránh xung đột.

Điểm mạnh và Điểm yếu

PP-YOLOE+ là một mô hình mạnh mẽ nhưng có những phụ thuộc có thể ảnh hưởng đến việc áp dụng.

  • Điểm mạnh: Nó mang lại độ chính xác tuyệt vời trên các điểm chuẩn như COCO , đặc biệt là trong các cấu hình lớn hơn (L và X). Nó được tối ưu hóa cao cho phần cứng được hỗ trợ bởi PaddlePaddle công cụ suy luận.
  • Điểm yếu: Hạn chế chính là sự phụ thuộc vào PaddlePaddle Hệ sinh thái. Đối với các nhà phát triển đã quen với PyTorch , việc chuyển sang PP-YOLOE+ đòi hỏi đường cong học tập dốc hơn và khả năng gặp trở ngại trong việc tích hợp công cụ. Ngoài ra, số lượng tham số của nó cao hơn đáng kể so với YOLOv10 để có độ chính xác tương đương, dẫn đến sử dụng bộ nhớ nhiều hơn.

Các trường hợp sử dụng lý tưởng

  • Kiểm tra công nghiệp: Độ chính xác cao giúp phát hiện những lỗi nhỏ trong sản xuất .
  • Phân tích bán lẻ: Hiệu quả trong việc kiểm kê hàng tồn kho và nhận dạng sản phẩm trong môi trường bán lẻ thông minh .
  • Phân loại vật liệu: Được sử dụng trong các cơ sở tái chế để phân loại tự động nhiều loại vật liệu khác nhau.

Tìm hiểu thêm về PP-YOLOE+

Phân tích hiệu suất: Hiệu quả so với Độ chính xác

Khi so sánh các số liệu kỹ thuật, YOLOv10 thể hiện lợi thế rõ ràng về hiệu quả. Nó đạt được độ chính xác tương đương hoặc vượt trội ( mAP ) trong khi sử dụng ít tham số và tài nguyên tính toán (FLOP) hơn đáng kể.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Những Điểm Chính

  • Hiệu quả: YOLOv10l đạt được hiệu quả cao hơn mAP (53,3%) so với PP-YOLOE+l (52,9%) trong khi sử dụng ít hơn gần 44% tham số . Điều này làm cho YOLOv10 nhẹ hơn đáng kể khi cất giữ và tải nhanh hơn.
  • Tốc độ: The NMS -thiết kế miễn phí YOLOv10 Điều này có nghĩa là độ trễ thấp hơn trên mọi phương diện. Ví dụ, YOLOv10n có tốc độ cực nhanh ở mức 1,56ms, giúp nó trở nên vượt trội trong việc phân tích video tốc độ cao.
  • Khả năng mở rộng: Trong khi PP-YOLOE+x có lợi thế nhỏ về nguyên liệu thô mAP (cao hơn 0,3%), nó yêu cầu gần gấp đôi số tham số (98,42M so với 56,9M) và FLOP so với YOLOv10x.

Hiệu quả bộ nhớ

Ultralytics các mô hình như YOLOv10 Và YOLO11 thường thể hiện yêu cầu bộ nhớ thấp hơn trong cả quá trình đào tạo và suy luận so với các kiến trúc cũ hơn hoặc các mô hình dựa trên bộ biến đổi nặng. Hiệu quả này cho phép kích thước lô lớn hơn và chu kỳ đào tạo nhanh hơn trên các tiêu chuẩn GPU phần cứng.

Các Ultralytics Lợi thế

Mặc dù cả hai mô hình đều có khả năng, nhưng việc lựa chọn một mô hình trong hệ sinh thái Ultralytics —chẳng hạn như YOLOv10 hoặc YOLO11 hiện đại —mang lại những lợi thế riêng biệt cho các nhà phát triển.

  1. Dễ sử dụng: Ultralytics API Python tóm tắt các đoạn mã mẫu phức tạp. Bạn có thể huấn luyện, xác thực và triển khai một mô hình chỉ trong vài dòng lệnh. Python .
  2. Hệ sinh thái được bảo trì tốt: Người dùng được hưởng lợi từ các bản cập nhật thường xuyên, cộng đồng sôi động trên GitHub và tích hợp liền mạch với các công cụ MLOps như Ultralytics HUBWeights & Biases .
  3. Tính linh hoạt: Vượt xa khả năng phát hiện đối tượng tiêu chuẩn, Ultralytics các khuôn khổ hỗ trợ phân đoạn trường hợp , phân loại hình ảnh , ước tính tư thế và phát hiện hộp giới hạn định hướng (OBB) , cung cấp giải pháp thống nhất cho nhiều tác vụ thị giác máy tính khác nhau.

Ví dụ về mã: Chạy YOLOv10 với Ultralytics

Tích hợp YOLOv10 vào quy trình làm việc của bạn một cách đơn giản với Ultralytics thư viện:

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Display the results
results[0].show()

Kết luận

Trong sự so sánh giữa YOLOv10PP-YOLOE+ , YOLOv10 nổi lên như một lựa chọn ưu việt cho hầu hết các ứng dụng thị giác máy tính đa năng. Kiến trúc không cần NMS của nó giải quyết được tình trạng tắc nghẽn lâu nay về độ trễ phát hiện đối tượng, và khả năng sử dụng tham số hiệu quả cao giúp nó dễ dàng triển khai trên nhiều loại phần cứng hơn, từ thiết bị biên đến máy chủ đám mây.

PP-YOLOE+ vẫn là một ứng cử viên mạnh mẽ cho những người dùng gắn bó chặt chẽ với PaddlePaddle hoặc những người ưu tiên lợi ích cận biên về độ chính xác hơn hiệu quả tính toán. Tuy nhiên, đối với các nhà phát triển đang tìm kiếm sự cân bằng giữa tốc độ, độ chính xác và tính dễ sử dụng , YOLOv10 —và rộng hơn Ultralytics hệ sinh thái—cung cấp một con đường thân thiện hơn với nhà phát triển và hướng đến tương lai.

Khám phá các Mô hình Khác

Nếu bạn quan tâm đến việc khám phá thêm nhiều lựa chọn trong Ultralytics hệ sinh thái, hãy cân nhắc kiểm tra những so sánh sau:

  • YOLO11 so với YOLOv10 : Xem mẫu flagship mới nhất so sánh với mẫu tập trung vào hiệu quả như thế nào YOLOv10 .
  • YOLOv10 so với RT-DETR : So sánh các máy biến áp thời gian thực với máy biến áp dựa trên CNN YOLO kiến trúc.
  • YOLOv8 so với PP-YOLOE+ : Phân tích hiệu suất của công nghệ được áp dụng rộng rãi YOLOv8 chống lại mô hình của Baidu.

Bình luận