Chuyển đến nội dung

PP-YOLOE+ so với YOLOv6 -3.0: So sánh kỹ thuật chi tiết

Việc định hướng bối cảnh kiến trúc phát hiện đối tượng hiện đại thường liên quan đến việc lựa chọn giữa các mô hình được tối ưu hóa cho các hệ sinh thái khung cụ thể và các mô hình được thiết kế cho tốc độ công nghiệp thô sơ. Phân tích toàn diện này so sánh PP-YOLOE+ , một máy dò không cần neo có độ chính xác cao từ PaddlePaddle và YOLOv6 -3.0 , một mô hình tập trung vào tốc độ được Meituan thiết kế cho các ứng dụng công nghiệp thời gian thực. Bằng cách xem xét kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng, các nhà phát triển có thể xác định mô hình nào phù hợp nhất với các ràng buộc triển khai của họ.

PP-YOLOE+: Độ chính xác không cần neo

PP-YOLOE+ đại diện cho sự tiến hóa của PP- YOLO Dòng sản phẩm này, được phát triển bởi các nhà nghiên cứu Baidu nhằm mở rộng ranh giới về độ chính xác trong hệ sinh thái PaddlePaddle . Ra mắt vào đầu năm 2022, sản phẩm tập trung vào thiết kế không cần neo để đơn giản hóa quy trình đào tạo, đồng thời mang lại hiệu suất tiên tiến cho các tác vụ thị giác máy tính đa năng.

Tác giả: PaddlePaddle Tác giả
Tổ chức: Baidu
Ngày: 2022-04-02
ArXiv: https://arxiv.org/abs/2203.16250
GitHub: https://github.com/ PaddlePaddle /PaddleDetection/
Tài liệu: https://github.com/ PaddlePaddle /PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md

Kiến trúc và các cải tiến chính

Kiến trúc của PP-YOLOE+ được xây dựng dựa trên nền tảng CSPRepResNet, kết hợp khả năng trích xuất đặc trưng của Mạng Dư với hiệu quả của kết nối Phân đoạn Xuyên Giai đoạn (CSP). Một điểm khác biệt đáng kể so với các bộ dò truyền thống là đầu dò không neo, giúp loại bỏ nhu cầu sử dụng các hộp neo được xác định trước. Việc giảm siêu tham số này giúp đơn giản hóa cấu hình mô hình và cải thiện khả năng khái quát hóa trên nhiều tập dữ liệu khác nhau.

Quan trọng hơn, PP-YOLOE+ sử dụng Học Căn Chỉnh Nhiệm Vụ (TAL) để giải quyết sự không khớp giữa các nhiệm vụ phân loại và định vị—một vấn đề thường gặp ở các bộ phát hiện một giai đoạn. Bằng cách gán nhãn động dựa trên chất lượng dự đoán, TAL đảm bảo rằng điểm số tin cậy cao nhất tương ứng với các hộp giới hạn chính xác nhất.

Điểm mạnh và Điểm yếu

Điểm mạnh:

  • Độ chính xác cao: Luôn đạt được điểm mAP vượt trội trên các tiêu chuẩn như COCO , đặc biệt là trong các biến thể mô hình lớn hơn (ví dụ: PP-YOLOE+x).
  • Đào tạo đơn giản: Mô hình không có mỏ neo loại bỏ sự phức tạp của phân tích cụm để xác định kích thước mỏ neo.
  • Hệ sinh thái Synergy: Cung cấp sự tích hợp sâu sắc cho người dùng đã gắn bó với PaddlePaddle khuôn khổ học sâu.

Điểm yếu:

  • Độ trễ suy luận: Nói chung có tốc độ suy luận chậm hơn so với các mô hình nhận biết phần cứng như YOLOv6 , đặc biệt là trên GPU phần cứng.
  • Phụ thuộc vào khung: Chuyển các mô hình sang các khung khác như PyTorch hoặc ONNX việc triển khai có thể phức tạp hơn so với các kiến trúc độc lập với khuôn khổ gốc.

Các trường hợp sử dụng lý tưởng

PP-YOLOE+ thường là lựa chọn được ưu tiên khi độ chính xác được ưu tiên hơn độ trễ cực thấp.

Tìm hiểu thêm về PP-YOLOE+

YOLOv6 -3.0: Được thiết kế cho tốc độ công nghiệp

YOLOv6 Phiên bản -3.0 được nhóm AI tầm nhìn tại Meituan giới thiệu nhằm đáp ứng những yêu cầu khắt khe của các ứng dụng công nghiệp. Ưu tiên sự đánh đổi giữa tốc độ suy luận và độ chính xác, YOLOv6 sử dụng các nguyên tắc thiết kế nhận biết phần cứng để tối đa hóa thông lượng trên GPU và các thiết bị biên .

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức: Meituan
Ngày: 2023-01-13
ArXiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/ YOLOv6
Tài liệu: https://docs. ultralytics .com/models/yolov6/

Kiến trúc và các tính năng chính

YOLOv6 Phiên bản 3.0 có "Xương sống Tái tham số Hiệu quả", lấy cảm hứng từ RepVGG, cho phép mô hình có cấu trúc phức tạp trong quá trình huấn luyện để học các đặc điểm phong phú nhưng vẫn có cấu trúc đơn giản trong quá trình suy luận để tăng tốc độ. Kỹ thuật tái tham số này là chìa khóa cho khả năng suy luận thời gian thực của mô hình.

Mô hình này cũng sử dụng phương pháp tự chưng cất, trong đó một mô hình giáo viên lớn hơn sẽ hướng dẫn việc đào tạo một mô hình học viên nhỏ hơn, nâng cao độ chính xác mà không làm tăng chi phí tính toán khi chạy. Hơn nữa, YOLOv6 hỗ trợ lượng tử hóa mô hình mạnh mẽ, giúp triển khai hiệu quả trên phần cứng có tài nguyên tính toán hạn chế.

Tối ưu hóa di động

YOLOv6 bao gồm một loạt các mô hình "Lite" cụ thể được tối ưu hóa cho CPU di động, sử dụng các khối riêng biệt để duy trì tốc độ khi GPU không có khả năng tăng tốc.

Điểm mạnh và Điểm yếu

Điểm mạnh:

  • Tốc độ đặc biệt: Được thiết kế rõ ràng cho thông lượng cao, với YOLOv6 -Mô hình 3.0n đạt độ trễ dưới 2ms trên GPU T4.
  • Tối ưu hóa phần cứng: Kiến trúc thân thiện với tối ưu hóa TensorRT , tối đa hóa GPU sử dụng.
  • Khả năng mở rộng hiệu quả: Cung cấp sự cân bằng tốt giữa độ chính xác và chi phí tính toán (FLOP).

Điểm yếu:

  • Phạm vi tác vụ hạn chế: Chủ yếu được thiết kế để phát hiện; thiếu hỗ trợ gốc cho các tác vụ phức tạp như ước tính tư thế hoặc hộp giới hạn định hướng (OBB).
  • Hỗ trợ cộng đồng: Mặc dù hiệu quả, hệ sinh thái này ít hoạt động hơn về tích hợp của bên thứ ba và hướng dẫn cộng đồng so với Ultralytics các mô hình.

Các trường hợp sử dụng lý tưởng

YOLOv6 -3.0 hoạt động tốt trong môi trường đòi hỏi thời gian phản ứng quan trọng.

Tìm hiểu thêm về YOLOv6

So sánh hiệu suất

Sự khác biệt trong triết lý thiết kế—tập trung vào độ chính xác cho PP-YOLOE+ so với tập trung vào tốc độ cho YOLOv6 —có thể thấy rõ trong các số liệu hiệu suất. PP-YOLOE+ thường có chỉ số cao hơn mAP điểm số ở mức cao nhất của độ phức tạp của mô hình, trong khi YOLOv6 chiếm ưu thế về tốc độ suy luận thô đối với các mô hình nhỏ hơn, nhanh hơn.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv6 -3.0n64037.5-1.174.711.4
YOLOv6 -3.0 giây64045.0-2.6618.545.3
YOLOv6 -3,0m64050.0-5.2834.985.8
YOLOv6 -3.0l64052.8-8.9559.6150.7

Lưu ý: So sánh số liệu phụ thuộc rất nhiều vào phần cứng cụ thể và định dạng xuất được sử dụng (ví dụ: ONNX so với TensorRT ).

Dữ liệu minh họa rằng đối với các ứng dụng biên giới bị hạn chế về tài nguyên, YOLOv6 -3.0n cung cấp rào cản gia nhập thấp nhất về FLOP và độ trễ. Ngược lại, đối với các ứng dụng phía máy chủ yêu cầu khả năng phát hiện tối đa, PP-YOLOE+x cung cấp độ chính xác cao nhất.

Các Ultralytics Lợi thế: YOLO11

Trong khi PP-YOLOE+ và YOLOv6 cung cấp khả năng mạnh mẽ trong lĩnh vực của mình, Ultralytics YOLO11 cung cấp giải pháp toàn diện giúp thu hẹp khoảng cách giữa độ chính xác cao và tính dễ sử dụng. YOLO11 không chỉ là một mô hình mà còn là điểm khởi đầu cho một hệ sinh thái được bảo trì tốt, được thiết kế để hợp lý hóa toàn bộ vòng đời học máy .

Tại sao chọn Ultralytics ?

  • Tính linh hoạt vô song: Không giống như YOLOv6 chủ yếu là một máy dò, YOLO11 Hỗ trợ phân đoạn thực thể , ước lượng tư thế , OBBphân loại . Điều này cho phép các nhà phát triển giải quyết các vấn đề thị giác máy tính đa chiều chỉ bằng một API duy nhất.
  • Dễ sử dụng: Ultralytics Python Gói này tóm tắt mã nguồn phức tạp. Việc tải mô hình, chạy suy luận và hiển thị kết quả có thể được thực hiện chỉ trong ba dòng mã.
  • Hiệu quả và bộ nhớ: Ultralytics các mô hình được tối ưu hóa để đào tạo hiệu quả, thường yêu cầu ít hơn đáng kể GPU bộ nhớ hơn các kiến trúc dựa trên bộ biến áp như RT-DETR .
  • Hỗ trợ hệ sinh thái: Với các bản cập nhật thường xuyên, tài liệu mở rộng và các công cụ như Ultralytics HUB để đào tạo không cần viết mã, người dùng được hưởng lợi từ một nền tảng phát triển cùng ngành.

Triển khai đơn giản

Ultralytics ưu tiên khả năng truy cập. Bạn có thể chạy suy luận nâng cao ngay lập tức:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
results[0].show()

Sự đơn giản này mở rộng đến việc triển khai, với khả năng xuất một dòng sang các định dạng như ONNX , OpenVINO và CoreML , đảm bảo mô hình của bạn hoạt động tối ưu trên mọi phần cứng mục tiêu.

Tìm hiểu thêm về YOLO11

Kết luận

Sự lựa chọn giữa PP-YOLOE+ và YOLOv6 -3.0 phụ thuộc phần lớn vào các ràng buộc cụ thể của dự án của bạn. PP-YOLOE+ là một ứng cử viên mạnh mẽ cho các tình huống đòi hỏi độ chính xác cao trong PaddlePaddle khuôn khổ, trong khi YOLOv6 -3.0 cung cấp những lợi thế tốc độ hấp dẫn cho các môi trường công nghiệp phụ thuộc nhiều vào GPU suy luận.

Tuy nhiên, đối với các nhà phát triển đang tìm kiếm một giải pháp linh hoạt, bền vững với tương lai, cân bằng giữa hiệu suất tiên tiến và trải nghiệm của nhà phát triển, Ultralytics YOLO11 vẫn là lựa chọn hàng đầu. Hỗ trợ tác vụ toàn diện, cộng đồng năng động và khả năng tích hợp liền mạch vào quy trình làm việc MLOps hiện đại giúp nó trở thành tiêu chuẩn cho AI thị giác tiên tiến.

So sánh các mô hình khác

Khám phá những so sánh chi tiết hơn để tìm ra mẫu phù hợp với nhu cầu của bạn:


Bình luận