So sánh PP-YOLOE+ và EfficientDet: So sánh kỹ thuật cho phát hiện đối tượng
Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định quan trọng ảnh hưởng đến hiệu suất, khả năng mở rộng và hiệu quả của các ứng dụng thị giác máy tính. Trong bài so sánh kỹ thuật này, chúng tôi phân tích hai kiến trúc nổi bật: PP-YOLOE+ , một bộ phát hiện không neo hiệu suất cao của Baidu. PaddlePaddle hệ sinh thái và EfficientDet , Google Kiến trúc có khả năng mở rộng được biết đến với phương pháp mở rộng hợp chất.
PP-YOLOE+: Tối ưu hóa tốc độ và độ chính xác
PP-YOLOE+ đại diện cho một sự tiến hóa đáng kể trong YOLO Dòng sản phẩm này được phát triển để mang lại sự cân bằng tối ưu giữa độ chính xác và tốc độ suy luận. Được xây dựng dựa trên mô hình không neo , nó đơn giản hóa quy trình phát hiện đồng thời tận dụng các kỹ thuật tiên tiến như Học Căn Chỉnh Nhiệm Vụ (TAL).
- Tác giả: Các tác giả của PaddlePaddle
- Tổ chức: Baidu
- Date: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/ PaddlePaddle /PaddleDetection/
- Tài liệu: https://github.com/ PaddlePaddle /PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
Các đặc điểm kiến trúc chính
PP-YOLOE+ tích hợp xương sống CSPRepResNet , kết hợp hiệu quả của CSPNet với khả năng tham số hóa lại của ResNet. Điều này cho phép mô hình nắm bắt các biểu diễn đặc trưng phong phú mà không phải chịu chi phí tính toán quá mức. Phần cổ sử dụng Mạng Tổng hợp Đường dẫn (PAN) để hợp nhất đặc trưng đa quy mô hiệu quả, đảm bảo phát hiện các vật thể nhỏ với độ tin cậy cao hơn.
Một tính năng nổi bật là Đầu Hiệu quả Căn chỉnh Nhiệm vụ (ET-Head) . Không giống như các đầu ghép nối truyền thống, ET-Head tách biệt các nhiệm vụ phân loại và định vị, sử dụng TAL để căn chỉnh động các điểm neo tốt nhất với các đối tượng thực tế. Phương pháp này cải thiện đáng kể tốc độ hội tụ và độ chính xác cuối cùng.
EfficientDet: Hiệu quả có thể mở rộng
EfficientDet đã giới thiệu một phương pháp mới để mở rộng quy mô mô hình, tập trung vào việc tối ưu hóa đồng thời độ chính xác và hiệu quả. EfficientDet được xây dựng trên nền tảng EfficientNet và giới thiệu Mạng Kim tự tháp Tính năng Hai chiều có trọng số (BiFPN).
- Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
- Tổ chức: Google
- Date: 2019-11-20
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub: https://github.com/ google /automl/tree/master/efficientdet
- Tài liệu: https://github.com/ google /automl/tree/master/efficientdet#readme
Các đặc điểm kiến trúc chính
Cải tiến cốt lõi của EfficientDet là BiFPN , cho phép hợp nhất các đặc trưng đa thang đo một cách dễ dàng và nhanh chóng. Không giống như các FPN trước đây vốn cộng các đặc trưng một cách đồng đều, BiFPN gán trọng số cho từng đặc trưng đầu vào, cho phép mạng học được tầm quan trọng của các đặc trưng đầu vào khác nhau. Ngoài ra, EfficientDet sử dụng phương pháp chia tỷ lệ hợp chất , cho phép chia tỷ lệ đồng đều độ phân giải, độ sâu và chiều rộng cho tất cả các mạng xương sống, mạng đặc trưng và mạng dự đoán hộp/lớp, cung cấp một họ các mô hình (D0 đến D7) được điều chỉnh theo các ràng buộc tài nguyên khác nhau.
Phân tích hiệu năng: Tốc độ so với độ chính xác
Khi đánh giá các mô hình này, sự đánh đổi giữa tốc độ suy luận và Độ chính xác trung bình ( mAP ) trở nên rõ ràng. Trong khi EfficientDet đặt ra các tiêu chuẩn cao khi phát hành, các kiến trúc mới hơn như PP-YOLOE+ đã tận dụng các thiết kế nhận biết phần cứng để đạt hiệu suất vượt trội trên các GPU hiện đại.
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Dữ liệu nhấn mạnh rằng PP-YOLOE+ vượt trội hơn EfficientDet đáng kể trong GPU độ trễ suy luận. Ví dụ, PP-YOLOE+l đạt được độ trễ cao hơn mAP (52,9) so với EfficientDet-d6 (52,6) trong khi nhanh hơn 10 lần trên T4 GPU (8,36 ms so với 89,29 ms). EfficientDet vẫn phù hợp trong các tình huống mà FLOP là hạn chế chính, chẳng hạn như CPU di động có công suất rất thấp, nhưng lại gặp khó khăn khi cạnh tranh trong môi trường máy chủ có thông lượng cao.
Tối ưu hóa phần cứng
Các lựa chọn kiến trúc trong PP-YOLOE+ được thiết kế đặc biệt để thân thiện với GPU các bộ tăng tốc phần cứng như TensorRT . Các hoạt động được cấu trúc để tối đa hóa tính song song, trong khi các kết nối phức tạp trong BiFPN của EfficientDet đôi khi có thể tạo ra tình trạng tắc nghẽn truy cập bộ nhớ trên GPU.
Điểm mạnh và Điểm yếu
Hiểu được ưu và nhược điểm của từng mô hình giúp lựa chọn công cụ phù hợp cho các tác vụ thị giác máy tính cụ thể.
PP-YOLOE+
- Điểm mạnh:
- Tỷ lệ chính xác-tốc độ cao: Mang lại công nghệ tiên tiến mAP với khả năng suy luận thời gian thực trên GPU.
- Không cần neo: Loại bỏ nhu cầu điều chỉnh hộp neo phức tạp, giúp đơn giản hóa quá trình đào tạo.
- Gán nhãn động: Sử dụng TAL để căn chỉnh tốt hơn giữa phân loại và định vị.
- Điểm yếu:
- Đặc thù của hệ sinh thái: Được tối ưu hóa mạnh mẽ cho PaddlePaddle khuôn khổ, có thể trình bày một đường cong học tập cho người dùng đã quen với PyTorch .
- Cường độ tài nguyên: Các biến thể lớn hơn (L và X) yêu cầu bộ nhớ đáng kể, có khả năng hạn chế việc triển khai trên các thiết bị biên có giới hạn RAM nghiêm ngặt.
EfficientDet
- Điểm mạnh:
- Hiệu quả tham số: Đạt được độ chính xác cao với số lượng tham số tương đối ít hơn so với các máy dò cũ.
- Khả năng mở rộng: Phương pháp mở rộng hợp chất cho phép người dùng dễ dàng chuyển đổi giữa các kích thước mô hình (d0-d7) dựa trên khả năng tính toán có sẵn.
- BiFPN: Tính năng kết hợp sáng tạo giúp xử lý hiệu quả các đối tượng ở nhiều tỷ lệ khác nhau.
- Điểm yếu:
- Suy luận chậm: Mặc dù số lượng FLOP thấp, cấu trúc đồ thị phức tạp thường dẫn đến thời gian suy luận thực tế chậm hơn, đặc biệt là trên GPU.
- Tốc độ đào tạo: Có thể đào tạo chậm hơn so với các máy dò một giai đoạn hiện đại do cấu trúc phức tạp.
Các trường hợp sử dụng thực tế
Những mô hình này hoạt động tốt trong nhiều môi trường khác nhau dựa trên thế mạnh về kiến trúc của chúng.
Sản xuất & Tự động hóa Công nghiệp: PP-YOLOE+ là lựa chọn tuyệt vời cho kiểm soát chất lượng trong sản xuất . Tốc độ suy luận cao cho phép phát hiện lỗi theo thời gian thực trên các dây chuyền lắp ráp chuyển động nhanh, đòi hỏi từng mili giây.
Bán lẻ và tồn kho thông minh: Đối với phân tích bán lẻ , chẳng hạn như thanh toán tự động hoặc theo dõi kệ hàng, độ chính xác của PP-YOLOE+ đảm bảo sản phẩm được xác định chính xác ngay cả trong bối cảnh lộn xộn.
Cảm biến từ xa và hình ảnh trên không: Khả năng mở rộng lên độ phân giải cao hơn (ví dụ: D7) của EfficientDet giúp ích cho việc phân tích hình ảnh vệ tinh hoặc máy bay không người lái có độ phân giải cao, trong đó tốc độ xử lý không quan trọng bằng việc phát hiện các đặc điểm nhỏ trong hình ảnh lớn.
Thiết bị Edge công suất thấp: Các biến thể EfficientDet nhỏ hơn (D0-D1) đôi khi được ưu tiên cho phần cứng AI edge cũ, nơi tổng số FLOP là giới hạn cứng và GPU không có khả năng tăng tốc.
Lợi thế của Ultralytics: Tại sao nên chọn YOLO11?
Trong khi PP-YOLOE+ và EfficientDet cung cấp các giải pháp mạnh mẽ, mô hình YOLO11 Ultralytics mang đến trải nghiệm vượt trội cho hầu hết các nhà phát triển và nhà nghiên cứu. Mô hình này kết hợp những cải tiến kiến trúc hiện đại tốt nhất với hệ sinh thái lấy người dùng làm trung tâm.
Tại sao YOLO11 Nổi bật
- Dễ sử dụng: Ultralytics Các mô hình nổi tiếng với khả năng sử dụng "ngay lập tức". Với API Python đơn giản và trực quan CLI , bạn có thể đào tạo, xác thực và triển khai các mô hình chỉ trong vài phút, trái ngược với các tệp cấu hình phức tạp thường được yêu cầu bởi các khuôn khổ khác.
- Hệ sinh thái được duy trì tốt: Ultralytics Cộng đồng đang hoạt động và phát triển. Các bản cập nhật thường xuyên đảm bảo khả năng tương thích với các phiên bản mới nhất của PyTorch , ONNX , Và CUDA , cung cấp nền tảng vững chắc cho các dự án dài hạn.
- Cân bằng hiệu suất: YOLO11 đạt được sự cân bằng đáng kể, thường vượt trội hơn PP-YOLOE+ về tốc độ trong khi vẫn ngang bằng hoặc vượt trội về độ chính xác. Nó được thiết kế để không phụ thuộc vào phần cứng, hoạt động cực kỳ tốt trên CPU, GPU và NPU.
- Hiệu quả bộ nhớ: So với các mô hình dựa trên máy biến áp hoặc kiến trúc cũ hơn, Ultralytics YOLO Các mô hình được tối ưu hóa để giảm mức tiêu thụ bộ nhớ trong quá trình đào tạo. Điều này cho phép tăng kích thước lô và hội tụ nhanh hơn trên phần cứng tiêu chuẩn.
- Tính linh hoạt: Không giống như EfficientDet chủ yếu là một máy dò vật thể, YOLO11 hỗ trợ nhiều tác vụ bao gồm phân đoạn trường hợp , ước tính tư thế , phát hiện đối tượng theo hướng (OBB) và phân loại trong một khuôn khổ thống nhất duy nhất.
- Hiệu quả đào tạo: Với các phần tăng cường nâng cao và bộ tải dữ liệu được tối ưu hóa, việc đào tạo YOLO11 Mô hình nhanh chóng và hiệu quả. Có sẵn các trọng số được đào tạo sẵn , cho phép đạt được kết quả học chuyển giao mạnh mẽ với lượng dữ liệu tối thiểu.
Ví dụ: Chạy YOLO11 TRONG Python
Chỉ cần một vài dòng mã để tải một chương trình được đào tạo trước YOLO11 mô hình và chạy suy luận, chứng minh tính đơn giản của Ultralytics quy trình làm việc.
from ultralytics import YOLO
# Load a pre-trained YOLO11n model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Display the results
results[0].show()
Kết luận
Cả PP-YOLOE+ và EfficientDet đều có những đóng góp đáng kể cho lĩnh vực thị giác máy tính . PP-YOLOE+ là một ứng cử viên mạnh mẽ cho những người dùng được tích hợp sâu vào hệ sinh thái Baidu đòi hỏi hiệu suất cao. GPU thông lượng. EfficientDet vẫn là một ví dụ điển hình về hiệu quả tham số và thiết kế có khả năng mở rộng.
Tuy nhiên, đối với những ai đang tìm kiếm một giải pháp linh hoạt, hiệu suất cao và thân thiện với nhà phát triển, Ultralytics YOLO11 là lựa chọn được đề xuất. Sự kết hợp giữa độ chính xác vượt trội, tốc độ thời gian thực và hệ sinh thái hỗ trợ khiến nó trở thành nền tảng lý tưởng để xây dựng các ứng dụng AI thế hệ tiếp theo.
Để so sánh sâu hơn, hãy xem xét YOLO11 so với EfficientDet hoặc PP-YOLOE+ so với YOLOv10 để xem các mô hình này so sánh như thế nào với các kiến trúc tiên tiến khác.