So sánh kỹ thuật giữa EfficientDet và PP-YOLOE+
Trong quá trình phát triển của thị giác máy tính, ít có sự so sánh nào làm nổi bật sự thay đổi trong triết lý thiết kế rõ ràng như sự tương phản giữa Google EfficientDet của Baidu và PP-YOLOE+ của Baidu. Trong khi EfficientDet đánh dấu một cột mốc quan trọng về hiệu quả tham số thông qua việc mở rộng quy mô hợp chất, PP-YOLOE+ đại diện cho kỷ nguyên hiện đại của phát hiện tốc độ cao, không cần neo, được tối ưu hóa cho GPU suy luận.
Phân tích này đi sâu vào kiến trúc, số liệu hiệu suất và ứng dụng thực tế của chúng để giúp các nhà phát triển chọn đúng công cụ cho nhu cầu phát hiện đối tượng cụ thể của họ.
Phân tích hiệu suất trực tiếp
Bối cảnh hiệu suất đã thay đổi đáng kể giữa hai phiên bản phát hành này. EfficientDet tập trung vào việc giảm thiểu FLOP (phép toán dấu chấm động) và số lượng tham số, giúp nó hiệu quả về mặt lý thuyết. Tuy nhiên, PP-YOLOE+ được thiết kế để đạt tốc độ suy luận thực tế trên các bộ tăng tốc phần cứng như GPU, tận dụng TensorRT tối ưu hóa.
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Dữ liệu cho thấy một cái nhìn sâu sắc quan trọng: trong khi EfficientDet-d0 có trọng lượng nhẹ, các biến thể lớn hơn (d5-d7) lại có độ trễ đáng kể. Ngược lại, PP-YOLOE+l đạt được Độ chính xác trung bình ( mAP ) tương đương với EfficientDet-d6 (52,9 so với 52,6) nhưng chạy nhanh hơn gấp 10 lần trên T4. GPU (8,36ms so với 89,29ms).
EfficientDet: Hiệu quả có thể mở rộng
EfficientDet được giới thiệu bởi Google Nhóm Brain AutoML với mục tiêu phá vỡ những hạn chế về hiệu quả của các máy dò trước đây. Nó được xây dựng dựa trên nền tảng EfficientNet, áp dụng phương pháp chia tỷ lệ hợp chất giúp chia tỷ lệ đồng đều độ phân giải, độ sâu và chiều rộng.
Tác giả: Mingxing Tan, Ruoming Pang, và Quốc V. Lê
Tổ chức: Google
Ngày: 2019-11-20
Arxiv: 1911.09070
GitHub: google /automl
Tài liệu: README
Các đặc điểm kiến trúc chính
- BiFPN (Mạng Kim tự tháp Tính năng Hai chiều): Không giống như FPN truyền thống, BiFPN cho phép dễ dàng hợp nhất tính năng đa thang đo. Nó giới thiệu các trọng số có thể học được để tìm hiểu tầm quan trọng của các tính năng đầu vào khác nhau, áp dụng hợp nhất tính năng đa thang đo từ trên xuống và từ dưới lên nhiều lần.
- Tỷ lệ hợp chất: Một hệ số hợp chất $\phi$ duy nhất kiểm soát chiều rộng, chiều sâu và độ phân giải của mạng, cho phép tạo ra một họ mô hình (D0 đến D7) nhắm mục tiêu vào các ràng buộc tài nguyên khác nhau.
Điểm mạnh và Điểm yếu
- Điểm mạnh: Hiệu quả tham số tuyệt vời; hiệu quả đối với CPU công suất thấp khi FLOP là nút thắt chính; phương pháp mở rộng có cấu trúc cao.
- Điểm yếu: Các kết nối phức tạp trong BiFPN và phép tích chập tách biệt theo chiều sâu thường bị giới hạn trong bộ nhớ trên GPU, dẫn đến độ trễ suy luận thực tế chậm hơn mặc dù số lượng FLOP thấp.
Bạn có biết không?
Việc EfficientDet sử dụng nhiều phép tích chập có thể tách biệt theo chiều sâu làm giảm đáng kể số lượng tham số nhưng có thể dẫn đến giảm GPU sử dụng so với các phép tích chập tiêu chuẩn được sử dụng trong các mô hình như YOLO .
PP-YOLOE+: Kẻ thách thức không neo đậu
Được phát hành bởi Baidu như một phần của PaddlePaddle hệ sinh thái, PP-YOLOE+ là sự tiến hóa của PP-YOLOv2. Nó nhằm mục đích vượt trội hơn hiệu suất của YOLOv5 và YOLOX bằng cách áp dụng cơ chế không neo hoàn toàn và các chiến lược đào tạo tiên tiến.
Tác giả: PaddlePaddle Tác giả
Tổ chức: Baidu
Ngày: 2022-04-02
Arxiv: 2203.16250
GitHub: PaddlePaddle /PaddleDetection
Tài liệu: Cấu hình PP-YOLOE+
Các đặc điểm kiến trúc chính
- Thiết kế không có điểm neo: Bằng cách loại bỏ các hộp neo được xác định trước, PP-YOLOE+ đơn giản hóa đầu phát hiện và giảm bớt gánh nặng điều chỉnh siêu tham số.
- CSPRepResNet: Xương sống sử dụng RepResBlock, kết hợp những lợi ích của các kết nối còn lại trong quá trình đào tạo và tham số hóa lại chúng thành một cấu trúc hợp lý để suy luận.
- TAL (Học căn chỉnh nhiệm vụ): Một chiến lược gán nhãn nâng cao giúp căn chỉnh điểm phân loại và chất lượng bản địa hóa một cách linh hoạt.
Điểm mạnh và Điểm yếu
- Điểm mạnh: Độ chính xác tiên tiến trên tập dữ liệu COCO ; cực kỳ nhanh trên TensorRT - phần cứng được hỗ trợ; thiết kế đầu sáng tạo.
- Điểm yếu: Gắn chặt với PaddlePaddle khuôn khổ, có thể đặt ra những thách thức về tích hợp cho các nhóm được chuẩn hóa trên PyTorch ; số lượng tham số cao hơn một chút đối với các mô hình nhỏ so với EfficientDet-d0.
Các Ultralytics Ưu điểm: Một giải pháp thống nhất
Trong khi EfficientDet mang lại hiệu quả lý thuyết và PP-YOLOE+ mang lại tốc độ thực tế, các nhà phát triển thường cần một giải pháp cân bằng giữa hiệu suất, khả năng sử dụng và hỗ trợ hệ sinh thái. Đây chính là điểm mạnh Ultralytics YOLO11 .
Không giống như bản chất chuyên biệt của các mô hình so sánh, Ultralytics các mô hình được thiết kế cho quy trình làm việc MLOps hiện đại, cung cấp một PyTorch trải nghiệm dễ dàng đào tạo và triển khai.
Tại sao nên chọn Ultralytics YOLO11?
- Dễ sử dụng: Tập trung vào trải nghiệm của nhà phát triển, Ultralytics cho phép bạn chuyển từ cài đặt sang suy luận trong ba dòng Python mã. Không cần phải biên dịch thủ công các thư viện toán tử phức tạp hoặc chuyển đổi các định dạng độc quyền.
- Tính linh hoạt: Một khuôn khổ duy nhất hỗ trợ Phát hiện đối tượng , Phân đoạn thể hiện , Ước tính tư thế , Phân loại và Hộp giới hạn định hướng (OBB) .
- Cân bằng hiệu suất: YOLO11 tối ưu hóa sự đánh đổi giữa tốc độ và độ chính xác, cung cấp khả năng suy luận thời gian thực trên các thiết bị Edge (như Jetson) và GPU đám mây.
- Yêu cầu về bộ nhớ: Ultralytics YOLO các mô hình sử dụng kiến trúc được tối ưu hóa thường yêu cầu ít hơn CUDA bộ nhớ trong quá trình đào tạo so với các giải pháp thay thế dựa trên máy biến áp hoặc mạng tính năng đa thang cũ hơn.
- Hệ sinh thái được duy trì tốt: Được hỗ trợ bởi một cộng đồng nguồn mở năng động, kho lưu trữ nhận được các bản cập nhật thường xuyên, đảm bảo khả năng tương thích với các phiên bản mới nhất của PyTorch , CUDA , Và Python .
- Hiệu quả đào tạo: Người dùng có thể tận dụng các trọng số được đào tạo sẵn có để tinh chỉnh các mô hình trên các tập dữ liệu tùy chỉnh một cách nhanh chóng, giúp giảm đáng kể yêu cầu về dữ liệu đào tạo và chi phí tính toán.
Ví dụ về mã: Bắt đầu với YOLO11
Việc chạy một mô hình tiên tiến không hề phức tạp. Sau đây là cách bạn có thể dễ dàng triển khai phát hiện đối tượng bằng cách sử dụng Ultralytics :
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Kết luận
Sự lựa chọn giữa EfficientDet và PP-YOLOE+ phần lớn phụ thuộc vào hạn chế về phần cứng và yêu cầu hiện tại của bạn.
- EfficientDet vẫn là tài liệu tham khảo hợp lệ cho nghiên cứu về quy mô hiệu quả theo tham số và phù hợp với các mục đích cụ thể CPU -các tình huống ràng buộc khi băng thông bộ nhớ bị hạn chế.
- PP-YOLOE+ là sự lựa chọn vượt trội cho hiệu suất cao GPU triển khai, cung cấp sự đánh đổi độ trễ-độ chính xác tốt hơn đáng kể nếu bạn thoải mái điều hướng PaddlePaddle hệ sinh thái.
Tuy nhiên, đối với phần lớn các ứng dụng thực tế - từ phân tích thành phố thông minh đến giám sát nông nghiệp Ultralytics YOLO11 nổi bật là lựa chọn thực tế nhất. Nó kết hợp những cải tiến về kiến trúc của các máy dò không cần neo hiện đại với trải nghiệm người dùng vượt trội, cho phép bạn tập trung vào việc giải quyết các vấn đề kinh doanh thay vì phải gỡ lỗi những phức tạp của nền tảng.
Khám phá các mô hình khác
Để tìm hiểu thêm, hãy xem xét những so sánh liên quan sau: