EfficientDet so với PP-YOLOE+: Phân tích chuyên sâu về mặt kỹ thuật các kiến trúc phát hiện đối tượng
Lĩnh vực thị giác máy tính đã được định hình mạnh mẽ bởi sự phát triển không ngừng của các mô hình phát hiện đối tượng. Hai cột mốc quan trọng trong hành trình này là Google EfficientDet của Google và PP-YOLOE+ của Baidu. Mặc dù cả hai kiến trúc đều được thiết kế để cân bằng sự đánh đổi tinh tế giữa hiệu quả tính toán và độ chính xác phát hiện, nhưng chúng tiếp cận thách thức này thông qua các triết lý thiết kế khác nhau về cơ bản.
Hướng dẫn toàn diện này sẽ phân tích kiến trúc, phương pháp huấn luyện và các kịch bản triển khai thực tế của chúng để giúp bạn lựa chọn mạng nơ-ron tối ưu cho ứng dụng thị giác máy tính tiếp theo của mình.
Những đổi mới kiến trúc và triết lý thiết kế
Hiểu rõ kiến trúc nền tảng của các mô hình này là điều vô cùng quan trọng để triển khai chúng hiệu quả trong môi trường sản xuất, cho dù trên các thiết bị biên hay máy chủ đám mây.
EfficientDet: Sức mạnh của Compound Scaling
Được phát triển bởi Google Nghiên cứu của EfficientDet đã tạo ra một sự thay đổi mang tính đột phá bằng cách coi việc mở rộng mô hình không phải là một quy trình tùy tiện, mà là một phương pháp mở rộng tổng hợp dựa trên các nguyên tắc toán học.
- Tác giả: Mingxing Tan, Ruoming Pang, và Quốc V. Lê
- Tổ chức: Google Research
- Ngày: 20/11/2019
- Arxiv: 1911.09070
- GitHub: google /automl
- Tài liệu: Tài liệu hướng dẫn sử dụng EfficientDet
Điểm đột phá cốt lõi của EfficientDet nằm ở Mạng Kim tự tháp Đặc trưng Hai chiều (BiFPN) . Không giống như các FPN truyền thống chỉ cộng các đặc trưng từ trên xuống, BiFPN giới thiệu các trọng số có thể học được để thực hiện hợp nhất đặc trưng đa tỷ lệ theo cả hướng từ trên xuống và từ dưới lên. Điều này cho phép mạng hiểu được tầm quan trọng của các đặc trưng đầu vào khác nhau một cách trực quan. Kết hợp với kiến trúc xương sống EfficientNet , EfficientDet mở rộng độ phân giải, độ sâu và độ rộng đồng thời, tạo ra một loạt các mô hình (d0 đến d7) đáp ứng các ngân sách tính toán khác nhau.
Mở rộng EfficientDet
Khi triển khai EfficientDet, hãy cân nhắc kỹ phần cứng mục tiêu của bạn. Mặc dù d0 phù hợp với thiết bị di động, nhưng việc mở rộng lên d7 đòi hỏi cấu hình mạnh mẽ hơn. GPU bộ nhớ và sức mạnh tính toán.
PP-YOLOE+: Vượt qua mọi giới hạn của PaddlePaddle
Tiếp nối những thành công của các thế hệ trước, PP-YOLOE+ được thiết kế bởi... PaddlePaddle Đội ngũ tại Baidu hướng đến việc cung cấp hiệu năng tiên tiến nhất, được tối ưu hóa đặc biệt cho việc triển khai máy chủ có thông lượng cao.
- Tác giả: PaddlePaddle Authors
- Tổ chức: Baidu
- Ngày: 02-04-2022
- Arxiv: 2203.16250
- GitHub: PaddlePaddle /PaddleDetection
- Tài liệu: Cấu hình PP-YOLOE+
PP-YOLOE+ sử dụng kiến trúc xương sống CSPRepResNet , tận dụng mạng Cross Stage Partial kết hợp với các kỹ thuật tái tham số hóa để tăng cường khả năng trích xuất đặc trưng mà không làm tăng độ trễ suy luận. Phần ET-head (Efficient Task-aligned head) của nó cải thiện đáng kể sự đồng bộ giữa các nhiệm vụ phân loại và định vị. Hơn nữa, nó sử dụng thiết kế không có anchor kết hợp với gán nhãn động (TAL), giúp đơn giản hóa quá trình huấn luyện và cải thiện khả năng khái quát hóa trên nhiều tập dữ liệu khác nhau.
Các chỉ số hiệu suất và điểm chuẩn
Khi lựa chọn mô hình cho suy luận thời gian thực , việc đánh giá sự cân bằng giữa độ chính xác trung bình ( mAP ) và tốc độ tính toán là vô cùng quan trọng. Bảng dưới đây nêu rõ các chỉ số hiệu suất chính cho cả hai nhóm mô hình.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Như đã quan sát, PP-YOLOE+ thường đạt được độ chính xác cao hơn ở số lượng tham số tương đương, đặc biệt là ở các biến thể lớn hơn (l và x). Nó được tối ưu hóa cao cho GPU với thông lượng cao, nó là ứng cử viên xuất sắc cho việc triển khai máy chủ xử lý theo lô . Ngược lại, các mô hình EfficientDet nhỏ hơn cung cấp tỷ lệ tham số trên FLOP hiệu quả cao, điều này có thể mang lại lợi thế trong môi trường bộ nhớ bị hạn chế nghiêm trọng.
Các trường hợp sử dụng lý tưởng và chiến lược triển khai
Việc lựa chọn giữa các kiến trúc này thường phụ thuộc rất nhiều vào hệ thống công nghệ hiện có và phần cứng triển khai của bạn.
Khi nào nên chọn EfficientDet:
- Quy trình làm việc AutoML: Nếu bạn đầu tư mạnh vào... Google Hệ sinh thái của nó và dựa vào khả năng tìm kiếm kiến trúc tự động.
- Điện toán biên hạn chế tài nguyên: Các mô hình cấp thấp hơn (d0, d1) cung cấp hiệu năng ổn định trên CPU di động, nơi dung lượng tham số là một ràng buộc nghiêm ngặt.
Khi nào nên chọn PP-YOLOE+:
- Máy chủ GPU cao cấp: Các trường hợp yêu cầu thông lượng tối đa trên NVIDIA phần cứng, chẳng hạn như xử lý hàng trăm luồng video đồng thời cho hệ thống giám sát thành phố thông minh .
- Hệ sinh thái PaddlePaddle : Nếu nhóm phát triển của bạn đã sử dụng khung học sâu của Baidu, việc tích hợp PP-YOLOE+ sẽ diễn ra liền mạch.
Cái Ultralytics Ưu điểm: Giới thiệu YOLO26
Mặc dù EfficientDet và PP-YOLOE+ là những mô hình mạnh mẽ, tốc độ đổi mới nhanh chóng của trí tuệ nhân tạo đòi hỏi các giải pháp vừa có hiệu năng tiên tiến vừa dễ sử dụng vượt trội. Đây chính là điểm mạnh Ultralytics YOLO26 , khẳng định vị thế là sự lựa chọn hàng đầu cho các ứng dụng thị giác máy tính hiện đại.
Ra mắt vào năm 2026, YOLO26 định nghĩa lại hoàn toàn việc phát hiện đối tượng thời gian thực bằng cách giới thiệu thiết kế không cần NMS (Non-Maximum Suppression) từ đầu đến cuối . Bằng cách loại bỏ quá trình xử lý hậu kỳ Non-Maximum Suppression—một điểm nghẽn dai dẳng trong các mô hình cũ hơn—YOLO26 mang lại khả năng triển khai đơn giản hơn đáng kể và giảm độ trễ suy luận.
Hơn nữa, YOLO26 được tối ưu hóa đặc biệt cho việc triển khai ở biên mạng. Việc loại bỏ hiện tượng mất tiêu điểm phân tán (Distribution Focal Loss - DFL) giúp đơn giản hóa quá trình xuất sang các định dạng như... ONNX Và TensorRT Nhờ đó, tốc độ xử lý CPU nhanh hơn tới 43% so với các thế hệ trước. Điều này biến nó trở thành một "cỗ máy" thực sự mạnh mẽ cho các thiết bị IoT chạy bằng pin .
Luyện tập tính ổn định với MuSGD
YOLO26 tích hợp bộ tối ưu hóa MuSGD tiên tiến, một sự kết hợp giữa... SGD và Muon. Lấy cảm hứng từ những tiến bộ trong huấn luyện LLM, trình tối ưu hóa này đảm bảo quá trình huấn luyện cực kỳ ổn định và hội tụ nhanh chóng, tiết kiệm được thời gian quý báu. GPU Tính toán số giờ.
Các nhà phát triển cũng có thể tận dụng các hàm mất mát nâng cao của YOLO26, bao gồm ProgLoss + STAL , cho thấy những cải tiến đáng kể trong việc nhận dạng vật thể nhỏ - một yêu cầu quan trọng đối với ảnh chụp từ trên không và các ứng dụng nông nghiệp chính xác .
Triển khai liền mạch với Ultralytics
Sức mạnh thực sự của Ultralytics Điểm nổi bật nằm ở hệ sinh thái thống nhất của nó. Không giống như các mô hình yêu cầu các kịch bản huấn luyện phức tạp, được thiết kế riêng, YOLO26 cung cấp một API cực kỳ đơn giản. Việc huấn luyện một mô hình trên tập dữ liệu tùy chỉnh của bạn chỉ cần một vài dòng mã. Python mã số:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run an inference on a new image
predictions = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX format for deployment
model.export(format="onnx")
Cho dù bạn cần phát hiện đối tượng tiêu chuẩn hay các tác vụ chuyên biệt như phân đoạn đối tượng và ước tính tư thế , YOLO26 đều hỗ trợ chúng một cách tự nhiên với các nguyên mẫu đa tỷ lệ và ước tính logarit khả năng dư (RLE), tất cả đều nằm trong cùng một khung giao diện thân thiện với người dùng.
Khám phá các mẫu xe đáng chú ý khác
Nếu bạn đang đánh giá các kiến trúc cho các yêu cầu cụ thể của doanh nghiệp, thì cũng đáng để xem xét thế hệ trước Ultralytics YOLO11 , vẫn là một hệ thống mạnh mẽ, đã được kiểm chứng trong môi trường sản xuất. Đối với các ứng dụng cần kiến trúc dựa trên transformer, RT-DETR cung cấp một lựa chọn thay thế thú vị, mặc dù nó thường yêu cầu cấu hình cao hơn. CUDA Lượng bộ nhớ tiêu hao trong quá trình huấn luyện so với hiệu quả cao hơn YOLO các biến thể.
Tóm lại, trong khi EfficientDet cung cấp khả năng mở rộng theo nguyên tắc và PP-YOLOE+ mang lại hiệu suất tuyệt vời GPU Với khả năng xử lý dữ liệu vượt trội trong khuôn khổ cụ thể của mình, Ultralytics YOLO26 mang đến giải pháp cân bằng, linh hoạt và thân thiện với nhà phát triển nhất hiện nay. Kiến trúc tích hợp toàn diện và khả năng kết nối mở rộng của nó biến nó trở thành nền tảng được khuyến nghị cho trí tuệ nhân tạo thị giác thế hệ tiếp theo.