Link to this sectionSo sánh EfficientDet và PP-YOLOE+#

Bối cảnh thị giác máy tính đã bị định hình mạnh mẽ bởi sự phát triển liên tục của các model phát hiện đối tượng. Hai cột mốc quan trọng trong hành trình này là EfficientDet của Google và PP-YOLOE+ của Baidu. Mặc dù cả hai kiến trúc đều được thiết kế để cân bằng sự đánh đổi tinh tế giữa hiệu quả tính toán và độ chính xác phát hiện, chúng tiếp cận thách thức này thông qua các triết lý thiết kế cơ bản khác nhau.

Hướng dẫn toàn diện này phân tích kiến trúc, phương pháp huấn luyện và các kịch bản triển khai thực tế của chúng để giúp bạn chọn mạng thần kinh tối ưu cho ứng dụng thị giác máy tính tiếp theo của mình.

Link to this sectionNhững cải tiến về kiến trúc và triết lý thiết kế#

Việc hiểu rõ kiến trúc nền tảng của các model này là rất quan trọng để triển khai chúng hiệu quả trong môi trường production, cho dù trên các thiết bị biên (edge) hay máy chủ đám mây.

Link to this sectionEfficientDet: Sức mạnh của Compound Scaling#

Được phát triển bởi Google Research, EfficientDet đã giới thiệu một sự thay đổi mô hình bằng cách xử lý việc scaling model không phải là một quy trình tùy biến, mà là một phương pháp compound scaling có nguyên tắc toán học.

Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
Tổ chức: Google Research
Ngày: 2019-11-20
Arxiv: 1911.09070
GitHub: google/automl
Tài liệu: Tài liệu EfficientDet

Tìm hiểu thêm về EfficientDet

Đổi mới cốt lõi của EfficientDet nằm ở Bi-directional Feature Pyramid Network (BiFPN). Không giống như các FPN truyền thống chỉ cộng gộp các tính năng từ trên xuống, BiFPN giới thiệu các trọng số có thể học được để thực hiện hợp nhất tính năng đa quy mô cả từ trên xuống và từ dưới lên. Điều này cho phép mạng hiểu được tầm quan trọng của các tính năng đầu vào khác nhau một cách trực quan. Kết hợp với EfficientNet backbone, EfficientDet mở rộng độ phân giải, độ sâu và độ rộng cùng lúc, tạo ra một họ các model (d0 đến d7) phục vụ cho các ngân sách tính toán khác nhau.

Scaling EfficientDet

Khi triển khai EfficientDet, hãy cân nhắc kỹ phần cứng mục tiêu của bạn. Trong khi d0 phù hợp với các thiết bị di động, việc mở rộng lên đến d7 đòi hỏi bộ nhớ GPU và công suất tính toán đáng kể.

Link to this sectionPP-YOLOE+: Mở rộng ranh giới của PaddlePaddle#

Dựa trên những thành công của các phiên bản tiền nhiệm, PP-YOLOE+ được nhóm PaddlePaddle tại Baidu thiết kế để mang lại hiệu suất hiện đại nhất, được tối ưu hóa đặc biệt cho triển khai máy chủ lưu lượng cao.

Tác giả: Các tác giả của PaddlePaddle
Tổ chức: Baidu
Ngày: 02-04-2022
Arxiv: 2203.16250
GitHub: PaddlePaddle/PaddleDetection
Tài liệu: Cấu hình PP-YOLOE+

Tìm hiểu thêm về PP-YOLOE+

PP-YOLOE+ có CSPRepResNet backbone, tận dụng các mạng Cross Stage Partial kết hợp với các kỹ thuật tái tham số hóa để tăng cường trích xuất tính năng mà không gây ra độ trễ suy luận. ET-head (Efficient Task-aligned head) của nó cải thiện đáng kể sự liên kết giữa các tác vụ phân loại và định vị. Hơn nữa, nó sử dụng thiết kế không cần anchor kết hợp với gán nhãn động (TAL), giúp hợp lý hóa quy trình huấn luyện và cải thiện khả năng tổng quát hóa trên các tập dữ liệu đa dạng.

Link to this sectionCác chỉ số và Benchmark hiệu suất#

Khi chọn model cho real-time inference, việc đánh giá sự cân bằng giữa mean Average Precision (mAP) và tốc độ tính toán là tối quan trọng. Bảng dưới đây phác thảo các chỉ số hiệu suất chính cho cả hai họ model.

Mô hình	kích thước ^(pixel)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

Như đã thấy, PP-YOLOE+ thường đạt độ chính xác cao hơn ở số lượng tham số tương đương, đặc biệt là ở các biến thể lớn hơn (l và x). Nó được tối ưu hóa cao cho lưu lượng GPU, khiến nó trở thành ứng viên xuất sắc cho triển khai máy chủ xử lý theo lô. Ngược lại, các model EfficientDet nhỏ hơn cung cấp tỷ lệ tham số trên FLOP hiệu quả, điều này có thể mang lại lợi thế trong các môi trường bị hạn chế bộ nhớ nghiêm trọng.

Link to this sectionCác trường hợp sử dụng lý tưởng và chiến lược triển khai#

Việc lựa chọn giữa các kiến trúc này thường phụ thuộc nhiều vào tech stack hiện có và phần cứng triển khai của bạn.

Khi nào chọn EfficientDet:

Quy trình AutoML: Nếu bạn đầu tư mạnh vào hệ sinh thái của Google và dựa vào khả năng tìm kiếm kiến trúc tự động.
Thiết bị biên bị hạn chế tài nguyên: Các model cấp thấp (d0, d1) cung cấp hiệu suất dự đoán được trên CPU di động, nơi dung lượng tham số là một hạn chế nghiêm ngặt.

Khi nào chọn PP-YOLOE+:

Máy chủ GPU cao cấp: Các kịch bản yêu cầu thông lượng tối đa trên phần cứng NVIDIA, chẳng hạn như xử lý hàng trăm luồng video đồng thời cho giám sát thành phố thông minh.
Hệ sinh thái PaddlePaddle: Nếu nhóm phát triển của bạn đã sử dụng framework deep learning của Baidu, việc tích hợp PP-YOLOE+ sẽ rất liền mạch.

Link to this sectionLợi thế của Ultralytics: Giới thiệu YOLO26#

Mặc dù EfficientDet và PP-YOLOE+ là những model đáng gờm, nhịp độ đổi mới AI nhanh chóng đòi hỏi các giải pháp mang lại cả hiệu suất tiên tiến và sự dễ sử dụng vô song. Đây là nơi Ultralytics YOLO26 vượt trội, khẳng định vị thế là lựa chọn hàng đầu cho các ứng dụng thị giác máy tính hiện đại.

Được phát hành vào năm 2026, YOLO26 định nghĩa lại hoàn toàn việc phát hiện đối tượng thời gian thực bằng cách giới thiệu Thiết kế NMS-Free End-to-End nguyên bản. Bằng cách loại bỏ xử lý hậu kỳ Non-Maximum Suppression—một điểm nghẽn dai dẳng trong các model cũ hơn—YOLO26 cung cấp khả năng triển khai đơn giản hơn đáng kể và giảm độ trễ suy luận.

Hơn nữa, YOLO26 được tối ưu hóa đặc biệt cho triển khai biên. Việc loại bỏ Distribution Focal Loss (DFL) đơn giản hóa quy trình xuất sang các định dạng như ONNX và TensorRT, mang lại hiệu suất suy luận CPU nhanh hơn tới 43% so với các thế hệ trước. Điều này làm cho nó trở thành một cường quốc tuyệt đối cho các thiết bị IoT chạy bằng pin.

Độ ổn định khi huấn luyện với MuSGD

YOLO26 kết hợp MuSGD Optimizer sáng tạo, một sự kết hợp giữa SGD và Muon. Lấy cảm hứng từ những tiến bộ trong huấn luyện LLM, trình tối ưu hóa này đảm bảo quá trình huấn luyện ổn định cao và hội tụ nhanh chóng, tiết kiệm giờ tính toán GPU quý giá.

Các nhà phát triển cũng có thể tận dụng các hàm loss nâng cao của YOLO26, bao gồm ProgLoss + STAL, thể hiện những cải tiến đáng kể trong việc nhận dạng vật thể nhỏ—một yêu cầu quan trọng đối với hình ảnh trên không và các ứng dụng nông nghiệp chính xác.

Link to this sectionTriển khai liền mạch với Ultralytics#

Sức mạnh thực sự của Ultralytics nằm ở hệ sinh thái hợp nhất của nó. Không giống như các model yêu cầu tập lệnh huấn luyện phức tạp, tùy chỉnh, YOLO26 cung cấp một API cực kỳ tinh gọn. Huấn luyện một model trên tập dữ liệu tùy chỉnh của bạn chỉ yêu cầu vài dòng code Python:

from ultralytics import YOLO

# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run an inference on a new image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX format for deployment
model.export(format="onnx")

Cho dù bạn yêu cầu phát hiện tiêu chuẩn, hay các tác vụ chuyên biệt như phân đoạn đối tượng và ước tính tư thế, YOLO26 hỗ trợ những tác vụ này nguyên bản với các nguyên mẫu đa quy mô và Residual Log-Likelihood Estimation (RLE), tất cả trong cùng một framework thân thiện với người dùng.

Link to this sectionKhám phá các model đáng chú ý khác#

Nếu bạn đang đánh giá các kiến trúc cho các yêu cầu doanh nghiệp cụ thể, cũng đáng cân nhắc thế hệ trước Ultralytics YOLO11, vốn vẫn là một công cụ bền bỉ, đã được kiểm chứng trong môi trường sản xuất. Đối với các ứng dụng mong muốn kiến trúc dựa trên Transformer, RT-DETR cung cấp một sự thay thế thú vị, mặc dù nó thường yêu cầu bộ nhớ CUDA cao hơn trong quá trình huấn luyện so với các biến thể YOLO hiệu quả cao.

Tóm lại, trong khi EfficientDet cung cấp scaling có nguyên tắc và PP-YOLOE+ cung cấp thông lượng GPU tuyệt vời trong framework cụ thể của nó, Ultralytics YOLO26 mang lại giải pháp cân bằng, linh hoạt và thân thiện với nhà phát triển nhất hiện nay. Kiến trúc end-to-end nguyên bản và khả năng tích hợp mở rộng của nó biến nó thành nền tảng được khuyến nghị cho AI thị giác thế hệ tiếp theo.

Người đóng góp

GLglenn-jocher¹⁴ SEsergiuwaxmann¹

Đã tạo 27 thg 1, 2025Đã cập nhật 3 tuần trước