PP-YOLOE+ so với EfficientDet: So sánh kỹ thuật toàn diện

Việc lựa chọn kiến trúc phù hợp là một bước quan trọng trong việc xây dựng các ứng dụng thị giác máy tính mạnh mẽ. Hướng dẫn kỹ thuật này khám phá sự đánh đổi giữa hai mô hình phát hiện đối tượng nổi tiếng: PP-YOLOE+EfficientDet. Chúng ta sẽ phân tích kiến trúc, chỉ số hiệu suất và các kịch bản triển khai lý tưởng của chúng.

Mặc dù cả hai mô hình đều đóng góp đáng kể cho lĩnh vực này, chúng ta cũng sẽ thảo luận về cách các giải pháp hiện đại như Ultralytics YOLO26 cung cấp hiệu suất bộ nhớ vượt trội, suy luận nhanh hơn và trải nghiệm nhà phát triển được tối ưu hóa cao.

Tổng quan kiến trúc: PP-YOLOE+

PP-YOLOE+ là phiên bản cải tiến của PP-YOLO gốc, được xây dựng đặc biệt để tối ưu hóa hiệu suất trên các GPU phía máy chủ trong hệ sinh thái PaddlePaddle. Nó giới thiệu một số cải tiến cho kiến trúc cơ sở, tập trung vào mô hình không sử dụng neo (anchor-free).

Tìm hiểu thêm về PP-YOLOE+

PP-YOLOE+ sử dụng backbone CSPRepResNet, head căn chỉnh tác vụ hiệu quả (ET-head) và dựa nhiều vào hàm mất mát varifocal để phân loại cùng với hàm mất mát distribution focal cho hồi quy khung bao (bounding box). Việc chuyển đổi sang thiết kế detector không neo giúp hợp lý hóa quy trình hậu xử lý, khiến nó trở nên cạnh tranh mạnh mẽ tại thời điểm ra mắt.

Lợi ích tích hợp

Các nhóm đã đầu tư sâu vào framework PaddlePaddle của Baidu thường thấy PP-YOLOE+ dễ áp dụng hơn cho các tác vụ như phân đoạn cá thể, mặc dù nó thiếu sự hỗ trợ đa framework rộng rãi như các công cụ mới hơn.

Tổng quan kiến trúc: EfficientDet

EfficientDet áp dụng một cách tiếp cận hoàn toàn khác đối với phát hiện đối tượng, dựa nhiều vào tìm kiếm kiến trúc thần kinh (neural architecture search) và các nguyên tắc mở rộng hỗn hợp.

Tìm hiểu thêm về EfficientDet

Nền tảng của EfficientDet là mạng kim tự tháp đặc trưng hai chiều (BiFPN). Không giống như các FPN truyền thống, BiFPN cho phép hợp nhất đặc trưng đa quy mô dễ dàng và nhanh chóng bằng cách giới thiệu các trọng số có thể học để xác định tầm quan trọng của các đặc trưng đầu vào khác nhau. Kết hợp với backbone EfficientNet, EfficientDet mở rộng chiều rộng, chiều sâu và độ phân giải của mạng một cách đồng thời và có hệ thống.

Mặc dù về lý thuyết rất hiệu quả về FLOPs, các mô hình EfficientDet đôi khi gặp khó khăn trong việc chuyển đổi hiệu suất lý thuyết thành tốc độ thực tế trên các thiết bị biên do các mô hình truy cập bộ nhớ phức tạp, điều này hoàn toàn trái ngược với yêu cầu bộ nhớ thấp hơn của các mô hình dựa trên YOLO.

Phân tích hiệu suất và điểm chuẩn

Bảng dưới đây so sánh các chỉ số chính trên các tập dữ liệu tiêu chuẩn như COCO. Việc so sánh độ chính xác trung bình (mAP) với tốc độ suy luận cung cấp cái nhìn rõ ràng về đường biên Pareto.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Như đã thấy, PP-YOLOE+ thường mở rộng quy mô tốt hơn về mAP thô cho các GPU cao cấp, trong khi EfficientDet cố gắng giảm thiểu tham số. Tuy nhiên, cả hai đều tụt hậu so với khả năng thời gian thực hiện đại cần thiết cho AI biên tiên tiến.

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa PP-YOLOE+ và EfficientDet phụ thuộc vào yêu cầu dự án cụ thể, hạn chế triển khai và tùy chọn hệ sinh thái của bạn.

Khi nào nên chọn PP-YOLOE+

PP-YOLOE+ là lựa chọn mạnh mẽ cho:

  • Tích hợp hệ sinh thái PaddlePaddle: Các tổ chức có hạ tầng hiện có được xây dựng trên framework và công cụ PaddlePaddle của Baidu.
  • Triển khai Edge với Paddle Lite: Triển khai lên phần cứng với các nhân inference được tối ưu hóa cao dành riêng cho công cụ Paddle Lite hoặc Paddle inference.
  • Nhận diện độ chính xác cao phía máy chủ: Các kịch bản ưu tiên độ chính xác nhận diện tối đa trên các máy chủ GPU mạnh mẽ, nơi sự phụ thuộc vào framework không phải là vấn đề.

Khi nào nên chọn EfficientDet

EfficientDet được khuyến nghị cho:

  • Google Cloud và TPU Pipelines: Các hệ thống tích hợp sâu với Google Cloud Vision APIs hoặc hạ tầng TPU, nơi EfficientDet có sự tối ưu hóa nguyên bản.
  • Nghiên cứu về Compound Scaling: Các đánh giá học thuật tập trung vào việc nghiên cứu ảnh hưởng của sự cân bằng giữa độ sâu mạng, chiều rộng và mở rộng độ phân giải.
  • Triển khai trên di động thông qua TFLite: Các dự án yêu cầu cụ thể việc xuất TensorFlow Lite cho các thiết bị Android hoặc Linux nhúng.

Khi nào nên chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu suất và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Giải pháp thay thế hiện đại: Ultralytics YOLO26

Trong khi PP-YOLOE+ và EfficientDet đại diện cho các cột mốc lịch sử quan trọng, các nhà phát triển đang tìm kiếm độ chính xác cao nhất, mức tiêu thụ bộ nhớ thấp hơn và trải nghiệm người dùng hợp lý nên cân nhắc Ultralytics YOLO26.

YOLO26 đại diện cho một bước nhảy vọt trong phát hiện đối tượng, giới thiệu một số cải tiến quan trọng:

  • Thiết kế End-to-End không cần NMS: Dựa trên những đột phá của YOLOv10, YOLO26 loại bỏ nguyên bản Non-Maximum Suppression (NMS) trong quá trình suy luận. Điều này mang lại độ trễ thấp hơn đáng kể và loại bỏ các nút thắt cổ chai phức tạp trong hậu xử lý.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các cải tiến trong đào tạo LLM, YOLO26 sử dụng bộ tối ưu hóa kết hợp SGD và Muon. Điều này cải thiện đáng kể sự ổn định khi đào tạo và giảm thời gian hội tụ.
  • Tốc độ cực nhanh: YOLO26 mang lại hiệu suất suy luận trên CPU nhanh hơn tới 43% so với các thế hệ cũ hơn như YOLO11, biến nó thành lựa chọn tốt nhất cho các thiết bị chạy bằng pin hoặc chỉ có CPU.
  • Hàm mất mát nâng cao: Việc tích hợp ProgLoss và STAL cải thiện đáng kể khả năng nhận diện đối tượng nhỏ, điều cần thiết cho các tác vụ như phân tích dronerobot học.
Tính linh hoạt đa nhiệm

Không giống như EfficientDet chỉ tập trung vào phát hiện, YOLO26 xử lý nguyên bản ước tính tư thế, phân loại hình ảnhkhung bao hướng (OBB), tất cả đều nằm trong cùng một hệ sinh thái được bảo trì tốt.

Dễ sử dụng và tích hợp hệ sinh thái

Một trong những nhược điểm lớn nhất của các mô hình cũ như EfficientDet là sự phức tạp trong quy trình đào tạo và thiết lập học máy tự động. Ngược lại, Ultralytics Platform mang đến trải nghiệm nhà phát triển vượt trội.

Việc triển khai một mô hình với Ultralytics chỉ mất vài dòng mã, tạo ra sự tương phản rõ rệt với các cấu hình dài dòng cần thiết cho các framework cũ.

from ultralytics import YOLO

# Load a pretrained YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100)

# Run inference on a test image natively without NMS overhead
predictions = model("https://ultralytics.com/images/bus.jpg")

Đối với những người đang khám phá các giải pháp thay thế khác, các kiến trúc như RT-DETR hoặc YOLOv8 cũ cũng có sẵn trong hệ sinh thái Ultralytics, cho phép hoán đổi và thử nghiệm liền mạch.

Kết luận

PP-YOLOE+ vẫn là lựa chọn tốt cho các triển khai máy chủ cụ thể trong hệ sinh thái Paddle, và EfficientDet vẫn là một nghiên cứu thú vị về thiết kế kiến trúc tự động. Tuy nhiên, đối với các ứng dụng hiện đại yêu cầu suy luận thời gian thực, dễ dàng triển khai và yêu cầu bộ nhớ tối thiểu, Ultralytics YOLO26 cung cấp sự cân bằng hiệu suất thuyết phục nhất. Thiết kế không cần NMS và hiệu suất CPU nhanh như chớp khiến nó trở thành lựa chọn quyết định để chuẩn bị cho cơ sở hạ tầng AI trong tương lai của bạn.

Bình luận