DAMO-YOLO so với PP-YOLOE+: So sánh kỹ thuật chi tiết
Trong bối cảnh thị trường thị giác máy tính thời gian thực có tính cạnh tranh cao, việc chọn kiến trúc tối ưu cho nhu cầu triển khai cụ thể của bạn là rất quan trọng. Hướng dẫn này cung cấp sự so sánh kỹ thuật toàn diện giữa DAMO-YOLO và PP-YOLOE+, đi sâu vào thiết kế kiến trúc, phương pháp huấn luyện và các chỉ số hiệu suất của chúng. Chúng tôi cũng sẽ kiểm tra cách các mô hình này so sánh với các giải pháp hiện đại như Ultralytics YOLO26 vừa được ra mắt.
Tổng quan về các model
Cả hai framework đều xuất hiện vào năm 2022 như những giải pháp thay thế mạnh mẽ cho các ứng dụng công nghiệp, tận dụng các kỹ thuật tinh vi để đẩy mạnh giới hạn của độ chính xác và tốc độ suy luận.
DAMO-YOLO
Được phát triển bởi Alibaba Group, DAMO-YOLO đã giới thiệu một số kỹ thuật mới để tối ưu hóa sự đánh đổi giữa độ trễ và độ chính xác, tập trung mạnh vào các kỹ thuật tìm kiếm tự động và hợp nhất đặc trưng tiên tiến.
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang và Xiuyu Sun
- Tổ chức: Alibaba Group
- Ngày: 2022-11-23
- Arxiv: DAMO-YOLO: A Report on Real-Time Object Detection Design
- GitHub: tinyvision/DAMO-YOLO
- Tài liệu: DAMO-YOLO README
DAMO-YOLO sử dụng Multi-Scale Architecture Search (MAE-NAS) để tự động thiết kế các backbone được tối ưu hóa cho hiệu suất phần cứng. Nó cũng có tính năng RepGFPN (Re-parameterized Generalized Feature Pyramid Network) hiệu quả cho việc hợp nhất đặc trưng phần neck và thiết kế "ZeroHead" nhẹ. Hơn nữa, nó dựa nhiều vào các kỹ thuật chưng cất (distillation) trong quá trình huấn luyện để tăng cường khả năng biểu diễn của mô hình học viên (student model).
PP-YOLOE+
Từ đội ngũ PaddlePaddle của Baidu, PP-YOLOE+ là bản nâng cấp gia tăng cho kiến trúc PP-YOLOE. Nó tập trung vào tiền huấn luyện quy mô lớn và các hàm loss được tinh chỉnh để mang lại mAP cao, đặc biệt là trong framework deep learning gốc của nó.
- Tác giả: Các tác giả của PaddlePaddle
- Tổ chức: Baidu
- Ngày: 2022-04-02
- Arxiv: PP-YOLOE: An evolved version of YOLO
- GitHub: PaddlePaddle/PaddleDetection
- Tài liệu: PP-YOLOE+ Configs
PP-YOLOE+ sử dụng backbone CSPRepResNet và ET-head (Efficient Task-aligned head). Phiên bản "plus" giới thiệu chiến lược tiền huấn luyện mạnh mẽ trên tập dữ liệu Objects365, điều này giúp tăng cường đáng kể khả năng tổng quát hóa của nó trên các môi trường thực tế đa dạng.
So sánh kiến trúc
Sự khác biệt trong triết lý thiết kế giữa hai mô hình này ảnh hưởng lớn đến các trường hợp sử dụng lý tưởng và tính tương thích phần cứng của chúng.
Hợp nhất đặc trưng và Backbones
Các backbone được tạo ra bởi MAE-NAS của DAMO-YOLO được tùy chỉnh cao cho các thiết bị biên, thường mang lại tỷ lệ tốc độ trên tham số thuận lợi. Tuy nhiên, các kiến trúc tùy chỉnh này có thể cứng nhắc và phức tạp khi thích nghi cho các tác vụ mới lạ như instance segmentation. Phần neck RepGFPN cải thiện việc hợp nhất đặc trưng đa quy mô nhưng làm tăng độ phức tạp trong giai đoạn xuất re-parameterization.
PP-YOLOE+ dựa trên CSPRepResNet truyền thống hơn nhưng cực kỳ hiệu quả. Mặc dù backbone này đòi hỏi dung lượng tham số lớn hơn so với DAMO-YOLO để đạt được độ chính xác tương đương, nó rất ổn định khi huấn luyện và dễ tích hợp vào các pipeline hiện có. ET-head của nó xử lý phân loại và hồi quy hiệu quả, nhưng vẫn yêu cầu các bước hậu xử lý như Non-Maximum Suppression (NMS).
Cả DAMO-YOLO và PP-YOLOE+ đều yêu cầu NMS để hậu xử lý các hộp bao (bounding box). Nếu độ trễ suy luận là quan trọng, hãy cân nhắc sử dụng Ultralytics YOLO26, với thiết kế End-to-End NMS-Free nguyên bản. Cách tiếp cận đột phá này loại bỏ hậu xử lý NMS để có một pipeline triển khai nhanh hơn và đơn giản hơn.
Phân tích hiệu năng và số liệu
Khi đánh giá các mô hình này cho sản xuất, sự cân bằng giữa độ chính xác (mAP), tốc độ suy luận và kích thước tham số là rất quan trọng. Dưới đây là so sánh trực tiếp các biến thể chính của chúng.
| Model | kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Như bảng minh họa, DAMO-YOLO thường đạt được độ trễ thấp hơn trên các quy mô nhỏ (s) và siêu nhỏ (t), nhờ các backbone tối ưu hóa bằng NAS. Tuy nhiên, PP-YOLOE+ mở rộng cực kỳ tốt ở các bậc trung bình (m) và lớn (l), tự hào với điểm mAP cao hơn đáng kể, mặc dù phải trả giá một chút về tốc độ T4 TensorRT.
Yêu cầu bộ nhớ và hiệu quả huấn luyện
Việc DAMO-YOLO dựa vào kỹ thuật chưng cất có nghĩa là bạn thường cần huấn luyện một mô hình giáo viên (teacher model) lớn hơn nhiều trước khi huấn luyện mô hình học viên nhỏ hơn. Điều này làm tăng đáng kể yêu cầu bộ nhớ CUDA và ngân sách tính toán tổng thể. PP-YOLOE+ đơn giản hóa điều này với quy trình huấn luyện đơn giai đoạn tiêu chuẩn nhưng vẫn bị ràng buộc chặt chẽ với framework PaddlePaddle, điều này có thể hạn chế sự linh hoạt cho các đội ngũ đã quen với PyTorch.
Ngược lại, mô hình Ultralytics YOLO26 hiện đại giải quyết được những nút thắt này. Sử dụng trình tối ưu hóa MuSGD Optimizer mới—sự kết hợp giữa SGD và Muon lấy cảm hứng từ những cải tiến trong huấn luyện LLM—YOLO26 đạt được khả năng hội tụ nhanh hơn và huấn luyện ổn định cao mà không cần các pipeline chưng cất phức tạp. Ngoài ra, các mô hình YOLO thường yêu cầu ít bộ nhớ CUDA hơn nhiều trong quá trình huấn luyện so với các bộ dò dựa trên transformer như RT-DETR.
Ứng dụng thực tế và trường hợp sử dụng lý tưởng
Khi nào nên sử dụng DAMO-YOLO
DAMO-YOLO lý tưởng cho suy luận biên thông lượng cao, nơi độ trễ là nút thắt chính. Các biến thể nhỏ của nó vượt trội trong các môi trường như hệ thống quản lý giao thông hoặc giám sát bằng drone cơ bản, miễn là đội ngũ kỹ thuật của bạn có đủ năng lực để quản lý các quy trình chưng cất và tái tham số hóa phức tạp của nó.
Khi nào nên sử dụng PP-YOLOE+
PP-YOLOE+ tỏa sáng khi bạn đã đầu tư sâu vào hệ sinh thái Baidu hoặc đang thực hiện các triển khai máy chủ quy mô lớn. Chỉ số mAP ấn tượng của nó làm cho nó phù hợp cho phân tích hình ảnh y tế phức tạp hoặc phát hiện lỗi sản xuất mật độ cao.
Ưu thế của Ultralytics
Trong khi cả DAMO-YOLO và PP-YOLOE+ đều cung cấp các ưu điểm cục bộ cụ thể, các nhà phát triển tìm kiếm sự linh hoạt, tốc độ và tính dễ sử dụng tối đa luôn tìm đến Ultralytics Platform.
Khi nâng cấp pipeline thị giác máy tính của bạn, Ultralytics YOLO26 mang lại trải nghiệm nhà phát triển vô song:
- Suy luận CPU nhanh hơn tới 43%: Với việc loại bỏ hoàn toàn Distribution Focal Loss (DFL), YOLO26 hoạt động cực nhanh trên các CPU biên và thiết bị IoT công suất thấp.
- Cải thiện phát hiện vật thể nhỏ: Việc tích hợp các hàm loss ProgLoss và STAL mang lại những cải tiến đáng kể trong nhận diện vật thể nhỏ, rất quan trọng cho hình ảnh hàng không.
- Tính linh hoạt mở rộng: Không giống như PP-YOLOE+ chỉ tập trung nghiêm ngặt vào phát hiện, YOLO26 xử lý liền mạch ước tính tư thế, hộp bao xoay (OBB) và phân đoạn ngữ nghĩa với những cải tiến kiến trúc dành riêng cho từng tác vụ.
Kết luận
DAMO-YOLO và PP-YOLOE+ đại diện cho những cột mốc quan trọng trong sự tiến hóa của việc phát hiện vật thể không cần anchor. DAMO-YOLO đã đẩy giới hạn của tìm kiếm kiến trúc thần kinh cho độ trễ biên, trong khi PP-YOLOE+ đã chứng minh sức mạnh của tiền huấn luyện quy mô lớn.
Tuy nhiên, đối với các nhà phát triển đang tìm kiếm sự cân bằng tốt nhất về tốc độ, độ chính xác và sự đơn giản trong triển khai, mô hình Ultralytics YOLO26 là sự lựa chọn dứt khoát. Kiến trúc không dùng NMS, API Python mạnh mẽ và tích hợp liền mạch với các công cụ như Weights & Biases và TensorRT đảm bảo các dự án của bạn chuyển đổi trơn tru từ nguyên mẫu sang sản xuất.
Sẵn sàng để bắt đầu? Khám phá Hướng dẫn nhanh Ultralytics hoặc so sánh thêm nhiều mô hình trong tổng quan YOLO11 vs DAMO-YOLO của chúng tôi.