DAMO-YOLO so với PP-YOLOE+: So sánh kỹ thuật chi tiết
Trong bối cảnh cạnh tranh khốc liệt của thị giác máy tính thời gian thực, việc lựa chọn kiến trúc tối ưu cho nhu cầu triển khai cụ thể của bạn là vô cùng quan trọng. Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện giữa DAMO- YOLO và PP-YOLOE+ , đi sâu vào thiết kế kiến trúc, phương pháp huấn luyện và các chỉ số hiệu suất của chúng. Chúng ta cũng sẽ xem xét các mô hình này so sánh như thế nào với các giải pháp tiên tiến nhất hiện nay, chẳng hạn như giải pháp mới được phát hành. Ultralytics YOLO26.
Tổng quan về mô hình
Cả hai framework đều xuất hiện vào năm 2022 như những lựa chọn thay thế mạnh mẽ cho các ứng dụng công nghiệp, tận dụng các kỹ thuật tinh vi để đẩy lùi ranh giới về độ chính xác và tốc độ suy luận.
DAMO-YOLO
Được phát triển bởi Tập đoàn Alibaba, DAMO-YOLO đã giới thiệu một số kỹ thuật mới để tối ưu hóa sự đánh đổi giữa độ trễ và độ chính xác, dựa nhiều vào các kỹ thuật tìm kiếm tự động và hợp nhất tính năng nâng cao.
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức: Tập đoàn Alibaba
- Ngày: 23/11/2022
- Arxiv: DAMO-YOLO: Báo cáo về thiết kế phát hiện đối tượng thời gian thực
- GitHub: tinyvision/DAMO- YOLO
- Tài liệu: README của DAMO-YOLO
DAMO-YOLO sử dụng Tìm kiếm Kiến trúc Đa tỷ lệ (MAE-NAS) để tự động thiết kế các backbone được tối ưu hóa cho hiệu quả phần cứng. Nó cũng có một RepGFPN hiệu quả (Mạng kim tự tháp đặc trưng tổng quát được tham số hóa lại) để hợp nhất đặc trưng ở phần neck và một thiết kế "ZeroHead" nhẹ. Hơn nữa, nó phụ thuộc rất nhiều vào các kỹ thuật chưng cất trong quá trình đào tạo để tăng cường khả năng biểu diễn của mô hình student.
PP-YOLOE+
Theo Baidu PaddlePaddle PP-YOLOE+ là bản nâng cấp tăng dần cho kiến trúc PP-YOLOE. Nó tập trung vào huấn luyện trước quy mô lớn và các hàm mất mát được tinh chỉnh để mang lại hiệu suất cao. mAP đặc biệt là trong khuôn khổ học sâu vốn có của nó.
- Tác giả: PaddlePaddle Authors
- Tổ chức: Baidu
- Ngày: 02-04-2022
- Arxiv: PP-YOLOE: Một phiên bản YOLO được cải tiến
- GitHub: PaddlePaddle /PaddleDetection
- Tài liệu: Cấu hình PP-YOLOE+
PP-YOLOE+ sử dụng kiến trúc xương sống CSPRepResNet và đầu ET (Efficient Task-aligned head). Phiên bản "plus" giới thiệu chiến lược huấn luyện trước mạnh mẽ trên tập dữ liệu Objects365, giúp tăng cường đáng kể khả năng khái quát hóa trong nhiều môi trường thực tế khác nhau.
So sánh kiến trúc
Sự khác biệt về triết lý thiết kế giữa hai mẫu này ảnh hưởng rất lớn đến các trường hợp sử dụng lý tưởng và khả năng tương thích phần cứng của chúng.
Hợp nhất tính năng và cấu trúc xương sống
Các backbone do MAE-NAS của DAMO-YOLO tạo ra được tùy chỉnh cao cho các thiết bị biên, thường mang lại tỷ lệ tốc độ trên tham số thuận lợi. Tuy nhiên, các kiến trúc tùy chỉnh này có thể cứng nhắc và phức tạp để thích ứng với các tác vụ mới như instance segmentation. Phần cổ RepGFPN cải thiện việc hợp nhất đặc trưng đa tỷ lệ nhưng làm tăng độ phức tạp trong giai đoạn xuất tái tham số hóa.
PP-YOLOE+ dựa trên CSPRepResNet truyền thống nhưng hiệu quả cao. Mặc dù kiến trúc mạng này yêu cầu số lượng tham số lớn hơn so với DAMO- YOLO Với độ chính xác tương tự, nó có độ ổn định cao trong quá trình huấn luyện và dễ dàng tích hợp vào các quy trình hiện có. Bộ xử lý ET của nó xử lý hiệu quả cả phân loại và hồi quy, nhưng vẫn yêu cầu các bước xử lý hậu kỳ như loại bỏ cực đại cục bộ (Non-Maximum Suppression). NMS ).
Loại bỏ sự chậm trễ trong quá trình xử lý hậu kỳ
Cả DAMO-YOLO và PP-YOLOE+ đều yêu cầu NMS để xử lý hậu kỳ các hộp giới hạn (bounding box). Nếu độ trễ suy luận (inference latency) là yếu tố then chốt, hãy cân nhắc sử dụng Ultralytics YOLO26, với thiết kế End-to-End NMS-Free nguyên bản. Phương pháp đột phá này loại bỏ quá trình xử lý hậu kỳ NMS, mang lại quy trình triển khai nhanh hơn, đơn giản hơn.
Phân tích hiệu suất và số liệu
Khi đánh giá các mô hình này để sản xuất, cần cân bằng giữa độ chính xác ( mAP Tốc độ suy luận và kích thước tham số là rất quan trọng. Dưới đây là bảng so sánh trực tiếp các biến thể chính của chúng.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Như bảng minh họa, DAMO-YOLO nhìn chung đạt độ trễ thấp hơn ở các quy mô nhỏ (s) và siêu nhỏ (t), nhờ vào các backbone được tối ưu hóa NAS của nó. Tuy nhiên, PP-YOLOE+ mở rộng cực kỳ tốt sang các cấp độ trung bình (m) và lớn (l), tự hào có điểm mAP cao hơn đáng kể, mặc dù phải trả giá một chút về tốc độ TensorRT trên T4.
Yêu cầu bộ nhớ và hiệu quả huấn luyện
Việc DAMO-YOLO dựa vào chưng cất (distillation) có nghĩa là bạn thường cần huấn luyện một mô hình giáo viên lớn hơn nhiều trước khi huấn luyện mô hình học sinh nhỏ hơn. Điều này làm tăng đáng kể yêu cầu bộ nhớ CUDA và tổng ngân sách tính toán. PP-YOLOE+ đơn giản hóa điều này bằng cách huấn luyện một giai đoạn tiêu chuẩn nhưng vẫn gắn chặt với framework PaddlePaddle, điều này có thể hạn chế tính linh hoạt cho các nhóm quen thuộc với PyTorch.
Ngược lại, mô hình Ultralytics YOLO26 hiện đại giải quyết các nút thắt này. Sử dụng Trình tối ưu hóa MuSGD—một sự kết hợp giữa SGD và Muon lấy cảm hứng từ những đổi mới trong huấn luyện LLM—YOLO26 đạt được hội tụ nhanh hơn và huấn luyện rất ổn định mà không yêu cầu các quy trình chưng cất phức tạp. Ngoài ra, các mô hình YOLO thường yêu cầu ít bộ nhớ CUDA hơn đáng kể trong quá trình huấn luyện so với các bộ detect dựa trên transformer như RT-DETR.
Ứng dụng thực tế và các trường hợp sử dụng lý tưởng
Khi nào nên sử dụng DAMO-YOLO
DAMO-YOLO lý tưởng cho suy luận biên (edge inference) thông lượng cao, nơi độ trễ là nút thắt cổ chai cuối cùng. Các biến thể nhỏ của nó vượt trội trong các môi trường như hệ thống quản lý giao thông hoặc giám sát drone cơ bản, với điều kiện đội ngũ kỹ thuật của bạn có đủ khả năng để quản lý các quy trình chưng cất (distillation) và tái tham số hóa (re-parameterization) phức tạp của nó.
Khi nào nên sử dụng PP-YOLOE+
PP-YOLOE+ thực sự tỏa sáng khi bạn đã đầu tư sâu vào hệ sinh thái Baidu hoặc đang triển khai các hệ thống máy chủ quy mô lớn. Hiệu năng ấn tượng của nó mAP Điều này giúp nó phù hợp cho việc phân tích hình ảnh y tế phức tạp hoặc phát hiện các khuyết tật trong quá trình sản xuất với mật độ cao.
Lợi thế của Ultralytics
Trong khi cả DAMO- YOLO Và PP-YOLOE+ mang lại những lợi thế cụ thể phù hợp với từng khu vực, các nhà phát triển tìm kiếm sự linh hoạt, tốc độ và dễ sử dụng tối đa luôn lựa chọn Nền tảng Ultralytics .
Khi nâng cấp hệ thống xử lý hình ảnh máy tính của bạn, Ultralytics YOLO26 mang đến trải nghiệm phát triển vượt trội:
- Tăng tốc suy luận trên CPU lên đến 43%: Với việc loại bỏ hoàn toàn Distribution Focal Loss (DFL), YOLO26 cực kỳ nhanh trên các CPU biên và thiết bị IoT tiêu thụ ít điện năng.
- Cải thiện phát hiện vật thể nhỏ: Việc tích hợp các hàm mất mát ProgLoss và STAL mang lại cải thiện đáng kể trong nhận diện vật thể nhỏ, rất quan trọng đối với ảnh chụp từ trên không.
- Tính linh hoạt rộng rãi: Không giống như PP-YOLOE+ chỉ tập trung nghiêm ngặt vào detect, YOLO26 xử lý mượt mà ước tính tư thế, hộp giới hạn định hướng (OBB) và phân đoạn ngữ nghĩa với những cải tiến kiến trúc dành riêng cho từng tác vụ.
Kết luận
DAMO-YOLO và PP-YOLOE+ đại diện cho những cột mốc quan trọng trong sự phát triển của phát hiện đối tượng không neo. DAMO-YOLO đã đẩy giới hạn của tìm kiếm kiến trúc mạng thần kinh cho độ trễ biên, trong khi PP-YOLOE+ đã chứng minh sức mạnh của đào tạo trước quy mô lớn.
Tuy nhiên, đối với các nhà phát triển đang tìm kiếm sự cân bằng tốt nhất giữa tốc độ, độ chính xác và tính đơn giản trong triển khai, mô hình Ultralytics YOLO26 là sự lựa chọn tối ưu. NMS - Kiến trúc miễn phí, mạnh mẽ Python API và khả năng tích hợp liền mạch với các công cụ như Weights & Biases và TensorRT đảm bảo các dự án của bạn chuyển đổi suôn sẻ từ giai đoạn nguyên mẫu sang sản phẩm hoàn chỉnh.
Sẵn sàng bắt đầu chưa? Khám phá Hướng dẫn Khởi động Nhanh Ultralytics hoặc so sánh thêm các mẫu khác trong bài tổng quan YOLO11 vs DAMO- YOLO của chúng tôi.