Meet YOLO26: next-gen vision AI.

Link to this sectionSo sánh DAMO-YOLO và PP-YOLOE+#

Trong bối cảnh cạnh tranh khốc liệt của thị trường thị giác máy tính thời gian thực, việc lựa chọn kiến trúc tối ưu cho nhu cầu triển khai cụ thể của bạn là rất quan trọng. Hướng dẫn này cung cấp bản so sánh kỹ thuật toàn diện giữa DAMO-YOLOPP-YOLOE+, đi sâu vào các thiết kế kiến trúc, phương pháp đào tạo và chỉ số hiệu suất. Chúng tôi cũng sẽ xem xét cách các mô hình này so sánh với các giải pháp hiện đại như Ultralytics YOLO26 vừa được ra mắt.

Link to this sectionTổng quan về mô hình#

Cả hai framework này đều xuất hiện vào năm 2022 như những giải pháp thay thế mạnh mẽ cho các ứng dụng công nghiệp, tận dụng các kỹ thuật tinh vi để đẩy giới hạn về độ chính xác và tốc độ suy luận.

Link to this sectionDAMO-YOLO#

Được phát triển bởi Alibaba Group, DAMO-YOLO đã giới thiệu một số kỹ thuật mới lạ để tối ưu hóa sự cân bằng giữa độ trễ và độ chính xác, dựa nhiều vào các kỹ thuật tìm kiếm tự động và hợp nhất đặc trưng nâng cao.

DAMO-YOLO sử dụng cơ chế Tìm kiếm Kiến trúc Đa quy mô (MAE-NAS) để tự động thiết kế các backbone được tối ưu hóa cho hiệu suất phần cứng. Nó cũng có tính năng RepGFPN (Re-parameterized Generalized Feature Pyramid Network) hiệu quả cho việc hợp nhất đặc trưng ở phần neck và thiết kế "ZeroHead" nhẹ. Hơn nữa, nó dựa nhiều vào các kỹ thuật chưng cất (distillation) trong quá trình đào tạo để tăng cường khả năng biểu diễn của mô hình học viên (student model).

Tìm hiểu thêm về DAMO-YOLO

Link to this sectionPP-YOLOE+#

Đến từ đội ngũ PaddlePaddle của Baidu, PP-YOLOE+ là bản nâng cấp gia tăng cho kiến trúc PP-YOLOE. Nó tập trung vào việc tiền đào tạo quy mô lớn và các hàm mất mát được tinh chỉnh để mang lại mAP cao, đặc biệt là trong framework deep learning gốc của nó.

PP-YOLOE+ sử dụng backbone CSPRepResNet và đầu ra ET-head (Efficient Task-aligned head). Phiên bản "plus" giới thiệu chiến lược tiền đào tạo mạnh mẽ trên tập dữ liệu Objects365, giúp tăng đáng kể khả năng tổng quát hóa trong nhiều môi trường thực tế khác nhau.

Tìm hiểu thêm về PP-YOLOE+

Link to this sectionSo sánh kiến trúc#

Sự khác biệt trong triết lý thiết kế giữa hai mô hình này ảnh hưởng đáng kể đến các trường hợp sử dụng lý tưởng và khả năng tương thích phần cứng của chúng.

Link to this sectionHợp nhất đặc trưng và Backbones#

Các backbone được tạo ra bởi MAE-NAS của DAMO-YOLO được tùy chỉnh cao cho các thiết bị biên, thường mang lại tỷ lệ tốc độ trên tham số thuận lợi. Tuy nhiên, các kiến trúc tùy chỉnh này có thể cứng nhắc và phức tạp khi điều chỉnh cho các tác vụ mới lạ như instance segmentation. Phần neck RepGFPN cải thiện khả năng hợp nhất đặc trưng đa quy mô nhưng làm tăng độ phức tạp trong giai đoạn xuất re-parameterization.

PP-YOLOE+ dựa trên CSPRepResNet truyền thống nhưng cực kỳ hiệu quả. Mặc dù backbone này yêu cầu số lượng tham số lớn hơn so với DAMO-YOLO để đạt được độ chính xác tương đương, nhưng nó rất ổn định để đào tạo và dễ dàng tích hợp vào các pipeline hiện có. ET-head của nó xử lý phân loại và hồi quy hiệu quả, nhưng vẫn yêu cầu các bước xử lý hậu kỳ như Non-Maximum Suppression (NMS).

Loại bỏ độ trễ xử lý hậu kỳ

Cả DAMO-YOLO và PP-YOLOE+ đều yêu cầu NMS để xử lý hậu kỳ các khung bao (bounding box). Nếu độ trễ suy luận là yếu tố quan trọng, hãy cân nhắc sử dụng Ultralytics YOLO26, với Thiết kế End-to-End không cần NMS. Cách tiếp cận đột phá này loại bỏ quy trình hậu kỳ NMS để có một pipeline triển khai nhanh hơn và đơn giản hơn.

Link to this sectionPhân tích hiệu suất và các chỉ số#

Khi đánh giá các mô hình này cho sản xuất, sự cân bằng giữa độ chính xác (mAP), tốc độ suy luận và kích thước tham số là rất quan trọng. Dưới đây là bảng so sánh trực tiếp các biến thể chính của chúng.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Như bảng minh họa, DAMO-YOLO thường đạt được độ trễ thấp hơn trên các quy mô nhỏ (s) và siêu nhỏ (t), nhờ vào các backbone được tối ưu hóa bằng NAS. Tuy nhiên, PP-YOLOE+ mở rộng quy mô cực kỳ tốt ở các phân khúc trung bình (m) và lớn (l), tự hào với điểm mAP cao hơn đáng kể, mặc dù có chi phí đánh đổi nhẹ về tốc độ T4 TensorRT.

Link to this sectionYêu cầu bộ nhớ và hiệu quả huấn luyện#

Sự phụ thuộc của DAMO-YOLO vào kỹ thuật chưng cất đồng nghĩa với việc bạn thường cần đào tạo một mô hình giáo viên (teacher model) lớn hơn nhiều trước khi đào tạo mô hình học viên nhỏ hơn. Điều này làm tăng đáng kể yêu cầu bộ nhớ CUDA và ngân sách tính toán tổng thể. PP-YOLOE+ đơn giản hóa việc này với quy trình đào tạo một giai đoạn tiêu chuẩn nhưng vẫn bị gắn chặt với framework PaddlePaddle, điều này có thể hạn chế sự linh hoạt đối với các đội ngũ đã quen với PyTorch.

Ngược lại, mô hình Ultralytics YOLO26 hiện đại giải quyết được những nút thắt này. Bằng cách sử dụng MuSGD Optimizer mới—một sự kết hợp giữa SGD và Muon lấy cảm hứng từ các đổi mới trong đào tạo LLM—YOLO26 đạt được khả năng hội tụ nhanh hơn và đào tạo ổn định cao mà không cần các pipeline chưng cất phức tạp. Ngoài ra, các mô hình YOLO thường yêu cầu ít bộ nhớ CUDA hơn đáng kể trong quá trình đào tạo so với các bộ dò dựa trên Transformer như RT-DETR.

Link to this sectionCác ứng dụng thực tế và trường hợp sử dụng lý tưởng#

Link to this sectionKhi nào nên dùng DAMO-YOLO#

DAMO-YOLO lý tưởng cho suy luận biên có lưu lượng cao, nơi độ trễ là nút thắt cổ chai cuối cùng. Các biến thể nhỏ của nó vượt trội trong các môi trường như hệ thống quản lý giao thông hoặc giám sát bằng drone cơ bản, với điều kiện đội ngũ kỹ thuật của bạn có đủ năng lực để quản lý các quy trình chưng cất và re-parameterization phức tạp của nó.

Link to this sectionKhi nào sử dụng PP-YOLOE+#

PP-YOLOE+ tỏa sáng khi bạn đã đầu tư sâu vào hệ sinh thái Baidu hoặc đang thực hiện các triển khai máy chủ quy mô lớn. Điểm mAP ấn tượng của nó làm cho nó phù hợp cho phân tích hình ảnh y tế phức tạp hoặc phát hiện lỗi sản xuất dày đặc.

Link to this sectionLợi thế từ Ultralytics#

Mặc dù cả DAMO-YOLO và PP-YOLOE+ đều mang lại những ưu điểm cục bộ cụ thể, các nhà phát triển tìm kiếm sự linh hoạt, tốc độ và tính dễ sử dụng tối đa luôn chuyển sang Nền tảng Ultralytics.

Khi nâng cấp pipeline thị giác máy tính của bạn, Ultralytics YOLO26 mang đến trải nghiệm nhà phát triển vô song:

  • Suy luận CPU nhanh hơn tới 43%: Với việc loại bỏ hoàn toàn Distribution Focal Loss (DFL), YOLO26 hoạt động cực nhanh trên các CPU biên và thiết bị IoT công suất thấp.
  • Cải thiện phát hiện đối tượng nhỏ: Việc tích hợp các hàm mất mát ProgLoss và STAL mang lại những cải tiến đáng kể trong việc nhận diện đối tượng nhỏ, rất quan trọng đối với hình ảnh trên không.
  • Tính linh hoạt mở rộng: Không giống như PP-YOLOE+ chỉ tập trung nghiêm ngặt vào phát hiện, YOLO26 xử lý mượt mà ước tính tư thế, khung bao có hướng (OBB) và phân đoạn ngữ nghĩa với những cải tiến kiến trúc dành riêng cho tác vụ.

Link to this sectionKết luận#

DAMO-YOLO và PP-YOLOE+ đại diện cho những cột mốc quan trọng trong sự phát triển của phát hiện đối tượng không cần neo (anchor-free). DAMO-YOLO đã đẩy giới hạn của việc tìm kiếm kiến trúc thần kinh cho độ trễ biên, trong khi PP-YOLOE+ đã chứng minh sức mạnh của việc tiền đào tạo quy mô lớn.

Tuy nhiên, đối với các nhà phát triển đang tìm kiếm sự cân bằng tốt nhất về tốc độ, độ chính xác và sự đơn giản trong triển khai, mô hình Ultralytics YOLO26 là lựa chọn dứt khoát. Kiến trúc không cần NMS, API Python mạnh mẽ và khả năng tích hợp liền mạch với các công cụ như Weights & BiasesTensorRT đảm bảo các dự án của bạn chuyển đổi mượt mà từ nguyên mẫu sang sản xuất.

Sẵn sàng bắt đầu? Khám phá Hướng dẫn nhanh Ultralytics hoặc so sánh thêm các mô hình trong phần tổng quan YOLO11 vs DAMO-YOLO của chúng tôi.

Những người đóng góp

Bình luận