Chuyển đến nội dung

DAMO- YOLO So sánh kỹ thuật chi tiết với PP-YOLOE+

Trong bối cảnh cạnh tranh khốc liệt của thị giác máy tính thời gian thực, việc lựa chọn kiến ​​trúc tối ưu cho nhu cầu triển khai cụ thể của bạn là vô cùng quan trọng. Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện giữa DAMO- YOLOPP-YOLOE+ , đi sâu vào thiết kế kiến ​​trúc, phương pháp huấn luyện và các chỉ số hiệu suất của chúng. Chúng ta cũng sẽ xem xét các mô hình này so sánh như thế nào với các giải pháp tiên tiến nhất hiện nay, chẳng hạn như giải pháp mới được phát hành. Ultralytics YOLO26.

Tổng quan về mô hình

Cả hai framework này đều xuất hiện vào năm 2022 như những lựa chọn thay thế mạnh mẽ cho các ứng dụng công nghiệp, tận dụng các kỹ thuật tiên tiến để nâng cao độ chính xác và tốc độ suy luận.

DAMO-YOLO

Được phát triển bởi Tập đoàn Alibaba , DAMO- YOLO Đã giới thiệu một số kỹ thuật mới để tối ưu hóa sự cân bằng giữa độ trễ và độ chính xác, chủ yếu dựa vào các kỹ thuật tìm kiếm tự động và kết hợp các tính năng nâng cao.

DAMO- YOLO Nó sử dụng thuật toán Tìm kiếm Kiến trúc Đa Quy mô (MAE-NAS) để tự động thiết kế các kiến ​​trúc xương sống được tối ưu hóa cho hiệu quả phần cứng. Nó cũng tích hợp mạng RepGFPN (Mạng Kim tự tháp Đặc trưng Tổng quát được Tham số hóa lại) hiệu quả để kết hợp các đặc trưng vùng cổ và thiết kế "ZeroHead" gọn nhẹ. Hơn nữa, nó dựa nhiều vào các kỹ thuật chưng cất trong quá trình huấn luyện để tăng cường sức mạnh biểu diễn của mô hình học viên.

Tìm hiểu thêm về DAMO-YOLO

PP-YOLOE+

Theo Baidu PaddlePaddle PP-YOLOE+ là bản nâng cấp tăng dần cho kiến ​​trúc PP-YOLOE. Nó tập trung vào huấn luyện trước quy mô lớn và các hàm mất mát được tinh chỉnh để mang lại hiệu suất cao. mAP đặc biệt là trong khuôn khổ học sâu vốn có của nó.

PP-YOLOE+ sử dụng kiến ​​trúc xương sống CSPRepResNet và đầu ET (Efficient Task-aligned head). Phiên bản "plus" giới thiệu chiến lược huấn luyện trước mạnh mẽ trên tập dữ liệu Objects365, giúp tăng cường đáng kể khả năng khái quát hóa trong nhiều môi trường thực tế khác nhau.

Tìm hiểu thêm về PP-YOLOE+

So sánh kiến trúc

Sự khác biệt về triết lý thiết kế giữa hai mẫu này ảnh hưởng rất lớn đến các trường hợp sử dụng lý tưởng và khả năng tương thích phần cứng của chúng.

Hợp nhất tính năng và cấu trúc xương sống

DAMO- YOLO Các kiến ​​trúc xương sống do MAE-NAS tạo ra được tùy chỉnh cao cho các thiết bị biên, thường cung cấp tỷ lệ tốc độ trên tham số thuận lợi. Tuy nhiên, các kiến ​​trúc tùy chỉnh này có thể cứng nhắc và phức tạp khi thích ứng với các tác vụ mới như phân đoạn đối tượng . Phần cổ RepGFPN cải thiện việc kết hợp các đặc trưng đa tỷ lệ nhưng làm tăng độ phức tạp trong giai đoạn xuất tham số lại.

PP-YOLOE+ dựa trên CSPRepResNet truyền thống nhưng hiệu quả cao. Mặc dù kiến ​​trúc mạng này yêu cầu số lượng tham số lớn hơn so với DAMO- YOLO Với độ chính xác tương tự, nó có độ ổn định cao trong quá trình huấn luyện và dễ dàng tích hợp vào các quy trình hiện có. Bộ xử lý ET của nó xử lý hiệu quả cả phân loại và hồi quy, nhưng vẫn yêu cầu các bước xử lý hậu kỳ như loại bỏ cực đại cục bộ (Non-Maximum Suppression). NMS ).

Loại bỏ sự chậm trễ trong quá trình xử lý hậu kỳ

Cả DAMO- YOLO và PP-YOLOE+ yêu cầu NMS để xử lý hậu kỳ các hộp giới hạn. Nếu độ trễ suy luận là yếu tố quan trọng, hãy cân nhắc sử dụng Ultralytics YOLO26 , sản phẩm có thiết kế hoàn toàn không cần NMS từ đầu đến cuối . Phương pháp đột phá này loại bỏ... NMS Xử lý hậu kỳ để có quy trình triển khai nhanh hơn và đơn giản hơn.

Phân tích hiệu suất và số liệu

Khi đánh giá các mô hình này để sản xuất, cần cân bằng giữa độ chính xác ( mAP Tốc độ suy luận và kích thước tham số là rất quan trọng. Dưới đây là bảng so sánh trực tiếp các biến thể chính của chúng.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Như bảng minh họa, DAMO- YOLO Nhìn chung, PP-YOLOE+ đạt được độ trễ thấp hơn ở quy mô nhỏ (s) và siêu nhỏ (t), nhờ vào kiến ​​trúc xương sống được tối ưu hóa cho NAS. Tuy nhiên, PP-YOLOE+ mở rộng quy mô cực kỳ tốt ở các cấp độ trung bình (m) và lớn (l), tự hào với hiệu suất cao hơn đáng kể. mAP điểm số, mặc dù phải trả giá bằng một chút cho T4. TensorRT tốc độ.

Yêu cầu bộ nhớ và hiệu quả huấn luyện

DAMO- YOLO Việc dựa vào phương pháp chưng cất có nghĩa là bạn thường cần huấn luyện một mô hình giáo viên lớn hơn nhiều trước khi huấn luyện mô hình học sinh nhỏ hơn. Điều này làm tăng đáng kể yêu cầu về bộ nhớ CUDA và ngân sách tính toán tổng thể. PP-YOLOE+ đơn giản hóa điều này bằng cách sử dụng huấn luyện một giai đoạn tiêu chuẩn nhưng vẫn liên kết chặt chẽ với... PaddlePaddle khuôn khổ này có thể hạn chế tính linh hoạt đối với các nhóm đã quen với PyTorch .

Ngược lại, mô hình Ultralytics YOLO26 hiện đại giải quyết được những điểm nghẽn này. Sử dụng trình tối ưu hóa MuSGD mới — một sự kết hợp giữa... SGD và Muon, lấy cảm hứng từ những cải tiến trong huấn luyện LLM—YOLO26 đạt được sự hội tụ nhanh hơn và quá trình huấn luyện ổn định cao mà không cần đến các quy trình chưng cất phức tạp. Ngoài ra, YOLO các mô hình thường yêu cầu ít hơn nhiều CUDA khả năng ghi nhớ trong quá trình huấn luyện so với các bộ dò dựa trên Transformer như RT-DETR .

Ứng dụng thực tế và các trường hợp sử dụng lý tưởng

Khi nào nên sử dụng DAMO-YOLO

DAMO- YOLO Nó lý tưởng cho việc suy luận biên có thông lượng cao, nơi độ trễ là nút thắt cổ chai cuối cùng. Các biến thể nhỏ hơn của nó hoạt động xuất sắc trong các môi trường như hệ thống quản lý giao thông hoặc giám sát máy bay không người lái cơ bản, miễn là nhóm kỹ thuật của bạn có đủ khả năng để quản lý các quy trình chưng cất và tái tham số hóa phức tạp của nó.

Khi nào nên sử dụng PP-YOLOE+

PP-YOLOE+ thực sự tỏa sáng khi bạn đã đầu tư sâu vào hệ sinh thái Baidu hoặc đang triển khai các hệ thống máy chủ quy mô lớn. Hiệu năng ấn tượng của nó mAP Điều này giúp nó phù hợp cho việc phân tích hình ảnh y tế phức tạp hoặc phát hiện các khuyết tật trong quá trình sản xuất với mật độ cao.

Lợi thế của Ultralytics

Trong khi cả DAMO- YOLO Và PP-YOLOE+ mang lại những lợi thế cụ thể phù hợp với từng khu vực, các nhà phát triển tìm kiếm sự linh hoạt, tốc độ và dễ sử dụng tối đa luôn lựa chọn Nền tảng Ultralytics .

Khi nâng cấp hệ thống xử lý hình ảnh máy tính của bạn, Ultralytics YOLO26 mang đến trải nghiệm phát triển vượt trội:

  • Suy luận CPU nhanh hơn tới 43%: Với việc loại bỏ hoàn toàn hiện tượng mất mát tiêu điểm phân tán (DFL), YOLO26 hoạt động cực kỳ nhanh trên các CPU biên và các thiết bị IoT công suất thấp.
  • Cải thiện khả năng phát hiện vật thể nhỏ: Việc tích hợp các hàm mất mát ProgLoss và STAL mang lại những cải tiến vượt bậc trong việc nhận dạng vật thể nhỏ, điều vô cùng quan trọng đối với ảnh chụp từ trên không .
  • Tính linh hoạt vượt trội: Không giống như PP-YOLOE+ chỉ tập trung vào phát hiện đối tượng, YOLO26 xử lý liền mạch việc ước lượng tư thế , hộp giới hạn định hướng (OBB) và phân đoạn ngữ nghĩa với những cải tiến kiến ​​trúc dành riêng cho từng tác vụ.

Kết luận

DAMO- YOLO và PP-YOLOE+ đại diện cho những cột mốc quan trọng trong sự phát triển của việc phát hiện đối tượng không cần neo. DAMO- YOLO Nó đã đẩy giới hạn của việc tìm kiếm kiến ​​trúc mạng nơ-ron về độ trễ cạnh, trong khi PP-YOLOE+ chứng minh sức mạnh của việc huấn luyện trước quy mô lớn.

Tuy nhiên, đối với các nhà phát triển đang tìm kiếm sự cân bằng tốt nhất giữa tốc độ, độ chính xác và tính đơn giản trong triển khai, mô hình Ultralytics YOLO26 là sự lựa chọn tối ưu. NMS - Kiến trúc miễn phí, mạnh mẽ Python API và khả năng tích hợp liền mạch với các công cụ như Weights & BiasesTensorRT đảm bảo các dự án của bạn chuyển đổi suôn sẻ từ giai đoạn nguyên mẫu sang sản phẩm hoàn chỉnh.

Sẵn sàng bắt đầu chưa? Khám phá Hướng dẫn Khởi động Nhanh Ultralytics hoặc so sánh thêm các mẫu khác trong bài tổng quan YOLO11 vs DAMO- YOLO của chúng tôi.


Bình luận