Chuyển đến nội dung

DAMO- YOLO So sánh với PP-YOLOE+: Phân tích chuyên sâu về mặt kỹ thuật phát hiện đối tượng trong công nghiệp

Trong lĩnh vực cạnh tranh của phát hiện vật thể thời gian thực, hai mô hình đã nổi lên như những cột mốc quan trọng cho ứng dụng công nghiệp: DAMO- YOLO , được phát triển bởi Tập đoàn Alibaba, và PP-YOLOE+ , bộ dò hàng đầu của Baidu. PaddlePaddle hệ sinh thái. Cả hai kiến ​​trúc đều ưu tiên sự cân bằng giữa tốc độ suy luận và độ chính xác phát hiện, nhưng chúng đạt được những mục tiêu này thông qua các triết lý kỹ thuật rất khác nhau.

Hướng dẫn toàn diện này phân tích những đổi mới về kiến ​​trúc của chúng, so sánh các chỉ số hiệu năng và giới thiệu Ultralytics YOLO26 , một mô hình thế hệ tiếp theo định nghĩa lại các tiêu chuẩn về tính dễ sử dụng và triển khai tại biên.

Tổng quan về DAMO-YOLO

DAMO- YOLO (Mô hình tăng cường chưng cất) được giới thiệu nhằm đẩy giới hạn hiệu năng bằng cách tận dụng thiết kế kiến ​​trúc tự động và các kỹ thuật huấn luyện tiên tiến.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 23 tháng 11 năm 2022
Arxiv: Bài báo DAMO- YOLO
GitHub: tinyvision/DAMO- YOLO

Đổi mới Kiến trúc

DAMO- YOLO Nó khác biệt so với thiết kế thủ công truyền thống bằng cách tích hợp Tìm kiếm Kiến trúc Thần kinh (NAS) . Các thành phần cốt lõi của nó bao gồm:

  • Cấu trúc xương sống MAE-NAS: Cấu trúc xương sống được tự động phát hiện bằng Phương pháp các cạnh phụ trợ (MAE-NAS) để tối đa hóa thông lượng trong điều kiện độ trễ cụ thể.
  • RepGFPN: Một thiết kế mạng nặng dựa trên Mạng Kim tự tháp Đặc trưng Tổng quát (GFPN). Nó sử dụng kích thước kênh khác nhau trên các cấp độ tỷ lệ để tối ưu hóa việc kết hợp đặc trưng mà không tốn nhiều chi phí tính toán như các mạng BiFPN thông thường.
  • ZeroHead: Một đầu phát hiện nhẹ giúp giảm thiểu độ phức tạp của các lớp dự đoán cuối cùng, tiết kiệm những mili giây quý giá trong quá trình suy luận.
  • AlignedOTA: Một chiến lược gán nhãn được cải tiến giúp giải quyết các vấn đề không khớp giữa nhiệm vụ phân loại và hồi quy trong quá trình huấn luyện.

Điểm mạnh và Điểm yếu

Điểm mạnh chính của DAMO- YOLO Điểm mạnh của nó nằm ở thiết kế hướng đến độ trễ . Bằng cách sử dụng NAS, nó tối ưu hóa độ chính xác tối đa từ một ngân sách tính toán cụ thể. Tuy nhiên, sự phức tạp này có thể là con dao hai lưỡi; kiến ​​trúc dựa trên NAS có thể khó sửa đổi hoặc tinh chỉnh cho các tập dữ liệu tùy chỉnh so với các kiến ​​trúc được thiết kế thủ công. Hơn nữa, việc dựa vào phương pháp chưng cất (trong đó một mô hình giáo viên lớn hướng dẫn học sinh) làm tăng thêm độ phức tạp cho quy trình huấn luyện.

Tổng quan về PP-YOLOE+

PP-YOLOE+ là phiên bản nâng cấp của PP-YOLOE, đóng vai trò là nền tảng của bộ phần mềm PaddleDetection. Nó tập trung mạnh vào tính linh hoạt trong triển khai trên nền tảng đám mây và biên.

Tác giả: PaddlePaddle Tác giả
Tổ chức: Baidu
Ngày: 2 tháng 4 năm 2022
Arxiv: Bài báo PP-YOLOE
GitHub: PaddlePaddle /PaddleDetection

Đổi mới Kiến trúc

PP-YOLOE+ được xây dựng dựa trên mô hình không cần neo, nhấn mạnh vào sự tinh chỉnh và ổn định trong huấn luyện:

  • CSPRepResStage: Kiến trúc xương sống sử dụng cấu trúc CSP (Cross Stage Partial) có khả năng mở rộng với các khối dư có thể tái tham số hóa, cho phép trích xuất đặc trưng phức tạp trong quá trình huấn luyện và đơn giản hóa các thao tác trong quá trình suy luận.
  • Học căn chỉnh nhiệm vụ (TAL): Một lược đồ gán nhãn động, căn chỉnh rõ ràng các điểm neo với các đối tượng thực tế dựa trên cả điểm phân loại và IoU (Giao điểm trên hợp nhất).
  • Cơ chế nén và kích thích hiệu quả (Effective Squeeze-and-Excitation - ESE): Một cơ chế chú ý được tích hợp vào hệ thống xử lý tín hiệu chính để tăng cường khả năng biểu diễn đặc trưng bằng cách hiệu chỉnh lại phản hồi đặc trưng theo từng kênh.

Điểm mạnh và Điểm yếu

PP-YOLOE+ vượt trội trong việc tích hợp hệ sinh thái . Là một phần của... PaddlePaddle Khung phần mềm này hỗ trợ mạnh mẽ nhiều mục tiêu triển khai khác nhau, bao gồm GPU phía máy chủ và thiết bị di động. Tuy nhiên, hiệu năng của nó trên các thiết bị tiêu chuẩn vẫn còn hạn chế. PyTorch Quy trình làm việc có thể bị cản trở bởi việc cần phải chuyển đổi mô hình hoặc thích ứng với cú pháp cụ thể của hệ thống. PaddlePaddle hệ sinh thái này có thể gây khó khăn cho các nhà phát triển đã quen với các quy trình PyTorch tiêu chuẩn.

So sánh hiệu suất

Bảng sau đây nêu bật sự khác biệt về hiệu năng giữa hai mô hình trên tập dữ liệu COCO .

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Phân tích

  • Mô hình nhỏ (Nano/Siêu nhỏ): DAMO- YOLO thường mang lại độ chính xác cao hơn ( mAP ) đối với các biến thể nhỏ gọn, thể hiện hiệu quả của kiến ​​trúc xương sống được tối ưu hóa cho NAS trong môi trường hạn chế. Tuy nhiên, PP-YOLOE+t có số lượng tham số ít hơn đáng kể (4,85 triệu so với 8,5 triệu), điều này có thể phù hợp hơn với các thiết bị có dung lượng lưu trữ cực kỳ hạn chế.
  • Mô hình cỡ trung bình đến lớn: Khi kích thước mô hình tăng lên, PP-YOLOE+ có xu hướng mở rộng tốt hơn về độ chính xác, vượt trội hơn DAMO-. YOLO trong các hạng mục Trung bình và Lớn (ví dụ: 52,9) mAP so với 50,8 mAP (Đối với cỡ lớn).
  • Tốc độ suy luận: DAMO- YOLO PP-YOLOE+s thể hiện độ trễ vượt trội trên TensorRT đối với hầu hết các kích thước, chứng minh tính đúng đắn của kiến ​​trúc "ưu tiên độ trễ" trong việc tìm kiếm giải pháp. Ngược lại, PP-YOLOE+s cho thấy tốc độ hiệu quả đáng ngạc nhiên (2,62ms), khiến nó trở thành ứng cử viên sáng giá cho các ứng dụng thời gian thực cụ thể.

Lợi thế của Ultralytics: YOLO26

Trong khi DAMO- YOLO Trong khi PP-YOLOE+ cung cấp các tính năng hấp dẫn cho các phân khúc cụ thể, Ultralytics YOLO26 đại diện cho bước tiến hóa tiếp theo trong lĩnh vực thị giác máy tính, khắc phục những hạn chế của cả hai thế hệ tiền nhiệm thông qua những thay đổi kiến ​​trúc triệt để và cải tiến về khả năng sử dụng.

Tìm hiểu thêm về YOLO26

Vì sao YOLO26 là sự lựa chọn vượt trội?

  1. Thiết kế hoàn chỉnh từ đầu đến cuối không cần hệ quản lý mạng NMS : Khác với PP-YOLOE+ và các phần mềm truyền thống. YOLO Đối với các biến thể yêu cầu lọc các hộp chồng chéo bằng Non-Maximum Suppression ( NMS ) , YOLO26 hỗ trợ giải pháp end-to-end từ đầu đến cuối. Điều này loại bỏ một nút thắt cổ chai lớn trong quá trình triển khai, giảm sự biến đổi độ trễ và đơn giản hóa quy trình xuất sang các định dạng như ONNX và... CoreML .
  2. Hiệu năng CPU vượt trội: Được tối ưu hóa đặc biệt cho điện toán biên, YOLO26 mang lại khả năng suy luận CPU nhanh hơn tới 43% so với các thế hệ trước. Điều này rất quan trọng đối với các ứng dụng chạy trên Raspberry Pi, điện thoại di động hoặc các máy chủ đám mây tiêu chuẩn nơi không có GPU.
  3. Tính ổn định huấn luyện nâng cao: YOLO26 tích hợp Trình tối ưu hóa MuSGD , một sự kết hợp giữa... SGD và Muon (lấy cảm hứng từ quá trình huấn luyện LLM), đảm bảo sự hội tụ nhanh hơn và các lần chạy huấn luyện ổn định hơn, ngay cả với các tập dữ liệu tùy chỉnh phức tạp.
  4. Kiến trúc đơn giản hóa: Việc loại bỏ tổn hao tiêu điểm phân tán (DFL) giúp đơn giản hóa cấu trúc mô hình, tăng cường khả năng tương thích với các thiết bị biên và bộ tăng tốc công suất thấp gặp khó khăn với các hàm tổn hao phức tạp.
  5. Hệ sinh thái toàn diện: Với Nền tảng Ultralytics , người dùng có được quyền truy cập vào một quy trình liền mạch để quản lý dữ liệu, đào tạo trên nền tảng đám mây và triển khai chỉ với một cú nhấp chuột.

Tính linh hoạt vượt trội không thể phát hiện

Không giống như DAMO- YOLO Tập trung chủ yếu vào phát hiện, YOLO26 hỗ trợ đầy đủ các tác vụ bao gồm Phân đoạn đối tượng , Ước tính tư thế , OBB (Hộp giới hạn định hướng) và Phân loại.

Dễ sử dụng

Một trong những đặc điểm nổi bật của Ultralytics models là trải nghiệm của nhà phát triển. Trong khi DAMO- YOLO Trong khi PP-YOLOE+ có thể yêu cầu các tệp cấu hình phức tạp hoặc kiến ​​thức chuyên biệt về framework, YOLO26 có thể được triển khai chỉ với vài dòng mã.

from ultralytics import YOLO

# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for deployment
model.export(format="onnx")

Các trường hợp sử dụng thực tế

  • Bán lẻ thông minh: Tận dụng tốc độ của YOLO26 để theo dõi tồn kho trên kệ hàng theo thời gian thực mà không tốn kém chi phí. GPU phần cứng.
  • Nông nghiệp: Tận dụng các chức năng ProgLoss + STAL để cải thiện khả năng nhận diện vật thể nhỏ, rất cần thiết để phát hiện sâu bệnh hoặc đếm số lượng cây trồng trong ảnh chụp từ máy bay không người lái.
  • Sản xuất: Triển khai NMS - Các mô hình miễn phí dành cho việc kiểm soát chất lượng tốc độ cao trên dây chuyền lắp ráp, nơi độ trễ ổn định là điều không thể thiếu.

Kết luận

Việc lựa chọn mô hình phù hợp phụ thuộc vào các yêu cầu cụ thể của bạn. DAMO- YOLO là một lựa chọn tuyệt vời để nghiên cứu về kiến ​​trúc và kịch bản NAS, ưu tiên các yêu cầu cụ thể. TensorRT Mục tiêu độ trễ. PP-YOLOE+ là một lựa chọn mạnh mẽ dành cho những người tích hợp sâu vào hệ sinh thái Baidu, yêu cầu độ chính xác cao trên phần cứng cấp máy chủ.

Tuy nhiên, đối với phần lớn các nhà phát triển và doanh nghiệp đang tìm kiếm một giải pháp có khả năng đáp ứng nhu cầu trong tương lai, dễ sử dụng và cực kỳ linh hoạt , Ultralytics YOLO26 nổi bật hơn cả. Thiết kế toàn diện và hiệu năng vượt trội của nó là điểm mạnh của sản phẩm này. CPU Hiệu năng vượt trội cùng sự hỗ trợ từ cộng đồng mã nguồn mở năng động khiến nó trở thành lựa chọn tối ưu cho các ứng dụng thị giác máy tính hiện đại.

Đối với người dùng quan tâm đến các tùy chọn tiên tiến khác, hãy tìm hiểu YOLO11 hoặc RT-DETR dựa trên bộ chuyển đổi trong [tài liệu tham khảo]. Ultralytics tài liệu.


Bình luận