Chuyển đến nội dung

DAMO-YOLO so với PP-YOLOE+: So sánh kỹ thuật

Việc lựa chọn kiến trúc phát hiện đối tượng tối ưu là một quyết định then chốt ảnh hưởng đến hiệu quả, độ chính xác và khả năng mở rộng của các dự án thị giác máy tính. Bài so sánh toàn diện này phân tích hai mô hình nổi bật: DAMO- YOLO , một bộ phát hiện tập trung vào tốc độ của Alibaba, và PP-YOLOE+ , một mô hình có độ chính xác cao của Baidu. PaddlePaddle hệ sinh thái. Chúng tôi nghiên cứu sâu về kiến trúc độc đáo, số liệu hiệu suất và kịch bản triển khai lý tưởng của họ để giúp các nhà phát triển đưa ra lựa chọn sáng suốt.

DAMO- YOLO : Đổi mới hướng đến tốc độ từ Alibaba

DAMO- YOLO , do Tập đoàn Alibaba phát triển, là một bước tiến đáng kể trong việc phát hiện đối tượng hiệu quả. Công nghệ này ưu tiên sự cân bằng giữa tốc độ và độ chính xác, tận dụng các kỹ thuật tiên tiến như Tìm kiếm Kiến trúc Nơ-ron (NAS) để tối ưu hóa hiệu suất trên các thiết bị hạn chế về tài nguyên.

Chi tiết kỹ thuật:

Tìm hiểu thêm về DAMO-YOLO

Kiến trúc và các tính năng chính

DAMO- YOLO tự phân biệt mình thông qua triết lý thiết kế mô-đun tích hợp một số công nghệ tiên tiến:

  • Xương sống MAE-NAS: Không giống như các mô hình truyền thống sử dụng xương sống tiêu chuẩn như ResNet, DAMO- YOLO sử dụng xương sống được phát hiện thông qua Tìm kiếm Kiến trúc Nơ-ron (NAS). Điều này tạo ra một cấu trúc được tối ưu hóa về mặt toán học để trích xuất tính năng hiệu quả.
  • RepGFPN hiệu quả: Mô hình sử dụng Mạng Kim tự tháp Đặc trưng Tổng quát (GFPN) được tăng cường bằng kỹ thuật tham số hóa lại (Rep). Kiến trúc cổ này cải thiện khả năng hợp nhất đặc trưng trên nhiều thang đo khác nhau đồng thời giảm thiểu độ trễ trong quá trình suy luận.
  • Công nghệ ZeroHead: Một tính năng nổi bật là thiết kế "ZeroHead", giúp giảm đáng kể gánh nặng tính toán của đầu phát hiện . Bằng cách tách biệt các tác vụ phân loại và hồi quy hiệu quả hơn, công nghệ này giúp tiết kiệm tham số mà không làm giảm độ chính xác.
  • Gán nhãn AlignedOTA: Trong quá trình đào tạo, DAMO- YOLO sử dụng AlignedOTA, một chiến lược gán nhãn động đảm bảo sự liên kết tốt hơn giữa các mục tiêu phân loại và hồi quy, dẫn đến sự hội tụ nhanh hơn.

Chưng cất cho các mô hình nhỏ gọn

DAMO- YOLO tận dụng mạnh mẽ phương pháp Chắt lọc Kiến thức cho các biến thể nhỏ hơn (Tiny, Small). Bằng cách chuyển kiến thức từ mô hình "giáo viên" lớn hơn sang mô hình "học sinh" nhỏ hơn, phương pháp này đạt được độ chính xác cao hơn so với các kiến trúc nhẹ thông thường.

PP-YOLOE+: Kỹ thuật chính xác trong PaddlePaddle

PP-YOLOE+ là sự tiến hóa của PP- YOLO Dòng sản phẩm này do các nhà nghiên cứu Baidu phát triển. Đây là một máy dò một tầng, không cần neo, được thiết kế để mở rộng ranh giới độ chính xác trên các chuẩn mực như tập dữ liệu COCO , được tối ưu hóa đặc biệt cho PaddlePaddle khuôn khổ học sâu.

Chi tiết kỹ thuật:

Tìm hiểu thêm về PP-YOLOE+

Kiến trúc và các tính năng chính

PP-YOLOE+ tập trung vào các thành phần tinh tế và có độ chính xác cao:

  • Cơ chế không có điểm neo: Bằng cách áp dụng phương pháp không có điểm neo , PP-YOLOE+ đơn giản hóa bối cảnh siêu tham số, loại bỏ nhu cầu thiết kế hộp neo theo cách thủ công.
  • CSPRepResNet: Xương sống kết hợp các mạng Cross Stage Partial (CSPNet) với các khối dư được tham số hóa lại, cung cấp trình trích xuất tính năng mạnh mẽ giúp cân bằng luồng gradient và chi phí tính toán.
  • Học tập căn chỉnh nhiệm vụ (TAL): Phương pháp này căn chỉnh rõ ràng điểm phân loại với chất lượng bản địa hóa ( IoU ), đảm bảo rằng các phát hiện có độ tin cậy cao cũng có hộp giới hạn chất lượng cao.
  • ET-Head: Đầu hiệu quả liên kết với nhiệm vụ (ET-Head) tối ưu hóa hơn nữa việc tách biệt các nhiệm vụ phân loại và định vị, góp phần nâng cao hiệu suất của mô hình mAP điểm số.

Phân tích hiệu suất: Số liệu và hiệu quả

Khi so sánh DAMO- YOLO và PP-YOLOE+, sự đánh đổi thường nằm giữa tốc độ suy luận thuần túy và độ chính xác tuyệt đối. DAMO- YOLO được thiết kế để nhanh hơn GPU phần cứng, trong khi PP-YOLOE+ hướng tới độ chính xác cao nhất, thường phải đánh đổi bằng kích thước mô hình và FLOP tăng lên.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Điểm mạnh và Điểm yếu

DAMO- YOLO :

  • Điểm mạnh: Tốc độ suy luận thời gian thực vượt trội, lý tưởng cho việc xử lý video và triển khai tại các khu vực biên, nơi độ trễ là yếu tố quan trọng. Kiến trúc dựa trên NAS đảm bảo sử dụng tài nguyên hiệu quả.
  • Điểm yếu: Việc triển khai bị ràng buộc chặt chẽ với các cơ sở mã nghiên cứu cụ thể, có thể khó tích hợp vào các quy trình sản xuất tiêu chuẩn hơn so với các thư viện đã được thiết lập.

PP-YOLOE+:

  • Điểm mạnh: Độ chính xác rất cao, đặc biệt là với biến thể 'x' (cực lớn). Sự tích hợp với PaddlePaddle hệ sinh thái cung cấp một bộ công cụ toàn diện cho người dùng đã có trong môi trường đó.
  • Điểm yếu: Phụ thuộc nhiều hơn vào PaddlePaddle Khung có thể là rào cản đối với các nhóm được chuẩn hóa trên PyTorch . Nhìn chung, nó yêu cầu nhiều tham số hơn để có tốc độ suy luận tương tự so với DAMO- YOLO .

Các trường hợp và ứng dụng sử dụng

Sự khác biệt về kiến trúc quyết định trường hợp sử dụng lý tưởng cho từng mô hình:

  • DAMO- YOLO nổi trội trong lĩnh vực Trí tuệ nhân tạo biên (Edge AI)Robot . Độ trễ thấp của nó hoàn hảo cho máy bay không người lái hoặc robot di động tự động (AMR) cần xử lý dữ liệu hình ảnh ngay lập tức để định hướng môi trường hoặc tránh chướng ngại vật.
  • PP-YOLOE+ rất phù hợp cho Kiểm tra Công nghiệpPhân tích Chi tiết . Trong các tình huống như kiểm soát chất lượng sản xuất hoặc phân tích hình ảnh y tế , việc bỏ sót một lỗi nhỏ sẽ tốn kém hơn so với thời gian suy luận chậm hơn một chút, thì phương pháp cao hơn mAP của PP-YOLOE+ có giá trị.

Lợi thế của Ultralytics: Tại sao nên chọn YOLO11?

Trong khi cả DAMO- YOLO và PP-YOLOE+ mang lại những lợi ích cụ thể, Ultralytics YOLO11 cung cấp giải pháp toàn diện cân bằng giữa hiệu suất, khả năng sử dụng và hỗ trợ hệ sinh thái. Đối với hầu hết các nhà phát triển, YOLO11 đại diện cho sự lựa chọn thiết thực và mạnh mẽ nhất để đưa công nghệ thị giác máy tính vào sản xuất.

Tìm hiểu thêm về YOLO11

Tính linh hoạt và hệ sinh thái vô song

Không giống như các máy dò chuyên dụng, YOLO11 là một công cụ đa phương thức mạnh mẽ. Nó hỗ trợ một loạt các tác vụ bao gồm phát hiện đối tượng , phân đoạn thực thể , ước tính tư thế , phân loại và phát hiện hộp giới hạn định hướng (OBB) — tất cả trong một khuôn khổ thống nhất duy nhất.

  • Dễ sử dụng: Ultralytics ưu tiên trải nghiệm của nhà phát triển với giao diện đơn giản, trực quan Python API. Bạn có thể đào tạo, xác thực và triển khai các mô hình chỉ trong vài dòng mã, giúp giảm đáng kể thời gian phát triển so với các cấu hình phức tạp thường được yêu cầu bởi các mô hình hướng đến nghiên cứu.
  • Cân bằng hiệu suất: YOLO11 đạt được độ chính xác tiên tiến với tốc độ vượt trội. Nó được tối ưu hóa để chạy hiệu quả trên nhiều phần cứng khác nhau, từ GPU đám mây mạnh mẽ đến các thiết bị biên như NVIDIA Jetson , sử dụng ít bộ nhớ hơn so với nhiều giải pháp thay thế dựa trên máy biến áp.
  • Hiệu quả đào tạo: Khung này bao gồm các quy trình đào tạo được tối ưu hóa và một thư viện đồ sộ các trọng số được đào tạo sẵn. Điều này cho phép tinh chỉnh nhanh chóng các tập dữ liệu tùy chỉnh, tiết kiệm chi phí tính toán và thời gian.

Quy trình làm việc hợp lý

Các Ultralytics Hệ sinh thái được thiết kế để chuyển đổi liền mạch từ nghiên cứu sang sản xuất. Với việc bảo trì tích cực, cập nhật thường xuyên và tích hợp với các công cụ như TensorRT Và OpenVINO , các nhà phát triển có thể triển khai mô hình một cách tự tin.

Ví dụ: Chạy YOLO11 với Python

Bắt đầu với YOLO11 rất đơn giản. Đoạn mã sau đây minh họa cách tải một mô hình đã được đào tạo trước và chạy suy luận trên một hình ảnh:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on a local image source
results = model("path/to/image.jpg")

# Display the inference results
results[0].show()

Sự đơn giản này, kết hợp với hiệu suất mạnh mẽ, làm cho Ultralytics YOLO11 sự lựa chọn ưu tiên cho các nhà phát triển muốn xây dựng các giải pháp AI có khả năng mở rộng và bảo trì.

Kết luận

Cả DAMO- YOLO và PP-YOLOE+ đã đóng góp đáng kể vào lĩnh vực thị giác máy tính. DAMO- YOLO chứng minh sức mạnh của Tìm kiếm Kiến trúc Thần kinh về hiệu quả, trong khi PP-YOLOE+ làm nổi bật độ chính xác có thể có với các thiết kế không có mỏ neo trong PaddlePaddle hệ sinh thái.

Tuy nhiên, đối với một giải pháp linh hoạt, sẵn sàng cho sản xuất, mang lại sự cân bằng tối ưu giữa tốc độ, độ chính xác và tính dễ sử dụng, Ultralytics YOLO11 vẫn là lựa chọn hàng đầu. Khả năng hỗ trợ toàn diện cho nhiều tác vụ thị giác, dung lượng bộ nhớ thấp và tài liệu hướng dẫn chi tiết giúp các nhà phát triển đổi mới nhanh hơn và hiệu quả hơn.

Khám Phá Các So Sánh Khác


Bình luận