PP-YOLOE+ so với DAMO- YOLO : So sánh kỹ thuật
Việc lựa chọn mô hình phát hiện đối tượng tối ưu là một bước then chốt trong việc phát triển các ứng dụng thị giác máy tính hiệu quả. Nó liên quan đến việc cân nhắc những đánh đổi phức tạp giữa độ chính xác, độ trễ suy luận và các hạn chế về phần cứng. Bài so sánh kỹ thuật này khám phá hai mô hình nổi bật từ các gã khổng lồ công nghệ châu Á: PP-YOLOE+ , được phát triển bởi Baidu. PaddlePaddle và DAMO- YOLO , được thiết kế bởi Tập đoàn Alibaba. Cả hai mô hình đều thể hiện những bước tiến đáng kể trong quá trình phát triển các máy dò thời gian thực, mang đến những cải tiến độc đáo về kiến trúc và hiệu suất.
Khi phân tích các mô hình này, việc xem xét toàn cảnh AI thị giác sẽ rất hữu ích. Các giải pháp như Ultralytics YOLO11 cung cấp một giải pháp thay thế hấp dẫn, mang lại hiệu suất tiên tiến, tập trung vào khả năng sử dụng và một hệ sinh thái mạnh mẽ, không phụ thuộc vào khuôn khổ.
So sánh các chỉ số hiệu suất
Bảng sau đây trình bày sự so sánh trực tiếp các số liệu hiệu suất chính, bao gồm Độ chính xác trung bình ( mAP ) , tốc độ suy luận trên GPU T4 sử dụng TensorRT , số lượng tham số và độ phức tạp tính toán (FLOP).
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
PP-YOLOE+: Độ chính xác được cải thiện trong hệ sinh thái mái chèo
PP-YOLOE+ là phiên bản nâng cấp của PP-YOLOE, đại diện cho máy dò không neo một tầng hàng đầu của Baidu. Được ra mắt vào năm 2022 như một phần của bộ PaddleDetection , nó nhấn mạnh vào khả năng phát hiện có độ chính xác cao và được tối ưu hóa sâu sắc cho PaddlePaddle khuôn khổ học sâu .
Chi tiết kỹ thuật:
- Tác giả: Các tác giả của PaddlePaddle
- Tổ chức: Baidu
- Date: 2022-04-02
- Arxiv:https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/ PaddlePaddle /PaddleDetection/
- Tài liệu: Tài liệu PP-YOLOE+
Kiến trúc và Công nghệ cốt lõi
PP-YOLOE+ tích hợp một số thành phần tiên tiến để hợp lý hóa quy trình phát hiện đồng thời tăng cường độ chính xác .
- Cơ chế không mỏ neo (Anchor-Free): Bằng cách loại bỏ các khung neo (anchor box) được xác định trước, mô hình giảm độ phức tạp của việc điều chỉnh siêu tham số và tăng tốc độ hội tụ huấn luyện, một xu hướng được thấy trong nhiều kiến trúc hiện đại.
- Xương sống CSPRepResNet: Mô hình sử dụng xương sống CSPRepResNet, kết hợp lợi ích của luồng gradient của mạng Cross Stage Partial (CSP) với hiệu quả suy luận của các khối ResNet được tham số hóa lại.
- Học Căn chỉnh Nhiệm vụ (TAL): Để giải quyết sự khác biệt giữa độ tin cậy phân loại và chất lượng định vị, PP-YOLOE+ sử dụng TAL. Chiến lược gán nhãn động này đảm bảo các dự đoán chất lượng cao nhất được ưu tiên trong quá trình huấn luyện.
- Đầu hiệu quả theo nhiệm vụ (ET-Head): Đầu phát hiện tách rời tách biệt các tính năng phân loại và hồi quy, cho phép tối ưu hóa từng nhiệm vụ một cách độc lập mà không bị nhiễu.
Sự phụ thuộc vào hệ sinh thái
PP-YOLOE+ có nguồn gốc từ PaddlePaddle . Mặc dù có hiệu quả cao trong môi trường đó, người dùng quen thuộc với PyTorch có thể tìm thấy sự chuyển đổi và công cụ (chẳng hạn như paddle2onnx (để xuất khẩu) đòi hỏi phải học thêm so với người bản xứ PyTorch các mô hình.
Điểm mạnh và Điểm yếu
Điểm mạnh: PP-YOLOE+ tỏa sáng trong các tình huống ưu tiên độ chính xác thô. Các biến thể 'trung bình', 'lớn' và 'cực lớn' thể hiện sự mạnh mẽ mAP điểm số trên tập dữ liệu COCO , khiến chúng phù hợp với các nhiệm vụ kiểm tra chi tiết như kiểm soát chất lượng công nghiệp .
Điểm yếu:
Hạn chế chính là sự kết hợp khung của nó. Các công cụ, đường dẫn triển khai và tài nguyên cộng đồng chủ yếu tập trung vào PaddlePaddle , có thể là điểm gây tranh cãi cho các nhóm được thành lập trong PyTorch hoặc TensorFlow hệ sinh thái. Ngoài ra, số lượng tham số cho các mô hình nhỏ hơn của nó (như s) có hiệu quả đáng kể, nhưng các mô hình lớn hơn của nó có thể tốn nhiều tài nguyên tính toán.
DAMO- YOLO : Đổi mới hướng đến tốc độ từ Alibaba
DAMO- YOLO , được Tập đoàn Alibaba giới thiệu vào cuối năm 2022, nhắm đến điểm cân bằng giữa độ trễ thấp và hiệu suất cao. Công nghệ này tận dụng Tìm kiếm Kiến trúc Nơ-ron (NAS) mở rộng để tự động khám phá các cấu trúc hiệu quả.
Chi tiết kỹ thuật:
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức: Tập đoàn Alibaba
- Ngày: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444
- GitHub: https://github.com/tinyvision/DAMO- YOLO
- Tài liệu: Tài liệu DAMO- YOLO
Kiến trúc và các tính năng chính
DAMO- YOLO được đặc trưng bởi khả năng tối ưu hóa mạnh mẽ cho tốc độ suy luận .
- Xương sống MAE-NAS: Thay vì tự tay tạo trình trích xuất tính năng, các tác giả đã sử dụng Method-Aware Efficient NAS để tạo ra các xương sống với độ sâu và độ rộng khác nhau, tối ưu hóa cho các ngân sách tính toán cụ thể.
- RepGFPN hiệu quả: Kiến trúc cổ, Mạng kim tự tháp tính năng tổng quát (GFPN), sử dụng tham số hóa lại để tối đa hóa hiệu quả hợp nhất tính năng đồng thời giảm thiểu độ trễ trên phần cứng.
- Công nghệ ZeroHead: Một tính năng nổi bật là "ZeroHead", giúp đơn giản hóa các lớp dự đoán cuối cùng để giảm đáng kể FLOP , để lại phần nặng cho phần xương sống và phần cổ.
- AlignedOTA: Chiến lược gán nhãn này căn chỉnh các mục tiêu phân loại và hồi quy, đảm bảo rằng các mẫu "tích cực" được chọn trong quá trình huấn luyện đóng góp hiệu quả nhất vào loss cuối cùng.
Điểm mạnh và Điểm yếu
Điểm mạnh: DAMO- YOLO cực kỳ nhanh. Các mô hình 'nhỏ' và 'nhỏ xíu' của nó mang lại ấn tượng mAP nhờ tốc độ vượt trội, vượt trội hơn nhiều đối thủ trong các tình huống suy luận thời gian thực . Điều này khiến nó trở nên lý tưởng cho các ứng dụng AI biên, nơi độ trễ tính bằng mili giây là yếu tố quan trọng, chẳng hạn như máy bay không người lái tự động hoặc giám sát giao thông.
Điểm yếu: Là một bản phát hành tập trung vào nghiên cứu, DAMO- YOLO có thể thiếu các công cụ triển khai được trau chuốt và tài liệu hướng dẫn chi tiết thường thấy ở các dự án lớn hơn. Việc phụ thuộc vào các cấu trúc NAS cụ thể cũng có thể khiến việc tùy chỉnh và tinh chỉnh trở nên phức tạp hơn đối với người dùng muốn sửa đổi kiến trúc.
Các Ultralytics Ưu điểm: Tại sao YOLO11 là sự lựa chọn tuyệt vời
Trong khi PP-YOLOE+ và DAMO- YOLO cung cấp các tính năng cạnh tranh trong phân khúc tương ứng, Ultralytics YOLO11 nổi bật là giải pháp cân bằng, linh hoạt và thân thiện với nhà phát triển nhất cho thị giác máy tính hiện đại.
Sự dễ sử dụng và hệ sinh thái vô song
Ultralytics đã dân chủ hóa AI bằng cách ưu tiên trải nghiệm người dùng. Không giống như các kho lưu trữ nghiên cứu có thể yêu cầu thiết lập phức tạp, YOLO11 có thể truy cập thông qua cài đặt pip đơn giản và trực quan Python API. Hệ sinh thái Ultralytics được duy trì tích cực, đảm bảo khả năng tương thích với phần cứng mới nhất (như NVIDIA Jetson, chip Apple M-series) và thư viện phần mềm.
Cân bằng hiệu suất tối ưu
YOLO11 được thiết kế để mang lại độ chính xác tiên tiến mà không ảnh hưởng đến tốc độ. Độ chính xác của nó thường ngang bằng hoặc vượt trội hơn các mô hình như PP-YOLOE+, đồng thời vẫn duy trì hiệu quả suy luận cần thiết cho các ứng dụng thời gian thực. Sự cân bằng này rất quan trọng đối với các triển khai thực tế, nơi cả độ chính xác và thông lượng đều không thể thương lượng.
Hiệu quả và tính linh hoạt
Một trong những lợi thế chính của Ultralytics mô hình là tính linh hoạt của chúng. Trong khi DAMO- YOLO và PP-YOLOE+ chủ yếu tập trung vào phát hiện đối tượng, một YOLO11 kiến trúc mô hình hỗ trợ:
- Phát Hiện Đối Tượng
- Phân đoạn thực thể
- Phân loại hình ảnh
- Ước tính tư thế
- Hộp giới hạn xoay (Oriented Bounding Boxes - OBB)
Hơn nữa, YOLO11 được tối ưu hóa cho các yêu cầu bộ nhớ thấp hơn trong quá trình đào tạo và suy luận so với nhiều giải pháp thay thế dựa trên máy biến áp hoặc cũ hơn YOLO phiên bản. Hiệu quả này cho phép các nhà phát triển đào tạo kích thước lô lớn hơn trên GPU tiêu chuẩn và triển khai trên các thiết bị biên bị hạn chế hơn.
Hiệu quả đào tạo
Với trọng số được đào tạo sẵn và quy trình đào tạo được tối ưu hóa, người dùng có thể đạt được hiệu suất cao trên các tập dữ liệu tùy chỉnh với thời gian đào tạo tối thiểu.
Ví dụ: Chạy YOLO11
Việc triển khai các khả năng tầm nhìn tiên tiến rất đơn giản với Ultralytics .
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Perform object detection on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
results[0].show()
Kết luận
Cả PP-YOLOE+ và DAMO- YOLO là những đóng góp đáng kể cho lĩnh vực thị giác máy tính. PP-YOLOE+ là một ứng cử viên sáng giá cho người dùng gắn chặt với hệ sinh thái PaddlePaddle , đòi hỏi độ chính xác cao. DAMO- YOLO cung cấp các lựa chọn kiến trúc sáng tạo để tối đa hóa tốc độ trên các thiết bị biên .
Tuy nhiên, đối với đại đa số các nhà phát triển và doanh nghiệp, Ultralytics YOLO11 vẫn là lựa chọn được khuyến nghị. Sự kết hợp giữa hỗ trợ PyTorch gốc, tính linh hoạt đa tác vụ, tài liệu hướng dẫn vượt trội và cộng đồng hỗ trợ tích cực giúp rút ngắn đáng kể thời gian đưa các giải pháp AI ra thị trường. Cho dù bạn đang xây dựng hệ thống báo động an ninh hay quy trình kiểm soát chất lượng sản xuất , YOLO11 cung cấp độ tin cậy và hiệu suất cần thiết cho sự thành công.