PP-YOLOE+ so với DAMO- YOLO So sánh kỹ thuật toàn diện
Sự phát triển không ngừng của thị giác máy tính đã tạo ra một loạt các kiến trúc chuyên biệt cao cho việc phát hiện đối tượng trong thời gian thực. Khi đánh giá các mô hình cho các ứng dụng công nghiệp và nghiên cứu, hai khung công tác nổi bật từ năm 2022 thường được nhắc đến: PP-YOLOE+ của Baidu và DAMO- YOLO của Alibaba Group. Cả hai mô hình này đều đã vượt qua giới hạn của việc phát hiện không cần điểm neo bằng cách giới thiệu các kiến trúc xương sống mới, các chiến lược gán nhãn tiên tiến và các kỹ thuật kết hợp đặc trưng chuyên biệt.
Hướng dẫn này cung cấp phân tích kỹ thuật chi tiết về PP-YOLOE+ và DAMO-. YOLO Chúng ta sẽ cùng tìm hiểu về kiến trúc, phương pháp đào tạo và thế mạnh triển khai của các framework này. Chúng ta cũng sẽ so sánh chúng với các giải pháp hiện đại như Ultralytics YOLO26 để giúp bạn lựa chọn công cụ phù hợp với các yêu cầu triển khai cụ thể của mình.
PP-YOLOE+: Phát hiện vật thể công nghiệp được cải tiến
Được phát triển trong hệ sinh thái Baidu , PP-YOLOE+ là một phiên bản cải tiến liên tục so với PP-YOLOE gốc, được tối ưu hóa mạnh mẽ cho... PaddlePaddle Khung học sâu. Nó được thiết kế để tối đa hóa độ chính xác và tốc độ suy luận trên phần cứng cấp máy chủ, khiến nó trở thành ứng cử viên sáng giá cho các ứng dụng kiểm tra công nghiệp và bán lẻ thông minh .
Đổi mới Kiến trúc
PP-YOLOE+ giới thiệu một số cải tiến về kiến trúc để nâng cao hiệu quả so với các bộ dò không cần neo trước đây:
- Kiến trúc mạng xương sống CSPRepResNet: Kiến trúc này sử dụng kiểu RepVGG kết hợp với các kết nối Cross Stage Partial (CSP), mang lại sự cân bằng tốt giữa khả năng trích xuất đặc trưng và độ trễ suy luận.
- Học tập căn chỉnh nhiệm vụ (TAL): PP-YOLOE+ sử dụng chiến lược gán nhãn động tiên tiến giúp căn chỉnh các nhiệm vụ phân loại và hồi quy trong quá trình huấn luyện, giảm khoảng cách giữa hiệu suất huấn luyện và suy luận.
- Đầu dò hiệu quả theo nhiệm vụ (ET-head): Một đầu dò được thiết kế tinh gọn để xử lý các đặc điểm nhanh chóng mà không làm giảm độ phân giải không gian, điều này rất có lợi cho việc duy trì các chỉ số mAP cao.
Chi tiết PP-YOLOE+:
- Tác giả: PaddlePaddle Authors
- Tổ chức: Baidu
- Ngày: 02-04-2022
- Arxiv: 2203.16250
- GitHub: PaddlePaddle /PaddleDetection
- Tài liệu: Tài liệu hướng dẫn PP-YOLOE+
DAMO- YOLO Tìm kiếm kiến trúc mạng nơ-ron tại thiết bị biên
Được tạo bởi Học viện Alibaba DAMO , DAMO- YOLO Nhóm nghiên cứu áp dụng một phương pháp hoàn toàn khác biệt. Thay vì tự thiết kế mạng trục chính, nhóm đã sử dụng Tìm kiếm Kiến trúc Mạng thần kinh (NAS) để khám phá các cấu trúc mạng hiệu quả cao, được thiết kế riêng cho các ràng buộc độ trễ nghiêm ngặt.
Các tính năng chính và quy trình đào tạo
DAMO- YOLO Nhấn mạnh độ trễ thấp và độ chính xác cao thông qua phương pháp tự động hóa và tập trung vào quá trình chắt lọc dữ liệu:
- Kiến trúc xương sống MAE-NAS: Bằng cách sử dụng Phương pháp Tự động hóa Tìm kiếm Kiến trúc Mạng nơ-ron hiệu quả, DAMO- YOLO Xây dựng các cấu trúc xương sống được tối ưu hóa đặc biệt cho sự cân bằng giữa các tham số và độ chính xác .
- RepGFPN hiệu quả: Mạng kim tự tháp đặc trưng tổng quát được tham số hóa lại cho phép kết hợp đặc trưng đa tỷ lệ mạnh mẽ, giúp mô hình detect Các vật thể có kích thước rất khác nhau trong cùng một khung hình.
- Thiết kế ZeroHead: Một đầu dò được đơn giản hóa tối đa, giúp giảm đáng kể chi phí tính toán trong giai đoạn suy luận.
- Tăng cường quá trình chưng cất: Để nâng cao hiệu suất của các biến thể nhỏ hơn, DAMO- YOLO Nó phụ thuộc rất nhiều vào một quy trình chắt lọc kiến thức phức tạp, trong đó mô hình người thầy lớn hơn hướng dẫn mô hình học sinh.
Chi tiết DAMO-YOLO:
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức: Tập đoàn Alibaba
- Ngày: 23/11/2022
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO- YOLO
- Tài liệu: Tài liệu hướng dẫn DAMO- YOLO
Sự ràng buộc của khung phần mềm
Trong khi cả PP-YOLOE+ và DAMO- đều YOLO Mặc dù chúng mang lại những đổi mới lý thuyết mạnh mẽ, nhưng chúng lại gắn bó chặt chẽ với các khuôn khổ tương ứng của chúng ( PaddlePaddle và các môi trường cụ thể của Alibaba). Điều này có thể gây khó khăn khi cố gắng chuyển các mô hình này sang các triển khai đám mây hoặc biên tiêu chuẩn.
Phân tích hiệu suất
Khi đánh giá các mô hình này, cần xem xét sự đánh đổi giữa độ trễ, độ phức tạp tính toán (FLOPs) và độ chính xác trung bình (Average Precision) mAP ) quyết định môi trường triển khai lý tưởng của chúng.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
DAMO- YOLO thường đạt được mức thấp hơn TensorRT Độ trễ ở quy mô nano và siêu nhỏ, khiến nó có khả năng cạnh tranh cao đối với các luồng video có thông lượng cao. Tuy nhiên, PP-YOLOE+ có khả năng mở rộng đáng kinh ngạc sang kích thước cực lớn (x(biến thể) đạt được độ chính xác hàng đầu cho hình ảnh phức tạp, trong đó thời gian suy luận là mối quan tâm thứ yếu.
Cái Ultralytics Ưu điểm: Tiến xa hơn các kiến trúc năm 2022
Trong khi PP-YOLOE+ và DAMO- YOLO Đại diện cho những cột mốc quan trọng, nhu cầu phát triển hiện đại đòi hỏi tính linh hoạt cao hơn, quy trình đào tạo dễ dàng hơn và yêu cầu bộ nhớ thấp hơn. Nền tảng Ultralytics đáp ứng những nhu cầu này bằng cách cung cấp trải nghiệm không gặp trở ngại, vượt trội hơn hẳn so với quá trình chắt lọc phức tạp và thiết lập dành riêng cho từng khung phần mềm mà các mô hình cũ yêu cầu.
Đối với các nhà phát triển đang tìm kiếm sự cân bằng hiệu năng tốt nhất hiện nay, Ultralytics YOLO26 mang đến một bước tiến đột phá về hiệu quả triển khai thực tế.
Vì sao YOLO26 dẫn đầu ngành?
Ra mắt vào đầu năm 2026, YOLO26 kế thừa những ưu điểm của YOLO11 bằng cách giới thiệu các công nghệ đột phá được thiết kế riêng cho sản xuất:
- Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ hiện tượng triệt tiêu cực đại không cần thiết (Non-Maximum Suppression) NMS ) xử lý hậu kỳ. Điều này dẫn đến logic triển khai đơn giản hơn và độ trễ suy luận nhất quán, có thể dự đoán được cao.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện mô hình ngôn ngữ quy mô lớn, YOLO26 sử dụng bộ tối ưu hóa lai MuSGD. Điều này đảm bảo quá trình huấn luyện cực kỳ ổn định và hội tụ nhanh chóng, tiết kiệm được tài nguyên quý giá. GPU giờ.
- Suy luận CPU vượt trội: Bằng cách loại bỏ tổn thất tiêu điểm phân phối (DFL) và tối ưu hóa đồ thị mạng, YOLO26 đạt được tốc độ nhanh hơn tới 43%. CPU suy luận, biến nó trở thành lựa chọn hàng đầu cho các thiết bị AI biên .
- ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận dạng vật thể nhỏ, điều rất quan trọng đối với hoạt động của máy bay không người lái và cảm biến từ xa.
- Tính linh hoạt vượt trội: Không giống như PP-YOLOE+ chỉ tập trung vào phát hiện đối tượng, YOLO26 hỗ trợ liền mạch việc ước tính tư thế , phân đoạn đối tượng , phân loại hình ảnh và hộp giới hạn định hướng (OBB) .
Dễ sử dụng và Hiệu quả huấn luyện
Đào tạo một DAMO- YOLO Mô hình này đòi hỏi phải quản lý một quy trình đào tạo phức tạp giữa giáo viên và học sinh. Ngược lại, việc đào tạo một mô hình khác lại dễ dàng hơn. Ultralytics Mô hình chỉ yêu cầu một vài dòng mã. Python , với mức tối thiểu CUDA Mức sử dụng bộ nhớ so với các kiến trúc cạnh tranh.
from ultralytics import YOLO
# Initialize the cutting-edge YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model with native MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run an end-to-end NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")
Các trường hợp sử dụng lý tưởng và khuyến nghị
Việc lựa chọn kiến trúc thị giác máy tính tối ưu phụ thuộc rất nhiều vào mục tiêu tích hợp hệ sinh thái và triển khai của nhóm bạn.
- Hãy chọn PP-YOLOE+ nếu toàn bộ quy trình của bạn được tích hợp sâu vào Baidu. PaddlePaddle hệ sinh thái. Nó vẫn là một lựa chọn tuyệt vời cho việc phân tích hình ảnh tĩnh trên các máy chủ mạnh mẽ, nơi tối đa hóa độ chính xác là mục tiêu chính.
- Hãy chọn DAMO- YOLO nếu bạn đang thực hiện nghiên cứu chuyên sâu về các thuật toán Tìm kiếm Kiến trúc Mạng thần kinh, hoặc nếu bạn có nguồn lực kỹ thuật để duy trì các quy trình chưng cất phức tạp nhằm đạt được hiệu quả cao. TensorRT mục tiêu độ trễ.
- Hãy chọn Ultralytics YOLO26 cho hầu hết các kịch bản sản xuất hiện đại. Hệ sinh thái Ultralytics cung cấp tài liệu đầy đủ, yêu cầu bộ nhớ thấp hơn và API được tối ưu hóa. Cho dù bạn đang xây dựng hệ thống kiểm soát chất lượng tự động hay chạy theo dõi thời gian thực trên Raspberry Pi, YOLO26 đều đáp ứng được. NMS Kiến trúc không cần bộ nhớ đệm đảm bảo kết quả nhanh chóng, ổn định và chính xác cao ngay từ khi sử dụng.
Đối với các nhà phát triển đang tìm kiếm các giải pháp tiên tiến khác, Ultralytics Tài liệu cũng cung cấp nguồn tài nguyên phong phú về YOLOv8 được sử dụng rộng rãi và YOLO11 mạnh mẽ, đảm bảo bạn có mô hình phù hợp cho bất kỳ thách thức nào về thị giác máy tính.