PP-YOLOE+ so với DAMO- YOLO Khám phá chuyên sâu về phát hiện vật thể trong công nghiệp
Trong lĩnh vực cạnh tranh khốc liệt của thị giác máy tính thời gian thực, việc lựa chọn kiến trúc tối ưu là một quyết định quan trọng đối với các kỹ sư và nhà nghiên cứu. Hai "ông lớn" đến từ hệ sinh thái công nghệ Trung Quốc, PP-YOLOE+ của Baidu và DAMO- YOLO của Alibaba, đưa ra những cách tiếp cận khác nhau để giải quyết sự đánh đổi giữa tốc độ và độ chính xác. Mặc dù cả hai mô hình đều sử dụng các kỹ thuật tiên tiến như tìm kiếm kiến trúc mạng nơ-ron (NAS) và tái tham số hóa, chúng lại phục vụ cho các môi trường triển khai và sở thích hệ sinh thái khác nhau.
Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện, phân tích những cải tiến về kiến trúc, hiệu năng chuẩn và tính phù hợp của chúng đối với các ứng dụng thực tế. Chúng tôi cũng khám phá cách kiến trúc Ultralytics YOLO26 hiện đại giải quyết những hạn chế của các mô hình trước đó để cung cấp một giải pháp thống nhất cho việc triển khai ở biên và trên đám mây.
PP-YOLOE+: Phát hiện không neo được tinh chỉnh
Được phát hành vào tháng 4 năm 2022 bởi PaddlePaddle Được phát triển bởi nhóm tại Baidu, PP-YOLOE+ là sự tiến hóa của kiến trúc PP-YOLOE, được thiết kế để cải thiện sự hội tụ huấn luyện và tốc độ suy luận. Nó thể hiện sự chuyển dịch hướng tới khả năng phát hiện không cần anchor hiệu suất cao trong môi trường ảo. PaddlePaddle hệ sinh thái.
Tác giả: PaddlePaddle Tác giả
Tổ chức: Baidu
Ngày: 2 tháng 4 năm 2022
Arxiv: Bài báo PP-YOLOE
GitHub: PaddlePaddle /PaddleDetection
Đổi mới Kiến trúc
PP-YOLOE+ kế thừa thành công của các thế hệ trước bằng cách tích hợp một số lựa chọn thiết kế quan trọng nhằm giảm độ trễ trong khi vẫn duy trì độ chính xác cao:
- CSPRepResStage: Kiến trúc xương sống sử dụng cấu trúc CSP (Cross-Stage Partial) kết hợp với các khối dư được tái tham số hóa. Điều này cho phép mô hình tận dụng việc trích xuất đặc trưng phức tạp trong quá trình huấn luyện đồng thời thu gọn thành một cấu trúc đơn giản hơn, nhanh hơn trong quá trình suy luận .
- Mô hình không cần neo: Bằng cách loại bỏ các hộp neo, PP-YOLOE+ đơn giản hóa không gian tìm kiếm siêu tham số, giảm bớt gánh nặng kỹ thuật thường liên quan đến các bộ dò dựa trên neo .
- Học tập căn chỉnh nhiệm vụ (TAL): Để giải quyết sự không khớp giữa độ tin cậy phân loại và định vị, PP-YOLOE+ sử dụng TAL, một chiến lược gán nhãn động chọn các kết quả dương tính chất lượng cao dựa trên chỉ số kết hợp của điểm phân loại và IoU .
- ET-Head: Bộ xử lý hiệu quả theo nhiệm vụ (ET-Head) tách biệt nhánh phân loại và nhánh hồi quy, đảm bảo rằng các biểu diễn đặc trưng được tối ưu hóa riêng cho từng nhiệm vụ mà không gây nhiễu lẫn nhau.
DAMO-YOLO: Hiệu quả dựa trên NAS
Được giới thiệu sau đó vào tháng 11 năm 2022 bởi Tập đoàn Alibaba, DAMO- YOLO (Mô hình tăng cường chưng cất) tận dụng Tìm kiếm kiến trúc thần kinh (NAS) và quá trình chưng cất mạnh mẽ để đẩy giới hạn hiệu suất độ trễ thấp. Nó được thiết kế đặc biệt để tối đa hóa thông lượng trên phần cứng công nghiệp.
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 23 tháng 11 năm 2022
Arxiv: Bài báo DAMO- YOLO
GitHub: tinyvision/DAMO- YOLO
Đổi mới Kiến trúc
DAMO- YOLO Nổi bật nhờ tập trung vào thiết kế kiến trúc tự động và tích hợp các tính năng nhỏ gọn:
- Hệ thống xương sống MAE-NAS: Không giống như các hệ thống xương sống được thiết kế thủ công, DAMO- YOLO Nó sử dụng cấu trúc được phát hiện thông qua Tìm kiếm Kiến trúc Thần kinh , được gọi là MAE-NAS. Điều này đảm bảo độ sâu và độ rộng của mạng được tối ưu hóa về mặt toán học cho các ràng buộc phần cứng cụ thể.
- RepGFPN: Mạng kim tự tháp đặc trưng tổng quát hiệu quả (RepGFPN) cải tiến các mạng FPN tiêu chuẩn bằng cách tối ưu hóa đường dẫn hợp nhất đặc trưng và độ sâu kênh, cho phép phát hiện đối tượng đa tỷ lệ tốt hơn, từ người đi bộ đến phương tiện giao thông.
- ZeroHead: Thiết kế đầu dò nhẹ giúp giảm đáng kể chi phí tính toán (FLOPs) của các lớp dự đoán cuối cùng, rất quan trọng đối với các ứng dụng thời gian thực.
- AlignedOTA: Một phiên bản cải tiến của Optimal Transport Assignment (OTA) giúp căn chỉnh tốt hơn các mục tiêu phân loại và hồi quy trong quá trình huấn luyện , dẫn đến sự hội tụ nhanh hơn.
So sánh hiệu suất
Khi so sánh các mô hình này, sự lựa chọn thường phụ thuộc vào mục tiêu phần cứng cụ thể và sự đánh đổi chấp nhận được giữa số lượng tham số và độ chính xác. PP-YOLOE+ thường cung cấp hiệu năng mạnh mẽ trên GPU cấp máy chủ, trong khi DAMO- YOLO Nó thể hiện xuất sắc trong các tình huống đòi hỏi tối ưu hóa độ trễ mạnh mẽ thông qua kiến trúc nền tảng dựa trên NAS.
Bảng dưới đây minh họa các chỉ số chính. Lưu ý rằng DAMO- YOLO Thông thường, nó đạt được độ trễ thấp hơn ở các mức độ chính xác tương tự nhờ các tối ưu hóa ZeroHead và RepGFPN.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Lợi thế của Ultralytics: Giới thiệu YOLO26
Trong khi PP-YOLOE+ và DAMO- YOLO Mặc dù có các tính năng cạnh tranh, chúng thường yêu cầu môi trường phức tạp, đặc thù cho từng framework ( PaddlePaddle hoặc các hệ thống nội bộ của Alibaba). Đối với các nhà phát triển đang tìm kiếm một giải pháp đa năng, sẵn sàng cho môi trường sản xuất, Ultralytics YOLO26 mang lại lợi thế vượt trội.
Ra mắt vào năm 2026, YOLO26 giải quyết những điểm khó khăn thường gặp trong việc triển khai phát hiện đối tượng. Đây không chỉ là một mô hình mà là một hệ sinh thái hoàn chỉnh được thiết kế để dễ sử dụng và có khả năng lặp lại nhanh chóng.
Các tính năng chính của YOLO26
- Thiết kế hoàn chỉnh từ đầu đến cuối không cần hệ quản lý mạng NMS : Không giống như PP-YOLOE+ và DAMO- YOLO điều này có thể đòi hỏi sự điều chỉnh cẩn thận của NMS Với các ngưỡng này, YOLO26 hoạt động hoàn toàn từ đầu đến cuối. Điều này loại bỏ hoàn toàn hiện tượng Non-Maximum Suppression ( NMS ) , đảm bảo độ trễ suy luận xác định và đơn giản hóa quy trình triển khai.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện Mô hình Ngôn ngữ Lớn (như Kimi K2 của Moonshot AI), YOLO26 sử dụng bộ tối ưu hóa MuSGD . Phương pháp lai này giúp ổn định động lực huấn luyện, cho phép mô hình hội tụ nhanh hơn với ít epoch hơn so với các phương pháp tiêu chuẩn. SGD Được sử dụng trong các kiến trúc cũ hơn.
- ProgLoss + STAL: Khả năng phát hiện vật thể nhỏ được cải thiện đáng kể thông qua ProgLoss và Học căn chỉnh nhiệm vụ mềm (STAL). Điều này làm cho YOLO26 đặc biệt hiệu quả đối với ảnh chụp từ trên không và kiểm tra công nghiệp, nơi độ chính xác đối với các khuyết tật nhỏ là tối quan trọng.
- Tối ưu hóa tại biên: Bằng cách loại bỏ tổn hao tiêu điểm phân tán (DFL), YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , trở thành lựa chọn vượt trội cho Raspberry Pi, thiết bị di động và các ứng dụng IoT .
- Tính linh hoạt vượt trội: Trong khi các đối thủ cạnh tranh chủ yếu tập trung vào khả năng phát hiện, thì... Ultralytics Khung phần mềm hỗ trợ phân đoạn đối tượng , ước tính tư thế , OBB và phân loại trong một API thống nhất duy nhất.
Quy trình làm việc tinh gọn
Cái Ultralytics Hệ sinh thái cho phép bạn chuyển từ chú thích dữ liệu đến triển khai chỉ trong vài phút. Với Nền tảng Ultralytics , bạn có thể quản lý tập dữ liệu, huấn luyện trên đám mây và xuất sang bất kỳ định dạng nào ( ONNX , TensorRT , CoreML ) mà không cần viết mã lặp đi lặp lại.
Ví dụ Mã nguồn: Sự Đơn giản trong Thực tế
Huấn luyện một mô hình tiên tiến với Ultralytics Nó rất trực quan. Python API giúp đơn giản hóa quá trình định nghĩa kiến trúc và tinh chỉnh siêu tham số.
from ultralytics import YOLO
# Load the latest YOLO26 model (nano version for edge devices)
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset
# YOLO26 automatically handles anchor-free assignment and efficient dataloading
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image
# NMS-free output is returned directly, ready for downstream logic
predictions = model("https://ultralytics.com/images/bus.jpg")
# Display the results
predictions[0].show()
Các trường hợp sử dụng và Khuyến nghị
Việc lựa chọn mô hình phù hợp phụ thuộc vào các ràng buộc cụ thể của bạn liên quan đến tích hợp hệ sinh thái, tính sẵn có của phần cứng và nguồn lực phát triển.
- Hãy chọn PP-YOLOE+ nếu cơ sở hạ tầng của bạn đã được tích hợp sâu rộng với hệ sinh thái Baidu PaddlePaddle . Đây là một lựa chọn mạnh mẽ cho việc xử lý ảnh tĩnh, nơi việc tối đa hóa mAP trên máy chủ là ưu tiên hàng đầu và bạn có đủ năng lực kỹ thuật để quản lý các phụ thuộc đặc thù của Paddle.
- Hãy chọn DAMO- YOLO nếu bạn đang nghiên cứu về Tìm kiếm Kiến trúc Mạng thần kinh hoặc cần tối ưu hóa độ trễ cụ thể trên phần cứng được hỗ trợ. Bộ xử lý nhẹ của nó giúp hoạt động hiệu quả trong phân tích video thông lượng cao, miễn là bạn có thể điều hướng quy trình huấn luyện nặng về chưng cất của nó.
- Hãy chọn Ultralytics YOLO26 để có sự cân bằng tốt nhất giữa tốc độ, độ chính xác và trải nghiệm dành cho nhà phát triển . NMS Thiết kế không cần ngôn ngữ lập trình giúp đơn giản hóa logic triển khai, trong khi việc loại bỏ DFL (Digital Language Learning) giúp hệ thống hoạt động cực nhanh trên CPU và các thiết bị biên. Cho dù bạn đang xây dựng hệ thống bán lẻ thông minh hay robot nông nghiệp tự hành , tài liệu đầy đủ và sự hỗ trợ tích cực từ cộng đồng sẽ đảm bảo dự án của bạn luôn phù hợp với tương lai.
Đối với người dùng quan tâm đến các kiến trúc hiệu quả khác, tài liệu cũng đề cập đến các mô hình như YOLO11 và RT-DETR , cung cấp một loạt các công cụ cho mọi thách thức về thị giác máy tính.
Kết luận
Cả PP-YOLOE+ và DAMO- YOLO đã đóng góp đáng kể vào sự phát triển của việc phát hiện đối tượng không cần neo. PP-YOLOE+ đã tinh chỉnh quy trình huấn luyện bằng cách căn chỉnh nhiệm vụ, trong khi DAMO- YOLO Điều này đã chứng minh sức mạnh của NAS và quá trình chưng cất. Tuy nhiên, sự phức tạp của các quy trình đào tạo và sự phụ thuộc vào hệ sinh thái của chúng có thể là rào cản đối với nhiều đội.
Ultralytics YOLO26 nổi bật nhờ việc phổ biến các tính năng tiên tiến này. Bằng cách kết hợp kiến trúc không cần NMS , tối ưu hóa MuSGD và hiệu năng biên vượt trội , nó cung cấp một giải pháp toàn diện có thể mở rộng từ giai đoạn nguyên mẫu đến sản xuất với ma sát tối thiểu. Đối với các nhà phát triển đang tìm cách tối đa hóa năng suất và hiệu năng, Ultralytics vẫn là tiêu chuẩn của ngành.