PP-YOLOE+ so với YOLO26: Phân tích chuyên sâu về các Bộ phát hiện đối tượng SOTA
Bức tranh phát hiện đối tượng không ngừng phát triển, với các nhà nghiên cứu đang mở rộng giới hạn về độ chính xác, tốc độ và hiệu quả. Phân tích toàn diện này so sánh hai mô hình quan trọng: PP-YOLOE+, một bộ phát hiện tiên tiến từ nhóm PaddlePaddle của Baidu, và YOLO26, mô hình tiên tiến nhất hiện nay từ Ultralytics.
Trong khi PP-YOLOE+ giới thiệu những đổi mới quan trọng trong phát hiện không neo khi ra mắt, YOLO26 đại diện cho một bước nhảy vọt thế hệ, cung cấp khả năng end-to-end nguyên bản, triển khai đơn giản hóa và hiệu suất vượt trội cho các ứng dụng biên hiện đại.
PP-YOLOE+: Phát hiện không neo được tinh chỉnh
PP-YOLOE+ là phiên bản nâng cấp của PP-YOLOE, được phát triển bởi nhóm PaddlePaddle tại Baidu. Ra mắt vào năm 2022, nó tập trung vào việc cải thiện sự hội tụ trong huấn luyện và hiệu suất tác vụ hạ nguồn thông qua kiến trúc backbone mạnh mẽ và thiết kế head hiệu quả.
Chi tiết PP-YOLOE+:
- Tác giả: Các tác giả của PaddlePaddle
- Tổ chức:Baidu
- Ngày: 2022-04-02
- Arxiv:https://arxiv.org/abs/2203.16250
- GitHub:https://github.com/PaddlePaddle/PaddleDetection/
- Tài liệu:Tài liệu PP-YOLOE+
Kiến trúc và Phương pháp luận
PP-YOLOE+ được xây dựng dựa trên kiến trúc backbone CSPRepResNet, sử dụng thiết kế kernel lớn để thu thập các đặc trưng phong phú hơn. Nó áp dụng chiến lược TAL (Task Alignment Learning) để gán nhãn động, đảm bảo sự căn chỉnh chất lượng cao giữa các tác vụ phân loại và định vị.
Các tính năng kiến trúc chính bao gồm:
- Thiết kế không neo: Loại bỏ nhu cầu về các hộp neo được định nghĩa trước, giảm việc điều chỉnh siêu tham số.
- Head căn chỉnh tác vụ hiệu quả (ET-Head): Tối ưu hóa sự đánh đổi giữa tốc độ và độ chính xác.
- Gán nhãn động: Sử dụng chiến lược gán nhãn mềm để cải thiện sự ổn định trong huấn luyện.
Mặc dù đổi mới vào thời điểm đó, PP-YOLOE+ dựa vào Non-Maximum Suppression (NMS) truyền thống để xử lý hậu kỳ. Bước này làm tăng độ trễ trong quá trình suy luận và làm phức tạp các quy trình triển khai, vì các triển khai NMS có thể khác nhau trên các nền tảng phần cứng khác nhau như TensorRT hoặc ONNX Runtime.
YOLO26: Tiêu chuẩn mới cho AI biên (Edge AI)
Ra mắt vào đầu năm 2026, YOLO26 được thiết kế từ đầu để giải quyết các nút thắt triển khai phổ biến ở các thế hệ trước. Nó giới thiệu một kiến trúc end-to-end không NMS nguyên bản, giúp nó nhanh hơn và dễ triển khai hơn đáng kể trên các thiết bị có tài nguyên hạn chế.
Chi tiết YOLO26:
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức:Ultralytics
- Ngày: 2026-01-14
- Tài liệu:Tài liệu Ultralytics YOLO26
- GitHub:https://github.com/ultralytics/ultralytics
Kiến trúc và các cải tiến
YOLO26 vượt ra ngoài các mô hình dựa trên neo hoặc không neo truyền thống bằng cách tích hợp logic gán nhãn và giải mã trực tiếp vào cấu trúc mô hình.
- End-to-End không NMS: Bằng cách dự đoán các cặp khớp một-đối-một trong quá trình huấn luyện, YOLO26 loại bỏ hoàn toàn nhu cầu về NMS. Bước đột phá này, lần đầu tiên được tiên phong trong YOLOv10, mang lại độ trễ có thể dự đoán và logic xuất đơn giản hơn.
- Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss đơn giản hóa các head đầu ra, giúp mô hình thân thiện hơn với lượng tử hóa 8-bit và triển khai biên.
- Bộ tối ưu hóa MuSGD: Sự kết hợp giữa SGD và Muon, lấy cảm hứng từ huấn luyện LLM (Kimi K2), cung cấp sự hội tụ ổn định và khả năng tổng quát hóa được cải thiện.
- ProgLoss + STAL: Các hàm mất mát mới nhắm mục tiêu cụ thể vào phát hiện đối tượng nhỏ, một điểm yếu phổ biến ở các bộ phát hiện trước đây.
Tại sao End-to-End quan trọng
Các bộ phát hiện đối tượng truyền thống xuất ra hàng nghìn hộp ứng cử viên, yêu cầu NMS để lọc các bản sao. NMS tốn kém về mặt tính toán và khó tối ưu hóa trên các bộ tăng tốc phần cứng (như TPU hoặc NPU). Thiết kế end-to-end của YOLO26 xuất trực tiếp các hộp cuối cùng, loại bỏ nút thắt này và tăng tốc suy luận lên tới 43% trên CPU.
So sánh hiệu suất
Khi so sánh hiệu suất, YOLO26 cho thấy lợi thế rõ ràng về hiệu quả, đặc biệt đối với suy luận dựa trên CPU và quy trình triển khai đơn giản hóa. Trong khi PP-YOLOE+ vẫn là một cơ sở học thuật mạnh mẽ, YOLO26 cung cấp mAPval cao hơn với ít tham số hơn và độ trễ thấp hơn đáng kể.
Bảng dưới đây trình bày các số liệu hiệu suất trên bộ dữ liệu COCO.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Những Điểm Chính
- Hiệu quả: YOLO26n đạt độ chính xác cao hơn (40.9 mAP) so với PP-YOLOE+t (39.9 mAP) trong khi sử dụng ít FLOPs hơn đáng kể (5.4B so với 19.15B). Điều này giúp YOLO26 vượt trội hơn hẳn cho các ứng dụng di động và chạy bằng pin.
- Khả năng mở rộng: Ở quy mô lớn nhất, YOLO26x vượt trội hơn PP-YOLOE+x gần 3.0 mAP trong khi vẫn duy trì số lượng tham số nhỏ hơn (55.7M so với 98.42M).
- Tốc độ suy luận: Việc loại bỏ NMS và DFL cho phép YOLO26 thực thi nhanh hơn tới 43% trên CPU, đây là một chỉ số quan trọng đối với các thiết bị như Raspberry Pi hoặc các phiên bản đám mây thông thường nơi GPU không khả dụng.
Khả năng Sử dụng và Hệ sinh thái
Giá trị thực của một mô hình không chỉ nằm ở các số liệu thô mà còn ở mức độ dễ dàng tích hợp nó vào sản xuất.
Lợi thế Hệ sinh thái Ultralytics
Ultralytics ưu tiên sự dễ sử dụng và trải nghiệm phát triển liền mạch. Với một API python đơn giản, người dùng có thể chuyển từ cài đặt sang huấn luyện chỉ trong vài phút.
from ultralytics import YOLO
# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100)
# Export to ONNX for deployment
path = model.export(format="onnx")
Hệ sinh thái Ultralytics cũng bao gồm:
- Tài liệu toàn diện: Các hướng dẫn chi tiết về huấn luyện, xác thực và triển khai.
- Hỗ trợ đa dạng tác vụ: Không giống như PP-YOLOE+, vốn chủ yếu tập trung vào detect, YOLO26 hỗ trợ Phân đoạn đối tượng (Instance Segmentation), Ước tính tư thế (Pose Estimation), Phân loại và Hộp giới hạn định hướng (obb) trong một framework duy nhất.
- Cộng đồng tích cực: Với các bản cập nhật thường xuyên và một lượng lớn người dùng, việc tìm kiếm giải pháp cho các trường hợp đặc biệt (edge cases) nhanh hơn thông qua GitHub Issues hoặc Discord của cộng đồng.
Hiệu quả huấn luyện
YOLO26 được thiết kế để tiêu thụ ít bộ nhớ hơn trong quá trình huấn luyện. Trình tối ưu hóa MuSGD mới ổn định động lực huấn luyện, thường yêu cầu ít epoch hơn để đạt được hội tụ so với lịch trình cần thiết cho PP-YOLOE+. Điều này giúp giảm chi phí tính toán đám mây và chu kỳ lặp lại nhanh hơn cho nghiên cứu và phát triển.
Các trường hợp sử dụng lý tưởng
Khi nào nên chọn PP-YOLOE+
- Quy trình làm việc PaddlePaddle kế thừa: Nếu cơ sở hạ tầng hiện có của bạn gắn liền với framework Baidu PaddlePaddle và công cụ suy luận, PP-YOLOE+ vẫn là một lựa chọn tương thích.
- Nghiên cứu học thuật: Dành cho các nhà nghiên cứu đặc biệt tìm hiểu các chiến lược gán không neo (anchor-free) trong họ kiến trúc backbone ResNet.
Khi nào nên chọn YOLO26
- Triển khai biên thời gian thực: Đối với các ứng dụng trên Android, iOS hoặc Linux nhúng nơi mỗi mili giây độ trễ đều quan trọng.
- Phát hiện vật thể nhỏ: Sự kết hợp của ProgLoss và STAL giúp YOLO26 vượt trội hơn cho các tác vụ như phân tích hình ảnh từ drone hoặc phát hiện lỗi trong sản xuất.
- Yêu cầu đa tác vụ: Nếu dự án của bạn yêu cầu chuyển đổi giữa detect, segment và ước tính tư thế mà không cần học một API hoặc codebase mới.
- Tạo mẫu nhanh: Bản chất "đầy đủ tính năng" của gói Ultralytics cho phép các công ty khởi nghiệp và đội ngũ doanh nghiệp chuyển từ dữ liệu sang triển khai nhanh hơn.
Kết luận
Trong khi PP-YOLOE+ từng là một bộ detect không neo mạnh mẽ vào đầu những năm 2020, YOLO26 đại diện cho tương lai của thị giác máy tính. Bằng cách loại bỏ nút thắt NMS, tối ưu hóa cho tốc độ CPU và cung cấp một giao diện thống nhất cho nhiều tác vụ thị giác, YOLO26 mang đến một giải pháp mạnh mẽ hơn, hiệu quả hơn và thân thiện với người dùng hơn cho các thách thức AI ngày nay.
Đối với các nhà phát triển muốn tích hợp các khả năng thị giác tiên tiến với ít trở ngại nhất, Ultralytics YOLO26 là lựa chọn được khuyến nghị.
Khám phá thêm
Bạn quan tâm đến các kiến trúc khác? Khám phá YOLO11, mô hình thế hệ trước của chúng tôi vẫn được hỗ trợ đầy đủ, hoặc xem xét RT-DETR cho các giải pháp detect dựa trên transformer.