YOLO11 so với PP-YOLOE+: So sánh kỹ thuật về các bộ dò thời gian thực
Việc lựa chọn kiến trúc mạng thần kinh tối ưu là rất quan trọng khi triển khai các ứng dụng computer vision trong môi trường production. Trong bài so sánh kỹ thuật này, chúng tôi sẽ xem xét hai mô hình nổi bật trong lĩnh vực phát hiện đối tượng thời gian thực: Ultralytics YOLO11 và PP-YOLOE+ của Baidu. Cả hai kiến trúc đều mang lại hiệu suất mạnh mẽ, nhưng chúng tiếp cận các thách thức về độ chính xác, tốc độ inference và hệ sinh thái nhà phát triển theo những cách khá khác biệt.
Dưới đây là biểu đồ tương tác thể hiện ranh giới hiệu suất của các mô hình này để giúp bạn xác định lựa chọn phù hợp nhất cho các hạn chế về phần cứng của mình.
Nguồn gốc mô hình và dòng dõi kỹ thuật
Việc hiểu rõ nguồn gốc và triết lý thiết kế của các mô hình này cung cấp ngữ cảnh giá trị cho thế mạnh tương ứng và các trường hợp sử dụng lý tưởng của chúng.
Chi tiết về YOLO11
Được phát triển bởi Ultralytics, YOLO11 đại diện cho một phiên bản đã được tinh chỉnh cao của dòng YOLO, ưu tiên sự cân bằng giữa tốc độ inference cao, hiệu suất tham số cực hạn và sự dễ sử dụng vượt trội. Mô hình này được công nhận rộng rãi nhờ khả năng đa nhiệm thống nhất và API Python thân thiện với nhà phát triển.
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức: Ultralytics
- Ngày: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- Docs: Tài liệu YOLO11
Chi tiết về PP-YOLOE+
PP-YOLOE+ là phiên bản cải tiến của PP-YOLOv2, được xây dựng trên framework PaddlePaddle. Nó giới thiệu các thay đổi về kiến trúc như backbone CSPRepResNet và Task Alignment Learning (TAL) để đẩy giới hạn độ chính xác lên cao, đặc biệt là trên các GPU cao cấp.
- Tác giả: Các tác giả PaddlePaddle
- Tổ chức: Baidu
- Ngày: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Tài liệu: Tài liệu cấu hình PP-YOLOE+
Sự khác biệt về kiến trúc
Các thiết kế kiến trúc cơ bản của YOLO11 và PP-YOLOE+ phản ánh những ưu tiên khác biệt của chúng trong bối cảnh computer vision.
YOLO11 được xây dựng trên một backbone đã được tối ưu hóa cao và head phát hiện không cần neo (anchor-free). Nó sử dụng các khối C3k2 và Spatial Pyramid Pooling - Fast (SPPF) để thu thập các đặc trưng đa quy mô với chi phí tính toán tối thiểu. Thiết kế này mang lại lợi thế lớn trong việc giảm inference latency trên các thiết bị giới hạn tài nguyên như NPU edge và CPU di động. Hơn nữa, YOLO11 được thiết kế nguyên bản cho học đa nhiệm, hỗ trợ instance segmentation, pose estimation và oriented bounding box (OBB) detection ngay từ đầu.
PP-YOLOE+ giới thiệu backbone CSPRepResNet và head Efficient Task-aligned (ET-head). Nó sử dụng mạnh mẽ các kỹ thuật rep-parameterization để tăng năng lực biểu diễn trong quá trình training, đồng thời gộp các tham số đó vào các lớp convolution tiêu chuẩn cho việc inference. Mặc dù điều này mang lại mean Average Precision (mAP) ấn tượng, các mô hình tạo ra có xu hướng nặng hơn về tham số và dung lượng bộ nhớ, khiến chúng phù hợp hơn để triển khai trên các server GPU mạnh mẽ thay vì các thiết bị edge nhẹ.
Nếu dự án của bạn đòi hỏi mở rộng vượt ra ngoài các bounding box tiêu chuẩn, Ultralytics YOLO11 cung cấp hỗ trợ nguyên bản cho phân đoạn, ước tính tư thế và phân loại trong cùng một API, giúp giảm đáng kể chi phí phát triển so với việc tích hợp nhiều repository riêng biệt.
Hiệu suất và Benchmark
Khi đánh giá hiệu suất, chúng tôi xem xét độ chính xác (mAP), tốc độ inference trên các phần cứng khác nhau và hiệu quả mô hình (tham số và FLOPs). Bảng dưới đây nêu bật các chỉ số so sánh, với các giá trị hiệu quả nhất hoặc đạt hiệu suất cao nhất được in đậm.
| Model | kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Phân tích
YOLO11 demonstrates a clear advantage in performance balance and parameter efficiency. For instance, YOLO11m achieves a higher mAP (51.5) than PP-YOLOE+m (49.8) while utilizing fewer parameters (20.1M vs 23.43M) and achieving significantly faster inference speeds on TensorRT (4.7ms vs 5.56ms). The lightweight nature of YOLO11 models inherently translates to lower memory requirements during both model training and deployment.
Hệ sinh thái huấn luyện và tính dễ sử dụng
The true value of a model often lies in how easily developers can train it on custom computer vision datasets and deploy it to production.
Ưu thế của Ultralytics
Ultralytics ưu tiên trải nghiệm nhà phát triển được tinh giản. Việc training YOLO11 được quản lý thông qua API Python hoặc CLI đơn giản, giúp trừu tượng hóa các đoạn code boilerplate phức tạp. Ultralytics Platform tăng cường hơn nữa điều này bằng cách cung cấp training không cần code (no-code), quản lý dataset tự động và xuất dữ liệu chỉ với một cú nhấp chuột sang các định dạng như ONNX, CoreML và TensorRT.
Hơn nữa, các mô hình YOLO rất hiệu quả về bộ nhớ trong quá trình training, tránh được các overhead VRAM khổng lồ thường thấy ở các kiến trúc dựa trên Transformer hoặc các mô hình rep-parameterized nặng, cho phép training trên phần cứng tiêu dùng phổ thông.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()Hệ sinh thái PP-YOLOE+
PP-YOLOE+ vận hành trong hệ sinh thái PaddleDetection. Mặc dù framework này mạnh mẽ và được tích hợp sâu với các giải pháp công nghiệp của Baidu, nó yêu cầu các nhà phát triển phải chấp nhận framework deep learning PaddlePaddle cụ thể. Điều này có thể tạo ra lộ trình học tập dốc hơn cho các đội ngũ đã chuẩn hóa trên PyTorch. Ngoài ra, việc xuất các mô hình PP-YOLOE+ sang các định dạng chung tiêu chuẩn cho thiết bị edge có thể yêu cầu các bước chuyển đổi bổ sung so với các pipeline xuất nguyên bản có trong các quy trình làm việc của Ultralytics.
Các trường hợp sử dụng lý tưởng
Việc lựa chọn giữa các mô hình này phụ thuộc vào môi trường triển khai cụ thể của bạn.
- Chọn YOLO11 cho phát triển nhanh (agile), edge computing và các ứng dụng di động. Tốc độ inference cao, dung lượng bộ nhớ thấp và khả năng xuất dữ liệu phong phú khiến nó trở nên lý tưởng cho các tác vụ như retail inventory management thời gian thực trên CPU tiêu chuẩn, phân tích hình ảnh trên không bằng drone và các pipeline đa nhiệm phức tạp.
- Chọn PP-YOLOE+ nếu toàn bộ pipeline production của bạn đã được đầu tư mạnh vào hệ sinh thái PaddlePaddle hoặc nếu bạn đang triển khai trên các server inference chuyên dụng, cao cấp nơi mà các hạn chế về bộ nhớ và khả năng tương thích phần cứng (ngoài phần cứng đã được tối ưu của Paddle) không phải là mối quan tâm hàng đầu.
Thế hệ tiếp theo: Giới thiệu YOLO26
Mặc dù YOLO11 vẫn cực kỳ mạnh mẽ, lĩnh vực AI đang thay đổi rất nhanh. Để có bước tiến đột phá trong phát hiện đối tượng, Ultralytics đã giới thiệu YOLO26 mới. Được phát hành vào tháng 1 năm 2026, YOLO26 xây dựng dựa trên những thành công của các phiên bản tiền nhiệm để mang lại hiệu suất và độ chính xác chưa từng có.
Những cải tiến chính của YOLO26:
- Thiết kế End-to-End không cần NMS: YOLO26 loại bỏ nguyên bản quá trình hậu xử lý Non-Maximum Suppression (NMS). Điều này tăng tốc độ inference đáng kể và đơn giản hóa logic triển khai, một bước tiến về kiến trúc lần đầu tiên được tiên phong trong YOLOv10.
- Inference trên CPU nhanh hơn tới 43%: Được tối ưu hóa đặc biệt cho các thiết bị edge không có GPU, đảm bảo hiệu suất thời gian thực trên phần cứng có công suất thấp hơn.
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ sự ổn định trong quá trình training LLM, sự kết hợp giữa SGD và Muon này đảm bảo quá trình hội tụ nhanh hơn và training ổn định hơn.
- ProgLoss + STAL: Improved loss functions drastically enhance small-object recognition, which is critical for drone applications and security surveillance.
- Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss giúp đơn giản hóa việc xuất mô hình và cải thiện đáng kể khả năng tương thích trên nhiều loại thiết bị edge.
Đối với các dự án mới ưu tiên tốc độ, xuất file liền mạch và độ chính xác tối đa, chúng tôi thực sự khuyến khích tận dụng khả năng của YOLO26 thông qua Ultralytics Platform.
Nếu bạn đang đánh giá các kiến trúc khác, bạn cũng có thể quan tâm đến việc so sánh YOLO11 với RT-DETR hoặc khám phá cách YOLOv8 cũ thể hiện như thế nào trong các benchmark hiện đại.