Link to this sectionSo sánh YOLO11 và PP-YOLOE+#
Việc lựa chọn kiến trúc mạng thần kinh tối ưu là điều tối quan trọng khi triển khai các ứng dụng computer vision vào sản xuất. Trong bài so sánh kỹ thuật này, chúng tôi xem xét hai mô hình nổi bật trong không gian phát hiện đối tượng thời gian thực: Ultralytics YOLO11 và PP-YOLOE+ của Baidu. Cả hai kiến trúc đều cung cấp hiệu suất mạnh mẽ, nhưng chúng tiếp cận các thách thức về độ chính xác, tốc độ inference và hệ sinh thái nhà phát triển theo những cách khá khác biệt.
Dưới đây là biểu đồ tương tác giới thiệu các giới hạn hiệu suất của những mô hình này để giúp bạn xác định lựa chọn phù hợp nhất với các hạn chế về phần cứng của mình.
Link to this sectionNguồn gốc mô hình và dòng dõi kỹ thuật#
Việc tìm hiểu nguồn gốc và triết lý thiết kế của các mô hình này cung cấp ngữ cảnh giá trị cho các điểm mạnh và trường hợp sử dụng lý tưởng tương ứng của chúng.
Link to this sectionChi tiết về YOLO11#
Được phát triển bởi Ultralytics, YOLO11 đại diện cho một bước lặp được tinh chỉnh cao của dòng YOLO, ưu tiên sự cân bằng giữa inference tốc độ cao, hiệu quả tham số cực hạn và tính dễ sử dụng vượt trội. Nó được công nhận rộng rãi nhờ các khả năng đa tác vụ thống nhất và API Python thân thiện với nhà phát triển.
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức: Ultralytics
- Ngày: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- Tài liệu: Tài liệu YOLO11
Link to this sectionChi tiết về PP-YOLOE+#
PP-YOLOE+ là phiên bản tiến hóa của PP-YOLOv2, được xây dựng trên framework PaddlePaddle. Nó giới thiệu các thay đổi kiến trúc như backbone CSPRepResNet và Task Alignment Learning (TAL) để đẩy giới hạn độ chính xác, đặc biệt là trên các GPU cao cấp.
- Tác giả: Các tác giả PaddlePaddle
- Tổ chức: Baidu
- Ngày: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Tài liệu: PP-YOLOE+ Configuration Docs
Link to this sectionSự khác biệt về kiến trúc#
Các thiết kế kiến trúc cơ bản của YOLO11 và PP-YOLOE+ phản ánh những ưu tiên khác biệt của chúng trong bối cảnh computer vision.
YOLO11 được xây dựng dựa trên một backbone được tối ưu hóa cao và đầu dò không sử dụng anchor (anchor-free). Nó sử dụng các khối C3k2 và Spatial Pyramid Pooling - Fast (SPPF) để thu thập các đặc trưng đa quy mô với chi phí tính toán tối thiểu. Thiết kế này cực kỳ có lợi cho việc giảm inference latency trên các thiết bị hạn chế tài nguyên như NPU edge và CPU di động. Hơn nữa, YOLO11 được thiết kế nguyên bản cho học đa tác vụ, hỗ trợ instance segmentation, pose estimation và oriented bounding box (OBB) detection ngay lập tức.
PP-YOLOE+ giới thiệu backbone CSPRepResNet và đầu Efficient Task-aligned (ET-head). Nó sử dụng nhiều kỹ thuật rep-parameterization để tăng năng lực đại diện trong quá trình huấn luyện trong khi gộp các tham số đó vào các tích chập tiêu chuẩn để inference. Mặc dù điều này mang lại mean Average Precision (mAP) ấn tượng, các mô hình kết quả có xu hướng nặng hơn về tham số và dung lượng bộ nhớ, khiến chúng phù hợp hơn để triển khai trên các GPU máy chủ mạnh mẽ thay vì các thiết bị edge nhẹ.
Nếu dự án của bạn yêu cầu mở rộng ra ngoài các hộp bao (bounding box) tiêu chuẩn, Ultralytics YOLO11 cung cấp hỗ trợ nguyên bản cho phân đoạn, ước tính tư thế và phân loại trong cùng một API, giảm đáng kể chi phí phát triển so với việc tích hợp nhiều repository riêng biệt.
Link to this sectionHiệu năng và Benchmark#
Khi đánh giá hiệu suất, chúng tôi xem xét độ chính xác (mAP), tốc độ inference trên các phần cứng khác nhau và hiệu quả mô hình (tham số và FLOPs). Bảng dưới đây nêu bật các chỉ số so sánh, với các giá trị hiệu quả nhất hoặc hiệu suất cao nhất được in đậm.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Link to this sectionPhân tích#
YOLO11 thể hiện lợi thế rõ ràng về cân bằng hiệu suất và hiệu quả tham số. Ví dụ, YOLO11m đạt mAP cao hơn (51.5) so với PP-YOLOE+m (49.8) trong khi sử dụng ít tham số hơn (20.1M so với 23.43M) và đạt tốc độ inference nhanh hơn đáng kể trên TensorRT (4.7ms so với 5.56ms). Bản chất nhẹ của các mô hình YOLO11 vốn dĩ chuyển đổi thành các yêu cầu bộ nhớ thấp hơn trong cả quá trình model training và triển khai.
Link to this sectionHệ sinh thái đào tạo và tính dễ sử dụng#
Giá trị thực sự của một mô hình thường nằm ở mức độ dễ dàng mà các nhà phát triển có thể huấn luyện nó trên các computer vision datasets tùy chỉnh và triển khai nó vào sản xuất.
Link to this sectionLợi thế từ Ultralytics#
Ultralytics ưu tiên trải nghiệm nhà phát triển hợp lý. Việc huấn luyện YOLO11 được quản lý thông qua API Python hoặc CLI đơn giản, giúp trừu tượng hóa các đoạn mã soạn sẵn phức tạp. Ultralytics Platform tăng cường hơn nữa điều này bằng cách cung cấp huấn luyện không cần mã (no-code), quản lý dataset tự động và xuất dữ liệu chỉ với một cú nhấp chuột sang các định dạng như ONNX, CoreML và TensorRT.
Hơn nữa, các mô hình YOLO rất hiệu quả về bộ nhớ trong quá trình huấn luyện, tránh được các chi phí VRAM khổng lồ điển hình của các kiến trúc dựa trên Transformer hoặc các mô hình rep-parameterized nặng, cho phép huấn luyện trên phần cứng cấp người tiêu dùng.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()Link to this sectionHệ sinh thái PP-YOLOE+#
PP-YOLOE+ hoạt động trong hệ sinh thái PaddleDetection. Mặc dù framework này mạnh mẽ và được tích hợp sâu với các giải pháp công nghiệp của Baidu, nó yêu cầu các nhà phát triển phải chấp nhận framework học sâu PaddlePaddle cụ thể. Điều này có thể tạo ra một lộ trình học tập dốc hơn cho các nhóm đã được tiêu chuẩn hóa trên PyTorch. Ngoài ra, việc xuất các mô hình PP-YOLOE+ sang các định dạng phổ biến tiêu chuẩn cho các thiết bị edge có thể yêu cầu các bước chuyển đổi bổ sung so với các quy trình xuất nguyên bản được tìm thấy trong các quy trình làm việc của Ultralytics.
Link to this sectionCác trường hợp sử dụng lý tưởng#
Việc lựa chọn giữa các mô hình này phụ thuộc vào môi trường triển khai cụ thể của bạn.
- Choose YOLO11 for agile development, edge computing, and mobile applications. Its high inference speed, low memory footprint, and extensive export capabilities make it ideal for tasks like real-time retail inventory management on standard CPUs, drone-based aerial imagery analysis, and complex multi-task pipelines.
- Chọn PP-YOLOE+ nếu toàn bộ quy trình sản xuất của bạn đã được đầu tư mạnh mẽ vào hệ sinh thái PaddlePaddle hoặc nếu bạn đang triển khai cho các máy chủ inference chuyên dụng, cao cấp nơi các hạn chế về bộ nhớ và khả năng tương thích phần cứng (ngoài phần cứng đã tối ưu hóa của Paddle) không phải là mối quan tâm chính.
Link to this sectionThế hệ tiếp theo: Giới thiệu YOLO26#
Mặc dù YOLO11 vẫn cực kỳ mạnh mẽ, lĩnh vực AI phát triển rất nhanh. Để có được sự đột phá tuyệt đối trong phát hiện đối tượng, Ultralytics đã giới thiệu YOLO26 mới. Được phát hành vào tháng 1 năm 2026, YOLO26 xây dựng dựa trên những thành công của các phiên bản tiền nhiệm để mang lại hiệu suất và độ chính xác chưa từng có.
Các cải tiến chính của YOLO26:
- End-to-End NMS-Free Design: YOLO26 natively eliminates Non-Maximum Suppression (NMS) post-processing. This significantly speeds up inference and simplifies deployment logic, an architectural leap first pioneered in YOLOv10.
- Tốc độ Inference CPU nhanh hơn tới 43%: Được tối ưu hóa đặc biệt cho các thiết bị edge không có GPU, đảm bảo hiệu suất thời gian thực trên phần cứng công suất thấp hơn.
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ sự ổn định trong huấn luyện LLM, sự kết hợp giữa SGD và Muon này đảm bảo sự hội tụ nhanh hơn và quá trình huấn luyện ổn định hơn.
- ProgLoss + STAL: Các hàm mất mát (loss function) được cải tiến giúp tăng cường đáng kể khả năng nhận diện đối tượng nhỏ, điều này rất quan trọng cho các drone applications và giám sát an ninh.
- Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss giúp đơn giản hóa việc xuất mô hình và cải thiện đáng kể khả năng tương thích trên một loạt các thiết bị edge.
Đối với các dự án mới ưu tiên tốc độ, xuất file liền mạch và độ chính xác tối đa, chúng tôi thực sự khuyên bạn nên tận dụng các khả năng của YOLO26 thông qua Ultralytics Platform.
Nếu bạn đang đánh giá các kiến trúc khác, bạn cũng có thể quan tâm đến việc so sánh YOLO11 với RT-DETR hoặc khám phá cách YOLOv8 kế thừa hoạt động như thế nào trong các tiêu chuẩn đo lường hiện đại.