YOLO11 So sánh kỹ thuật giữa hai thiết bị dò thời gian thực: PP-YOLOE+

Việc lựa chọn kiến trúc mạng nơ-ron tối ưu là rất quan trọng khi triển khai các ứng dụng thị giác máy tính trong môi trường sản xuất. Trong bài so sánh kỹ thuật này, chúng tôi xem xét hai mô hình nổi bật trong lĩnh vực phát hiện đối tượng thời gian thực: Ultralytics YOLO11 và Baidu PP-YOLOE+. Cả hai kiến trúc đều cung cấp hiệu năng mạnh mẽ, nhưng chúng tiếp cận các thách thức về độ chính xác, tốc độ suy luận và hệ sinh thái nhà phát triển theo những cách khá khác nhau.

Dưới đây là biểu đồ tương tác minh họa giới hạn hiệu suất của các mô hình này để giúp bạn xác định lựa chọn phù hợp nhất với các ràng buộc phần cứng của mình.

Nguồn gốc và dòng dõi kỹ thuật của mẫu xe

Việc hiểu rõ nguồn gốc và triết lý thiết kế của các mô hình này sẽ cung cấp bối cảnh quan trọng cho những điểm mạnh và trường hợp sử dụng lý tưởng của chúng.

YOLO11 Chi tiết

Được phát triển bởi Ultralytics, YOLO11 đại diện cho một phiên bản tinh chỉnh cao của dòng YOLO, ưu tiên cân bằng giữa suy luận tốc độ cao, hiệu quả tham số cực cao và khả năng sử dụng dễ dàng vượt trội. Nó được công nhận rộng rãi nhờ khả năng đa nhiệm hợp nhất và API Python thân thiện với nhà phát triển.

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
Tài liệu:Tài liệu YOLO11

Tìm hiểu thêm về YOLO11

Thông tin chi tiết về PP-YOLOE+

PP-YOLOE+ là phiên bản nâng cấp của PP-YOLOv2, được xây dựng dựa trên... PaddlePaddle Khung phần mềm này giới thiệu những thay đổi về kiến trúc như kiến trúc xương sống CSPRepResNet và Học căn chỉnh tác vụ (TAL) để đẩy giới hạn về độ chính xác, đặc biệt là trên các GPU cao cấp.

Tác giả: Các tác giả của PaddlePaddle
Tổ chức:Baidu
Ngày: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHub:https://github.com/PaddlePaddle/PaddleDetection/
Tài liệu:Tài liệu Cấu hình PP-YOLOE+

Tìm hiểu thêm về PP-YOLOE+

Sự khác biệt về kiến trúc

Các thiết kế kiến trúc cơ bản của YOLO11 và PP-YOLOE+ phản ánh những ưu tiên khác nhau của chúng trong lĩnh vực thị giác máy tính .

YOLO11 được xây dựng dựa trên một kiến trúc backbone được tối ưu hóa cao và một đầu detect không neo. Nó sử dụng các khối C3k2 và Spatial Pyramid Pooling - Fast (SPPF) để thu thập các đặc trưng đa tỷ lệ với chi phí tính toán tối thiểu. Thiết kế này rất có lợi cho việc giảm độ trễ suy luận trên các thiết bị bị hạn chế tài nguyên như NPU biên và CPU di động. Hơn nữa, YOLO11 được thiết kế nguyên bản cho học đa nhiệm, hỗ trợ phân đoạn đối tượng, ước tính tư thế và phát hiện hộp giới hạn định hướng (OBB) detect ngay từ đầu.

PP-YOLOE+ giới thiệu kiến trúc xương sống CSPRepResNet và một đầu Efficient Task-aligned (ET-head). Nó tận dụng mạnh mẽ các kỹ thuật tái tham số hóa để tăng khả năng biểu diễn trong quá trình huấn luyện, đồng thời gộp các tham số đó vào các phép tích chập tiêu chuẩn cho suy luận. Mặc dù điều này mang lại độ chính xác trung bình (mAP) ấn tượng, các mô hình thu được có xu hướng nặng hơn về số lượng tham số và dung lượng bộ nhớ, khiến chúng phù hợp hơn để triển khai trên các GPU máy chủ mạnh mẽ thay vì các thiết bị biên nhẹ.

Tính linh hoạt đa nhiệm

Nếu dự án của bạn yêu cầu mở rộng ra ngoài các khung giới hạn tiêu chuẩn, Ultralytics YOLO11 Cung cấp hỗ trợ gốc cho phân đoạn, ước tính tư thế và phân loại trong cùng một API, giúp giảm đáng kể chi phí phát triển so với việc tích hợp nhiều kho lưu trữ riêng biệt.

Hiệu năng và điểm chuẩn

Khi đánh giá hiệu suất, chúng ta xem xét độ chính xác ( mAP ), tốc độ suy luận trên các phần cứng khác nhau và hiệu quả của mô hình (tham số và FLOPs). Bảng dưới đây nêu bật các chỉ số so sánh, với các giá trị hiệu quả nhất hoặc có hiệu suất cao nhất được in đậm .

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

Phân tích

YOLO11 thể hiện một lợi thế rõ ràng trong cân bằng hiệu suất và hiệu quả tham số. Ví dụ, YOLO11m đạt mAP cao hơn (51.5) so với PP-YOLOE+m (49.8) trong khi sử dụng ít tham số hơn (20.1M so với 23.43M) và đạt tốc độ suy luận nhanh hơn đáng kể trên TensorRT (4.7ms so với 5.56ms). Bản chất nhẹ của các mô hình YOLO11 vốn dĩ dẫn đến yêu cầu bộ nhớ thấp hơn trong cả quá trình huấn luyện mô hình và triển khai.

Hệ sinh thái đào tạo và tính dễ sử dụng

Giá trị thực sự của một mô hình thường nằm ở việc các nhà phát triển có thể dễ dàng huấn luyện nó trên các tập dữ liệu thị giác máy tính tùy chỉnh và triển khai nó vào môi trường sản xuất như thế nào.

Lợi thế của Ultralytics

Ultralytics Ưu tiên trải nghiệm phát triển được tối ưu hóa. Đào tạo YOLO11 được quản lý thông qua một phương pháp đơn giản. Python API hoặc CLI Loại bỏ các đoạn mã phức tạp rườm rà. Nền tảng Ultralytics còn nâng cao điều này hơn nữa bằng cách cung cấp đào tạo không cần lập trình, quản lý tập dữ liệu tự động và xuất dữ liệu chỉ bằng một cú nhấp chuột sang các định dạng như ONNX , CoreML và TensorRT .

Hơn nữa, YOLO Các mô hình này rất tiết kiệm bộ nhớ trong quá trình huấn luyện, tránh được tình trạng tiêu tốn dung lượng VRAM khổng lồ thường thấy ở các kiến trúc dựa trên transformer hoặc các mô hình tham số hóa rep phức tạp, cho phép huấn luyện trên phần cứng cấp độ người tiêu dùng.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

Hệ sinh thái PP-YOLOE+

PP-YOLOE+ hoạt động trong hệ sinh thái PaddleDetection. Mặc dù khung phần mềm này mạnh mẽ và được tích hợp sâu rộng với các giải pháp công nghiệp của Baidu, nhưng nó yêu cầu các nhà phát triển phải áp dụng các quy định cụ thể. PaddlePaddle khung học sâu. Điều này có thể tạo ra một đường cong học tập dốc hơn cho các nhóm đã quen thuộc với hệ thống này. PyTorch Ngoài ra, việc xuất các mô hình PP-YOLOE+ sang các định dạng phổ quát tiêu chuẩn cho các thiết bị biên có thể yêu cầu các bước chuyển đổi bổ sung so với các quy trình xuất gốc được tìm thấy trong... Ultralytics quy trình làm việc.

Các trường hợp sử dụng lý tưởng

Việc lựa chọn giữa các mô hình này phụ thuộc vào môi trường triển khai cụ thể của bạn.

Chọn YOLO11 cho phát triển linh hoạt, điện toán biên và các ứng dụng di động. Tốc độ suy luận cao, yêu cầu bộ nhớ thấp và khả năng xuất rộng rãi làm cho nó lý tưởng cho các tác vụ như quản lý hàng tồn kho bán lẻ thời gian thực trên CPU tiêu chuẩn, phân tích hình ảnh trên không bằng drone và các pipeline đa tác vụ phức tạp.
Chọn PP-YOLOE+ nếu toàn bộ pipeline sản xuất của bạn đã đầu tư mạnh vào hệ sinh thái PaddlePaddle hoặc nếu bạn đang triển khai trên các máy chủ suy luận chuyên dụng, cao cấp, nơi các hạn chế về bộ nhớ và khả năng tương thích phần cứng (ngoài phần cứng được tối ưu hóa của Paddle) không phải là mối quan tâm chính.

Thế hệ tiếp theo: Giới thiệu YOLO26

Trong khi YOLO11 Mặc dù vẫn vô cùng mạnh mẽ, lĩnh vực trí tuệ nhân tạo (AI) phát triển rất nhanh. Để có được công nghệ tiên tiến nhất trong phát hiện đối tượng, Ultralytics đã giới thiệu YOLO26 mới. Được phát hành vào tháng 1 năm 2026, YOLO26 kế thừa những thành công của các phiên bản tiền nhiệm để mang lại hiệu quả và độ chính xác chưa từng có.

Những cải tiến quan trọng của YOLO26:

Thiết kế loại bỏ NMS đầu cuối (End-to-End NMS-Free): YOLO26 tự nhiên loại bỏ hậu xử lý Non-Maximum Suppression (NMS). Điều này tăng tốc đáng kể quá trình suy luận và đơn giản hóa logic triển khai, một bước nhảy vọt về kiến trúc lần đầu tiên được tiên phong trong YOLOv10.
Suy luận trên CPU nhanh hơn tới 43%: Được tối ưu hóa đặc biệt cho các thiết bị biên không có GPU, đảm bảo hiệu suất thời gian thực trên phần cứng công suất thấp hơn.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ sự ổn định trong huấn luyện LLM, sự kết hợp giữa SGD và Muon này đảm bảo hội tụ nhanh hơn và huấn luyện ổn định hơn.
ProgLoss + STAL: Các hàm mất mát được cải tiến tăng cường đáng kể khả năng nhận diện vật thể nhỏ, điều này rất quan trọng đối với các ứng dụng máy bay không người lái và giám sát an ninh.
Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss đơn giản hóa việc xuất mô hình và cải thiện đáng kể khả năng tương thích trên nhiều loại thiết bị biên.

Đối với các dự án mới ưu tiên tốc độ, xuất dữ liệu liền mạch và độ chính xác tối đa, chúng tôi đặc biệt khuyên bạn nên tận dụng các khả năng của YOLO26 thông qua Nền tảng Ultralytics .

Nếu bạn đang đánh giá các kiến trúc khác, bạn cũng có thể quan tâm đến việc so sánh YOLO11 đến RT-DETR hoặc khám phá xem YOLOv8 cũ hoạt động như thế nào trong các bài kiểm tra hiệu năng hiện đại.