PP-YOLOE+ so với YOLOv10 Điều hướng các kiến trúc phát hiện đối tượng thời gian thực

Lĩnh vực thị giác máy tính không ngừng phát triển, với các mô hình mới liên tục mở rộng giới hạn của những gì có thể đạt được trong phát hiện đối tượng thời gian thực. Trong bài so sánh kỹ thuật toàn diện này, chúng ta sẽ xem xét PP-YOLOE+ và YOLOv10 , hai kiến trúc có khả năng cao được thiết kế cho các hệ sinh thái khác nhau. Chúng ta cũng sẽ khám phá cách mà lĩnh vực rộng lớn hơn đang chuyển dịch sang các nền tảng thống nhất, dễ sử dụng hơn như Nền tảng Ultralytics và mô hình YOLO26 tiên tiến.

Giới thiệu về các mô hình

Việc lựa chọn nền tảng phù hợp cho các dự án thị giác máy tính của bạn đòi hỏi sự hiểu biết sâu sắc về các đánh đổi kiến trúc, ràng buộc triển khai và hỗ trợ hệ sinh thái của từng mô hình.

Tổng quan về PP-YOLOE+

Được phát triển bởi Các tác giả PaddlePaddle tại Baidu, PP-YOLOE+ là một bước tiến hóa so với các phiên bản trước trong hệ sinh thái PaddleDetection.

Tác giả: Các tác giả của PaddlePaddle
Tổ chức:Baidu
Ngày: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHub:Kho lưu trữ PaddleDetection
Tài liệu:Tài liệu chính thức của PP-YOLOE+

Điểm mạnh: PP-YOLOE+ vượt trội trong các môi trường được tích hợp sâu với framework PaddlePaddle. Nó giới thiệu một backbone CSPRepResNet tiên tiến và dựa vào một chiến lược gán nhãn mạnh mẽ (TAL) để đạt được độ chính xác trung bình (mAP) ấn tượng. Nó được tối ưu hóa cao để triển khai trên các GPU cấp máy chủ phổ biến trong các ứng dụng công nghiệp trên khắp châu Á.

Điểm yếu: Hạn chế chính của PP-YOLOE+ là sự phụ thuộc nặng nề vào hệ sinh thái PaddlePaddle, điều này có thể kém trực quan hơn đối với các nhà phát triển đã quen với PyTorch. Ngoài ra, nó yêu cầu Non-Maximum Suppression (NMS) truyền thống để xử lý hậu kỳ, điều này làm tăng độ trễ và độ phức tạp khi triển khai.

Tìm hiểu thêm về PP-YOLOE+

YOLOv10 Tổng quan

Được công bố bởi các nhà nghiên cứu tại Đại học Thanh Hoa, YOLOv10 đã mang lại một sự thay đổi mô hình kiến trúc quan trọng bằng cách loại bỏ NMS từ quy trình suy luận.

Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức:Đại học Thanh Hoa
Ngày: 2024-05-23
Arxiv:https://arxiv.org/abs/2405.14458
GitHub:Kho lưu trữ YOLOv10
Tài liệu:Tài liệu YOLOv10

Điểm mạnh: Tính năng nổi bật của YOLOv10 là các gán kép nhất quán cho huấn luyện không NMS. Điều này có nghĩa là mô hình dự đoán các hộp giới hạn một cách nguyên bản mà không yêu cầu bước lọc thứ cấp, giúp triển khai mô hình đơn giản và nhanh hơn nhiều trên các thiết bị biên. Nó đạt được sự cân bằng tuyệt vời giữa số lượng tham số thấp và độ chính xác cao.

Điểm yếu: Mặc dù rất hiệu quả cho detect đối tượng 2D tiêu chuẩn, YOLOv10 thiếu hỗ trợ tự nhiên cho các tác vụ thị giác máy tính quan trọng khác như phân đoạn đối tượng và ước tính tư thế, hạn chế tính linh hoạt của nó trong các pipeline đa tác vụ, phức tạp.

Tìm hiểu thêm về YOLOv10

Cân nhắc các lựa chọn thay thế nâng cao?

Nếu bạn đang tìm hiểu về những cải tiến mới nhất trong lĩnh vực phát hiện thời gian thực, hãy xem hướng dẫn của chúng tôi về YOLO11 hoặc RT-DETR dựa trên bộ biến đổi cho các ứng dụng thị giác có độ chính xác cao.

So sánh hiệu năng và số liệu

Hiểu rõ hiệu suất của các mô hình này dưới các tiêu chuẩn đánh giá thông thường là rất quan trọng để lựa chọn kiến trúc phù hợp. Dưới đây là bảng so sánh chi tiết về kích thước, độ chính xác và độ trễ của chúng.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

Phân tích kỹ thuật

Khi phân tích dữ liệu, một vài xu hướng chính nổi bật lên. YOLOv10 Các mô hình nano và nhỏ tập trung mạnh vào hiệu suất xử lý tại biên, với YOLOv10n chỉ có 2,3 triệu tham số và 6,7 tỷ FLOPs. Thiết kế gọn nhẹ này, kết hợp với... NMS - Kiến trúc không cần TensorRT, giúp giảm đáng kể độ trễ trên các nền tảng sử dụng TensorRT và OpenVINO .

Ngược lại, PP-YOLOE+ thể hiện khả năng mạnh mẽ trong các lớp trọng số lớn hơn, với biến thể X-large của nó nhỉnh hơn YOLOv10x một chút về mAP (54.7% so với 54.4%). Tuy nhiên, điều này phải trả giá bằng gần gấp đôi số lượng tham số (98.42M so với 56.9M), khiến YOLOv10x trở thành mô hình hiệu quả hơn đáng kể cho các môi trường bị hạn chế bộ nhớ.

Lợi thế Hệ sinh thái Ultralytics

Trong khi cả PP-YOLOE+ và YOLOv10 Mặc dù mang lại những thành tựu kỹ thuật ấn tượng, kỹ thuật học máy hiện đại đòi hỏi nhiều hơn chỉ là một kiến trúc thô sơ; nó cần một hệ sinh thái được duy trì tốt .

Ultralytics cung cấp một giải pháp hàng đầu trong ngành. Python Bộ SDK giúp đơn giản hóa đáng kể việc thu thập và chú thích dữ liệu , huấn luyện và triển khai. So với các khung nghiên cứu phức tạp hoặc các mô hình transformer cũ hơn, Ultralytics các kiến trúc này chỉ yêu cầu một phần nhỏ của... CUDA bộ nhớ trong quá trình huấn luyện, cho phép kích thước lô lớn hơn và số lần lặp nhanh hơn. Hơn nữa, Ultralytics Bộ phần mềm này cung cấp tính linh hoạt vượt trội—hỗ trợ phân loại hình ảnh , OBB (Oriented Bounding Box) và theo dõi đối tượng mạnh mẽ ngay từ khi cài đặt.

Chào mừng YOLO26: Thế hệ tiếp theo

Ra mắt vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho đỉnh cao của sự phát triển thị giác máy tính, kết hợp những hiểu biết tốt nhất từ các mô hình như... YOLOv10 đồng thời giải quyết những hạn chế của họ.

Những cải tiến chính của YOLO26:

Thiết kế đầu cuối không NMS: Dựa trên khái niệm tiên phong trong YOLOv10, YOLO26 có thiết kế đầu cuối nguyên bản, loại bỏ hoàn toàn hậu xử lý NMS để triển khai nhanh hơn, đơn giản hơn trên nhiều loại phần cứng khác nhau.
Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss (DFL), kiến trúc mô hình được đơn giản hóa đáng kể để xuất, đảm bảo khả năng tương thích hoàn hảo với các thiết bị AI biên tiêu thụ ít điện năng.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện mô hình ngôn ngữ lớn (chẳng hạn như Kimi K2 của Moonshot AI), YOLO26 sử dụng một sự kết hợp giữa SGD và Muon. Điều này mang lại sự ổn định huấn luyện chưa từng có và tốc độ hội tụ nhanh hơn đáng kể.
Suy luận trên CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho các kịch bản thực tế, YOLO26 mang lại tốc độ tăng đáng kể cho các ứng dụng dựa vào tính toán CPU, làm cho nó hoàn hảo cho giám sát thông minh và triển khai di động.
ProgLoss + STAL: Các hàm mất mát được cải tiến này tăng cường đáng kể hiệu suất trong việc nhận diện vật thể nhỏ, một yếu tố quan trọng đối với hình ảnh trên không và robot.
Cải tiến chuyên biệt theo tác vụ: Không giống như YOLOv10, YOLO26 hỗ trợ nguyên bản proto đa tỷ lệ cho segment và Ước tính Log-Likelihood Dư (RLE) cho ước tính tư thế.

Tìm hiểu thêm về YOLO26

Triển khai thực tế

Bắt đầu với Ultralytics Mô hình được thiết kế để hoạt động trơn tru. Chỉ với một vài dòng mã, bạn có thể bắt đầu quá trình huấn luyện bằng cách sử dụng điều chỉnh siêu tham số tự động và các quy trình tăng cường dữ liệu hiện đại.

from ultralytics import YOLO

# Load the highly recommended YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# Memory usage is highly optimized compared to transformer architectures
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Run an end-to-end NMS-free inference
inference_results = model("https://ultralytics.com/images/bus.jpg")

# Export directly to ONNX or TensorRT for deployment
model.export(format="onnx", simplify=True)

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa PP-YOLOE+ và YOLOv10 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn PP-YOLOE+

PP-YOLOE+ là một lựa chọn tuyệt vời cho:

Tích hợp hệ sinh thái PaddlePaddle: Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên khung và công cụ PaddlePaddle của Baidu.
Triển khai biên Paddle Lite: Triển khai trên phần cứng với các nhân suy luận được tối ưu hóa cao, đặc biệt dành cho công cụ suy luận Paddle Lite hoặc Paddle.
Detect phía máy chủ độ chính xác cao: Các kịch bản ưu tiên độ chính xác detect tối đa trên các máy chủ GPU mạnh mẽ, nơi sự phụ thuộc vào framework không phải là mối bận tâm.

Khi nào nên chọn YOLOv10

YOLOv10 được khuyến nghị cho:

detect thời gian thực không NMS: Các ứng dụng hưởng lợi từ detect end-to-end mà không cần Non-Maximum Suppression, giảm độ phức tạp khi triển khai.
Đánh đổi cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác detect trên các quy mô mô hình khác nhau.
Ứng dụng có độ trễ nhất quán: Các kịch bản triển khai mà thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như trong robot học hoặc các hệ thống tự hành.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Kết luận

PP-YOLOE+ vẫn là một lựa chọn đáng tin cậy cho các nhóm đang sử dụng hệ sinh thái Baidu và môi trường máy chủ công nghiệp. YOLOv10 Đây là một cột mốc học thuật xuất sắc, chứng minh tính khả thi của... NMS - Phát hiện miễn phí, theo thời gian thực.

Tuy nhiên, đối với các nhà phát triển đang tìm kiếm sự kết hợp tối ưu giữa độ chính xác, tốc độ suy luận cực nhanh và khả năng đa nhiệm liền mạch, Ultralytics YOLO26 là sự lựa chọn tối ưu. Những cải tiến về hiệu quả huấn luyện và kiến trúc triển khai ưu tiên thiết bị biên đảm bảo nó trở thành giải pháp mạnh mẽ và linh hoạt nhất cho thị giác máy tính cấp độ sản xuất trong năm 2026 và những năm tiếp theo.

PP-YOLOE+ so với YOLOv10 Điều hướng các kiến ​​trúc phát hiện đối tượng thời gian thực