YOLO26 so với PP-YOLOE+: Phân tích chuyên sâu về mặt kỹ thuật phát hiện đối tượng thời gian thực

Lĩnh vực thị giác máy tính đã chứng kiến sự phát triển nhanh chóng trong các mô hình phát hiện đối tượng thời gian thực. Đối với các kỹ sư và nhà nghiên cứu học máy đang tìm cách triển khai các mô hình AI thị giác hiệu quả nhất, việc so sánh các kiến trúc như Ultralytics YOLO26 và PP-YOLOE+ là rất quan trọng. Hướng dẫn toàn diện này cung cấp phân tích chuyên sâu về kiến trúc, phương pháp huấn luyện, số liệu hiệu suất và các kịch bản triển khai thực tế lý tưởng của chúng.

Nguồn gốc và siêu dữ liệu của mô hình

Việc hiểu rõ bối cảnh hình thành các kiến trúc thị giác máy tính này giúp ta nắm bắt được triết lý thiết kế và môi trường mục tiêu của chúng.

Tổng quan về YOLO26
Được phát hành vào tháng 1 năm 2026, YOLO26 đại diện cho đỉnh cao của hệ sinh thái Ultralytics. Nó được thiết kế để trở thành giải pháp AI biên tối ưu, tự hào với dung lượng nhỏ hơn, xử lý đầu cuối nguyên bản và tốc độ vượt trội.

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 14/01/2026
GitHub: Kho lưu trữ GitHub Ultralytics
Tài liệu: Tài liệu chính thức YOLO26

Tìm hiểu thêm về YOLO26

Tổng quan về PP-YOLOE+
Được phát triển như một sự tiến hóa của dòng PP-YOLO, PP-YOLOE+ là một bộ detect không neo được tối ưu hóa mạnh mẽ cho hệ sinh thái PaddlePaddle. Nó dựa trên kiến trúc xương sống CSPRepResNet và một ET-head để cải thiện các chỉ số detect tiêu chuẩn.

Tác giả: PaddlePaddle Authors
Tổ chức: Baidu
Ngày: 02-04-2022
Arxiv: Bài báo nghiên cứu PP-YOLOE+
GitHub: Kho lưu trữ PaddleDetection
Tài liệu: Tài liệu PP-YOLOE+

Tìm hiểu thêm về PP-YOLOE+

Đổi mới Kiến trúc

Sự khác biệt trong cách các mô hình này xử lý dữ liệu hình ảnh ảnh hưởng đáng kể đến yêu cầu bộ nhớ, tính ổn định của quá trình huấn luyện và độ trễ suy luận của chúng.

YOLO26: The NMS - Biên giới tự do

YOLO26 giới thiệu một số thay đổi kiến trúc đột phá được thiết kế để tối ưu hóa việc triển khai mô hình :

Thiết kế không NMS đầu cuối: Dựa trên các khái niệm lần đầu tiên được giới thiệu trong YOLOv10, YOLO26 loại bỏ xử lý hậu kỳ Non-Maximum Suppression (NMS) một cách tự nhiên. Điều này giúp giảm biến thiên độ trễ và đơn giản hóa đáng kể các quy trình triển khai.
Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss (DFL), mô hình trở nên nhẹ hơn đáng kể, cho phép xuất liền mạch sang các định dạng như TensorRT và CoreML.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ Kimi K2 của Moonshot AI, YOLO26 mang những đổi mới trong huấn luyện LLM đến thị giác máy tính. Trình tối ưu hóa MuSGD lai (SGD + Muon) đảm bảo động lực huấn luyện rất ổn định và hội tụ nhanh chóng.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, khiến kiến trúc này trở nên rất hiệu quả cho hình ảnh drone và các ứng dụng nông nghiệp.

PP-YOLOE+: Một cách tiếp cận tập trung vào mái chèo

PP-YOLOE+ sử dụng mô hình không cần neo (anchor-free paradigm) tập trung vào độ chính xác cao trên phần cứng máy chủ tiêu chuẩn. Nó có cấu trúc RepResNet giúp cải thiện khả năng trích xuất đặc trưng. Tuy nhiên, vì nó phụ thuộc nhiều vào các thao tác cụ thể có sẵn trong hệ thống học sâu của Baidu, việc sửa đổi mạng hoặc xuất nó cho các thiết bị biên có tài nguyên hạn chế cao có thể phức tạp hơn đáng kể so với các mô hình khác. Ultralytics khuôn khổ.

So sánh hiệu năng và số liệu

Sự cân bằng hiệu suất mạnh mẽ giữa tốc độ và độ chính xác là rất quan trọng cho các kịch bản triển khai thực tế đa dạng. Mặc dù PP-YOLOE+ cung cấp độ chính xác cạnh tranh, YOLO26 luôn đạt được sự đánh đổi thuận lợi hơn, đặc biệt khi đánh giá tốc độ suy luận trên CPU và mức sử dụng bộ nhớ thấp hơn.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

Nhờ các tối ưu hóa cụ thể ở biên và loại bỏ DFL, YOLO26 mang lại khả năng suy luận CPU nhanh hơn tới 43% so với các phiên bản tiền nhiệm, vượt trội hơn hẳn PP-YOLOE+ khi được triển khai trên các thiết bị như Raspberry Pi hoặc các đơn vị điện toán biên tiêu chuẩn.

Hiệu quả bộ nhớ

Khi so sánh các kiến trúc mô hình, cần lưu ý rằng Ultralytics YOLO Các mô hình này duy trì mức sử dụng bộ nhớ thấp hơn nhiều trong quá trình huấn luyện so với các mô hình Transformer phức tạp, giúp chúng dễ tiếp cận hơn cho việc tạo mẫu nhanh trên GPU cấp người tiêu dùng.

Lợi thế Hệ sinh thái Ultralytics

Mặc dù PP-YOLOE+ là một mô hình có khả năng, nhưng điểm khác biệt thực sự nằm ở trải nghiệm của nhà phát triển. Hệ sinh thái Ultralytics tích hợp cung cấp một môi trường vô song cho các chuyên gia về trí tuệ nhân tạo thị giác máy tính.

Dễ sử dụng: Ultralytics mang đến trải nghiệm người dùng được tối ưu hóa. Một API python đơn giản trừu tượng hóa sự phức tạp của các pipeline dữ liệu và vòng lặp huấn luyện, được hỗ trợ bởi tài liệu phong phú và được duy trì tích cực.
Tính linh hoạt: Không giống như PP-YOLOE+, vốn chủ yếu tập trung vào detect đối tượng, YOLO26 hỗ trợ phân loại ảnh, phân đoạn đối tượng, ước tính tư thế và hộp giới hạn định hướng (OBB) một cách tự nhiên bằng cách sử dụng cùng cấu trúc API.
Hiệu quả huấn luyện: Việc tải xuống tự động các trọng số đã được huấn luyện sẵn có, kết hợp với các tăng cường nâng cao, đảm bảo các quy trình huấn luyện hiệu quả, yêu cầu ít bộ nhớ CUDA và thời gian hơn so với các framework truyền thống.

Ví dụ Mã nguồn: Sự Đơn giản trong Thực tế

Các điều khoản hợp lệ sau đây Python Đoạn mã này minh họa mức độ dễ dàng khi khởi động một dự án AI bằng cách sử dụng... Ultralytics API:

from ultralytics import YOLO

# Load a pre-trained YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")

# Train the model effortlessly on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")

# Perform NMS-free inference on a target image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")

# Export to ONNX format for deployment
model.export(format="onnx")

Ứng dụng thực tế lý tưởng

Việc lựa chọn giữa YOLO26 và PP-YOLOE+ phần lớn phụ thuộc vào các ràng buộc của môi trường sản xuất của bạn.

Khi nào nên triển khai PP-YOLOE+:

Tích hợp hệ sinh thái Baidu: Các dự án có nền tảng sâu rộng trong cơ sở hạ tầng PaddlePaddle hoặc các môi trường sản xuất cụ thể ở châu Á nơi các ngăn xếp phần cứng và phần mềm của Baidu được áp dụng nghiêm ngặt.
Xử lý theo lô phía máy chủ: Các kịch bản chạy trên phần cứng cấp doanh nghiệp, nơi độ trễ dao động do NMS gây ra ít đáng lo ngại hơn.

Khi nào nên triển khai YOLO26:

Thiết bị biên và IoT: Tốc độ CPU của YOLO26 nhanh hơn tới 43% khiến nó trở thành lựa chọn tối ưu cho camera thông minh, drone và robot học công suất thấp.
Triển khai quan trọng về thời gian: Kiến trúc không NMS nguyên bản đảm bảo suy luận ổn định, độ trễ cực thấp, rất quan trọng cho nghiên cứu lái xe tự hành và kiểm soát chất lượng sản xuất tốc độ cao.
Các dự án đa nhiệm: Khi một dự án yêu cầu sự kết hợp giữa detect đối tượng, tạo mặt nạ chính xác thông qua segmentation, hoặc track điểm chính thông qua ước tính tư thế, framework YOLO26 thống nhất là không thể thiếu.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLO26 và PP-YOLOE+ phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLO26

YOLO26 là một lựa chọn tốt cho:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Khi nào nên chọn PP-YOLOE+

PP-YOLOE+ được khuyến nghị sử dụng cho:

Tích hợp hệ sinh thái PaddlePaddle: Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên khung và công cụ PaddlePaddle của Baidu.
Triển khai biên Paddle Lite: Triển khai trên phần cứng với các nhân suy luận được tối ưu hóa cao, đặc biệt dành cho công cụ suy luận Paddle Lite hoặc Paddle.
Detect phía máy chủ độ chính xác cao: Các kịch bản ưu tiên độ chính xác detect tối đa trên các máy chủ GPU mạnh mẽ, nơi sự phụ thuộc vào framework không phải là mối bận tâm.

Khám phá các kiến trúc khác

Đối với người dùng muốn tìm hiểu nhiều mẫu mã hơn, chúng tôi cũng khuyên bạn nên xem xét YOLO11 , thế hệ trước đó có độ tin cậy cao. Ultralytics các mô hình này vẫn là một yếu tố thiết yếu trong hàng ngàn môi trường sản xuất. Ngoài ra, đối với các kịch bản yêu cầu cơ chế dựa trên transformer, kiến trúc RT-DETR cung cấp một giải pháp thay thế hấp dẫn, mặc dù đòi hỏi nhiều bộ nhớ hơn trong quá trình huấn luyện.

Cuối cùng, bằng cách tận dụng trình tối ưu hóa MuSGD, các khả năng của ProgLoss + STAL và một NMS Với thiết kế không giới hạn, YOLO26 khẳng định vị thế là sự lựa chọn hàng đầu cho các giải pháp AI thị giác hiện đại, có khả năng mở rộng và hiệu quả cao.