YOLO26 so với PP-YOLOE+: Nâng cao khả năng phát hiện đối tượng với hiệu quả thế hệ tiếp theo

Việc lựa chọn kiến trúc phát hiện đối tượng phù hợp là một quyết định quan trọng đối với các nhà phát triển xây dựng ứng dụng thị giác máy tính . Hướng dẫn này cung cấp so sánh kỹ thuật chi tiết giữa hai mô hình có ảnh hưởng: Ultralytics YOLO26 và PP-YOLOE+ . Mặc dù cả hai mô hình đều đại diện cho những cột mốc quan trọng trong sự phát triển của phát hiện thời gian thực, nhưng chúng phục vụ cho các triết lý kỹ thuật và môi trường triển khai khác nhau.

Ultralytics YOLO26, được phát hành vào tháng 1 năm 2026, giới thiệu kiến trúc hoàn toàn độc lập với NMS , tối ưu hóa cho... CPU tốc độ và sự dễ sử dụng. Ngược lại, PP-YOLOE+, được phát triển bởi PaddlePaddle Bài viết này tập trung vào việc tinh chỉnh phương pháp phát hiện từ khóa không cần neo trong hệ sinh thái Baidu. Phân tích này đi sâu vào kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng để giúp bạn chọn công cụ tốt nhất cho dự án của mình.

Tóm tắt: Những điểm khác biệt chính

Tính năng	Ultralytics YOLO26	PP-YOLOE+
Kiến trúc	Từ đầu đến cuối ( NMS -Miễn phí)	Không cần neo (Yêu cầu) NMS )
Tốc độ suy luận	Được tối ưu hóa cho CPU & Edge (nhanh hơn tới 43%)	Được tối ưu hóa cho GPU & PaddleLite
Khung làm việc	PyTorch (Nguyên bản), Xuất đa định dạng	PaddlePaddle
Trọng tâm đào tạo	Dễ sử dụng, tiêu thụ ít bộ nhớ, trình tối ưu hóa MuSGD	Độ chính xác cao, điều khiển bằng cấu hình
Nhiệm vụ	detect, segment, Pose, obb, classify	Phát hiện (chính), các phát hiện khác thông qua cấu hình riêng biệt.

Ultralytics YOLO26: Cuộc cách mạng ưu tiên cạnh tranh

Ultralytics YOLO26 đại diện cho một bước chuyển biến mang tính đột phá trong lĩnh vực này. YOLO gia đình. Bằng cách loại bỏ sự ức chế không tối đa ( NMS Với khả năng tích hợp và tính năng Phân bổ tiêu điểm (Distribution Focal Loss - DFL), YOLO26 đạt được quy trình triển khai được tối ưu hóa, hoạt động liền mạch từ đầu đến cuối. Lựa chọn thiết kế này giúp giảm đáng kể sự biến động về độ trễ, khiến nó đặc biệt hiệu quả cho các ứng dụng AI biên (edge AI) nơi thời gian thực thi có thể dự đoán được là tối quan trọng.

Những đổi mới kiến trúc cốt lõi

Kiến trúc của YOLO26 được định hình bởi sự tập trung vào hiệu quả và tính ổn định trong quá trình huấn luyện:

NMS từ đầu đến cuối - Không cần: Không giống như các bộ dò truyền thống tạo ra hàng nghìn hộp ứng cử viên đòi hỏi xử lý hậu kỳ phức tạp, YOLO26 dự đoán trực tiếp tập hợp các đối tượng cuối cùng. Bước đột phá này, lần đầu tiên được tiên phong trong YOLOv10 , đơn giản hóa quá trình xuất sang các định dạng như ONNX Và TensorRT .
Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện LLM của Kimi K2 thuộc Moonshot AI, YOLO26 sử dụng sự kết hợp giữa SGD và Muon. Điều này giúp quá trình hội tụ nhanh hơn và các lần chạy huấn luyện ổn định hơn, ngay cả với kích thước lô nhỏ.
ProgLoss + STAL: Việc giới thiệu Progressive Loss (ProgLoss) và Soft-Target Anchor Loss (STAL) mang lại những cải tiến đáng kể trong nhận dạng vật thể nhỏ . Điều này rất quan trọng đối với các lĩnh vực như nông nghiệp , nơi việc phát hiện sâu bệnh hoặc cây trồng ở xa đòi hỏi độ chính xác cao.

Tìm hiểu thêm về YOLO26

PP-YOLOE+: The PaddlePaddle Nhà máy điện

PP-YOLOE+ là phiên bản nâng cấp của PP-YOLOv2, được xây dựng dựa trên nền tảng của... PaddlePaddle Khung kiến trúc này sử dụng triết lý không cần anchor box để tránh việc tinh chỉnh siêu tham số liên quan đến anchor box. Nó tích hợp một kiến trúc xương sống mạnh mẽ (CSPRepResNet) và một kiến trúc đầu hiệu quả (ET-head) để cân bằng tốc độ và độ chính xác, đặc biệt là trên phần cứng được hỗ trợ bởi PaddleLite.

Các tính năng chính

Kiến trúc xương sống CSPRepResNet: Sử dụng các phép tích chập nhân lớn để thu được các trường tiếp nhận hiệu quả, cải thiện khả năng trích xuất đặc trưng.
TAL (Học tập căn chỉnh nhiệm vụ): Kết hợp các chiến lược gán nhãn động để căn chỉnh các nhiệm vụ phân loại và định vị trong quá trình huấn luyện.
Tích hợp hệ sinh thái Paddle: tích hợp sâu với các công cụ như PaddleSlim để lượng tử hóa, biến nó thành lựa chọn mạnh mẽ cho các nhà phát triển đã gắn bó với bộ phần mềm Baidu.

Điểm chuẩn hiệu suất

Bảng sau đây so sánh các mẫu trên COCO tập dữ liệu. YOLO26 thể hiện hiệu quả vượt trội, đặc biệt là trong CPU môi trường mà kiến trúc của nó giúp giảm chi phí vận hành lên đến 43%.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

Các trường hợp sử dụng lý tưởng và triển khai

Việc lựa chọn giữa các mô hình này thường phụ thuộc vào phần cứng triển khai và quy trình làm việc mà bạn ưu tiên.

Khi nào nên lựa chọn Ultralytics YOLO26

YOLO26 được thiết kế dành cho các nhà phát triển cần tính linh hoạt và tốc độ . Lượng bộ nhớ tiêu thụ thấp trong quá trình huấn luyện giúp nó dễ tiếp cận hơn với những người không có cấu hình máy tính cấp doanh nghiệp. GPU các cụm.

Các thiết bị biên (Raspberry Pi, thiết bị di động): Loại bỏ DFL và NMS - Thiết kế không cần cấu hình phức tạp giúp YOLO26 trở thành lựa chọn tối ưu cho CPU và NPU. Xem cách triển khai hiệu quả trên các thiết bị biên .
Phân tích video thời gian thực: Đối với việc giám sát thành phố thông minh , độ trễ ổn định của YOLO26 đảm bảo không có khung hình nào bị mất trong giờ cao điểm.
Dự án đa phương thức: Nếu dự án của bạn yêu cầu ước tính tư thế hoặc hộp giới hạn định hướng (OBB) cùng với phát hiện tiêu chuẩn, YOLO26 cung cấp tất cả các tác vụ này trong một thư viện duy nhất.

Khi nào nên chọn PP-YOLOE+

Cơ sở hạ tầng PaddlePaddle : Nếu môi trường sản xuất của bạn đã được xây dựng trên PaddleServing, việc tiếp tục sử dụng PP-YOLOE+ sẽ giảm thiểu khó khăn trong quá trình tích hợp.
Xử lý theo lô GPU phía máy chủ: PP-YOLOE+ có thể rất hiệu quả trong các kịch bản thông lượng cao trên NVIDIA GPU khi được tối ưu hóa với TensorRT Thông qua PaddleInference, đặc biệt dành cho xử lý ảnh tĩnh.

Lợi thế hệ sinh thái

Ultralytics Cung cấp trải nghiệm "Từ con số không đến chuyên gia" liền mạch. Với Nền tảng Ultralytics , bạn có thể gắn nhãn dữ liệu, đào tạo trên đám mây và triển khai ở bất kỳ định dạng nào ( TFLite , ONNX , CoreML ) mà không cần viết các kịch bản xuất phức tạp.

Phương pháp đào tạo: Tính đơn giản so với tính tùy chỉnh

Trải nghiệm đào tạo có sự khác biệt đáng kể giữa hai khuôn khổ này. Ultralytics ưu tiên tính dễ sử dụng và tự động hóa , trong khi PaddlePaddle thường đòi hỏi quản lý cấu hình chi tiết hơn.

Ultralytics Quy trình đào tạo

Việc đào tạo YOLO26 được đơn giản hóa chỉ còn vài dòng lệnh. Python mã hoặc một CLI Lệnh. Khung phần mềm tự động xử lý việc thay đổi siêu tham số và kiểm tra tập dữ liệu.

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Train on COCO8 dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Sự đơn giản này cũng được thể hiện trên Nền tảng Ultralytics , nơi bạn có thể quản lý tập dữ liệu và giám sát quá trình huấn luyện từ xa. Trình tối ưu hóa MuSGD hoạt động ngầm để đảm bảo mô hình của bạn hội tụ nhanh hơn, tiết kiệm chi phí tính toán.

Quy trình đào tạo PP-YOLOE+

Việc huấn luyện PP-YOLOE+ thường bao gồm chỉnh sửa các tệp cấu hình YAML trong kho lưu trữ PaddleDetection. Mặc dù linh hoạt, phương pháp này có thể đòi hỏi người học phải nắm vững cú pháp cụ thể của hệ thống cấu hình Paddle hơn. Nó phụ thuộc rất nhiều vào các phương pháp truyền thống. SGD Với động lực nhất định, cần phải điều chỉnh thủ công lịch trình tốc độ học để đạt được kết quả tối ưu trên các tập dữ liệu tùy chỉnh.

Tính linh hoạt và các tác vụ nâng cao

Một điểm khác biệt quan trọng là phạm vi các tác vụ được hỗ trợ ngay từ đầu.

Ultralytics YOLO26 là một bộ xử lý học máy đa nhiệm thực thụ. Ngoài khả năng phát hiện đối tượng, nó còn bao gồm các kiến trúc chuyên biệt cho:

Phân đoạn đối tượng: Sử dụng hàm mất mát phân đoạn ngữ nghĩa và nguyên mẫu đa tỷ lệ để tạo mặt nạ chính xác.
Ước lượng tư thế: sử dụng ước lượng logarit khả năng xảy ra còn lại (RLE) để hồi quy điểm mấu chốt chính xác.
OBB: Sử dụng phương pháp suy giảm góc chuyên biệt để xử lý các vật thể xoay trong ảnh chụp từ trên không.

PP-YOLOE+ chủ yếu là một bộ phát hiện đối tượng. Mặc dù thư viện PaddleDetection hỗ trợ các tác vụ khác, nhưng chúng thường sử dụng các kiến trúc mô hình hoàn toàn khác nhau (như Mask R-CNN cho phân đoạn) thay vì một kiến trúc thống nhất. YOLO kiến trúc dựa trên , làm phức tạp việc triển khai các quy trình đa nhiệm.

Kết luận

Trong so sánh giữa YOLO26 và PP-YOLOE+ , sự lựa chọn khá rõ ràng đối với hầu hết các kịch bản phát triển hiện đại. Mặc dù PP-YOLOE+ vẫn là một lựa chọn mạnh mẽ cho các hệ sinh thái Baidu/Paddle hiện có, Ultralytics YOLO26 cung cấp một giải pháp toàn diện, hiệu quả và thân thiện với người dùng hơn.

Với thiết kế hoàn toàn không cần NMS , YOLO26 loại bỏ các điểm nghẽn trong quá trình xử lý hậu kỳ, mang lại khả năng suy luận CPU nhanh hơn tới 43% . Kết hợp với hệ sinh thái Ultralytics mạnh mẽ và khả năng xử lý các tác vụ đa dạng như phân đoạn và ước tính tư thế, YOLO26 là lựa chọn được khuyến nghị cho các nhà phát triển muốn đảm bảo tính tương lai cho các ứng dụng thị giác máy tính của họ vào năm 2026.

Đối với những ai quan tâm đến việc khám phá các mô hình khác, Ultralytics Tài liệu cũng bao gồm YOLO11 và RT-DETR , đảm bảo bạn có công cụ phù hợp cho mọi thử thách.

Thông tin chi tiết về YOLO26: Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 14/01/2026
GitHub: Kho lưu trữ Ultralytics

Thông tin chi tiết về PP-YOLOE+: Tác giả: PaddlePaddle Tác giả
Tổ chức: Baidu
Ngày: 02/04/2022
Arxiv: 2203.16250
GitHub: Kho lưu trữ PaddleDetection