PP-YOLOE+ so với YOLO26: Phát hiện đối tượng tiên tiến nhất

Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn kiến trúc phát hiện đối tượng phù hợp là rất quan trọng để cân bằng giữa độ chính xác, tốc độ và tính dễ triển khai. Bài so sánh này khám phá PP-YOLOE+ , một phiên bản được cải tiến của PP-YOLOE từ... PaddlePaddle và YOLO26 , bước đột phá mới nhất được tối ưu hóa cho thiết bị biên từ Ultralytics Cả hai mô hình đều đại diện cho những cột mốc quan trọng trong việc phát hiện theo thời gian thực, nhưng chúng phục vụ cho các hệ sinh thái và nhu cầu triển khai khác nhau.

So sánh hiệu năng hình ảnh

Biểu đồ sau đây minh họa sự đánh đổi về hiệu năng giữa PP-YOLOE+ và YOLO26, làm nổi bật những cải tiến về độ trễ và độ chính xác đạt được bởi kiến trúc mới hơn.

Tổng quan mô hình

PP-YOLOE+

PP-YOLOE+ là phiên bản nâng cấp của PP-YOLOE, được phát triển bởi... PaddlePaddle Nhóm nghiên cứu tại Baidu đã phát triển giải pháp này. Nó dựa trên mô hình không cần điểm neo, giới thiệu kiến trúc thống nhất đám mây-điện toán biên hoạt động tốt trên nhiều nền tảng phần cứng khác nhau. Giải pháp tập trung vào việc tối ưu hóa sự cân bằng giữa độ chính xác và tốc độ suy luận, đặc biệt là trong phạm vi... PaddlePaddle hệ sinh thái.

Tác giả: Các tác giả của PaddlePaddle
Tổ chức:Baidu
Ngày: 2 tháng 4 năm 2022
Arxiv:2203.16250
GitHub:PaddleDetection
Tài liệu:Tài liệu PP-YOLOE+

Tìm hiểu thêm về PP-YOLOE+

YOLO26

YOLO26 là phiên bản mới nhất trong dòng sản phẩm này. YOLO gia đình bởi Ultralytics Được thiết kế để định nghĩa lại hiệu quả cho điện toán biên. Ra mắt vào tháng 1 năm 2026, nó giới thiệu kiến trúc NMS Non-Maximum Suppression) nguyên bản từ đầu đến cuối , loại bỏ nhu cầu xử lý hậu kỳ bằng phương pháp Non-Maximum Suppression. Với những tối ưu hóa quan trọng như loại bỏ Distribution Focal Loss (DFL) và giới thiệu trình tối ưu hóa MuSGD, YOLO26 được thiết kế đặc biệt cho suy luận tốc độ cao trên CPU và các thiết bị tiêu thụ điện năng thấp.

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 14 tháng 1 năm 2026
GitHub:Kho lưu trữ Ultralytics
Tài liệu:Tài liệu YOLO26

Tìm hiểu thêm về YOLO26

Kiến trúc kỹ thuật và đổi mới

Sự khác biệt về kiến trúc giữa hai mô hình này quyết định tính phù hợp của chúng đối với các nhiệm vụ cụ thể.

Kiến trúc PP-YOLOE+

PP-YOLOE+ sử dụng kiến trúc xương sống CSPRepResNet và mạng kim tự tháp đặc trưng (FPN) với mạng tổng hợp đường dẫn (PAN) để kết hợp các đặc trưng đa tỷ lệ. Những cải tiến chính bao gồm:

Thiết kế không cần Anchor: Loại bỏ việc tinh chỉnh siêu tham số hộp neo, đơn giản hóa quy trình huấn luyện.
Học tập căn chỉnh nhiệm vụ (TAL): Căn chỉnh rõ ràng các nhiệm vụ phân loại và định vị, cải thiện chất lượng lựa chọn mẫu tích cực.
ET-Head: Một đầu đọc/ghi hiệu quả, tập trung vào nhiệm vụ cụ thể, giúp giảm thiểu chi phí tính toán trong khi vẫn duy trì độ chính xác.

Tuy nhiên, PP-YOLOE+ dựa trên các phương pháp truyền thống. NMS Quá trình xử lý hậu kỳ có thể gây ra sự thay đổi độ trễ tùy thuộc vào số lượng đối tượng được phát hiện trong một cảnh.

Đổi mới YOLO26

YOLO26 đại diện cho một sự thay đổi mang tính đột phá hướng tới khả năng phát hiện từ đầu đến cuối .

NMS - Thiết kế tự do: Bằng cách chỉ tạo ra một dự đoán duy nhất cho mỗi đối tượng, YOLO26 loại bỏ hoàn toàn NMS - Thiết kế tự do: NMS bước này rất quan trọng đối với việc triển khai trên các thiết bị biên, nơi logic xử lý hậu kỳ có thể là điểm nghẽn.
Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ quá trình huấn luyện Mô hình Ngôn ngữ Lớn (LLM), đây là sự kết hợp của... SGD và Muon (từ Moonshot AI) giúp ổn định quá trình huấn luyện và tăng tốc độ hội tụ.
ProgLoss + STAL: Sự kết hợp giữa Progressive Loss và Soft Task Alignment Loss giúp tăng đáng kể hiệu suất trong việc phát hiện các vật thể nhỏ , một thách thức phổ biến trong ảnh chụp từ trên không và robot.
Loại bỏ DFL: Việc loại bỏ tổn hao tiêu điểm phân tán giúp đơn giản hóa đồ thị mô hình, làm cho việc xuất sang các định dạng như ONNX và TFLite trở nên gọn gàng hơn và tương thích hơn với nhiều bộ tăng tốc phần cứng khác nhau.

Luyện tập tính ổn định với MuSGD

Bộ tối ưu hóa MuSGD trong YOLO26 mang lại sự ổn định của quá trình huấn luyện LLM cho thị giác máy tính. Bằng cách quản lý động lượng và độ dốc một cách thích ứng, nó giảm thiểu nhu cầu tinh chỉnh siêu tham số phức tạp, cho phép người dùng đạt được độ chính xác tối ưu trong ít epoch hơn so với các phương pháp tiêu chuẩn. SGD hoặc AdamW .

Các chỉ số hiệu suất

Bảng dưới đây so sánh hiệu năng của PP-YOLOE+ và YOLO26 trên... COCO tập dữ liệu.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

Những điểm chính:

Hiệu quả: Các mô hình YOLO26 luôn yêu cầu ít phép tính FLOP và tham số hơn để đạt độ chính xác cao hơn. Ví dụ, YOLO26x đạt được độ chính xác đáng kinh ngạc 57,5 mAP chỉ với 55,7 triệu tham số , trong khi PP-YOLOE+x cần 98,42 triệu tham số để đạt được 54,7 mAP .
Tốc độ suy luận: YOLO26 thể hiện tốc độ vượt trội trên GPU (T4) TensorRT ), với phiên bản Nano có thời gian phản hồi chỉ 1,7 ms . CPU Khả năng tối ưu hóa cũng rất đáng chú ý, mang lại tốc độ suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, lý tưởng cho các thiết bị không có bộ tăng tốc chuyên dụng.
Độ chính xác: Trên mọi kích thước, từ Nano/Tiny đến Cực lớn, YOLO26 vượt trội hơn PP-YOLOE+ về độ chính xác. mAP trên COCO tập dữ liệu xác thực.

Hệ sinh thái và Dễ sử dụng

Khi lựa chọn mô hình, hệ sinh thái xung quanh cũng quan trọng không kém các chỉ số thô.

Lợi thế Hệ sinh thái Ultralytics

Ultralytics Các mẫu điện thoại, bao gồm cả YOLO26, đều được hưởng lợi từ một nền tảng thống nhất, lấy người dùng làm trung tâm.

API được tối ưu hóa: Một cách nhất quán Python Giao diện cho phép bạn chuyển đổi liền mạch giữa các chế độ phát hiện , phân đoạn , ước lượng tư thế , phân loại và OBB .
Nền tảng Ultralytics : Nền tảng Ultralytics cung cấp giải pháp không cần lập trình để quản lý tập dữ liệu, gắn nhãn và huấn luyện chỉ với một cú nhấp chuột trên nền tảng đám mây.
Tài liệu hướng dẫn: Tài liệu hướng dẫn chi tiết và được cập nhật thường xuyên sẽ hướng dẫn người dùng từng bước, từ cài đặt đến triển khai trên các thiết bị biên như Raspberry Pi .
Hiệu quả bộ nhớ: YOLO26 được thiết kế để tiết kiệm bộ nhớ trong quá trình huấn luyện, cho phép sử dụng kích thước batch lớn hơn trên các GPU thông thường so với các giải pháp thay thế ngốn bộ nhớ hơn.

Hệ sinh thái PaddlePaddle

PP-YOLOE+ được tích hợp sâu vào Baidu. PaddlePaddle hệ sinh thái. Mặc dù mạnh mẽ, nó thường yêu cầu một chuỗi công cụ cụ thể (PaddleDetection) có thể đòi hỏi người dùng quen thuộc với các công cụ khác phải học hỏi nhiều hơn. PyTorch Nó hoạt động xuất sắc trong những môi trường mà... PaddlePaddle Việc tích hợp phần cứng (như chip Baidu Kunlun) là một ưu tiên.

Các trường hợp và ứng dụng sử dụng

Phân tích dữ liệu thời gian thực tại biên

Đối với các ứng dụng chạy trên các thiết bị biên như camera thông minh hoặc máy bay không người lái, YOLO26 là lựa chọn tối ưu. Thiết kế không cần hệ quản lý mạng NMS từ đầu đến cuối đảm bảo độ trễ có thể dự đoán được, điều này rất quan trọng đối với các hệ thống an toàn. Số lượng phép tính FLOPs giảm cho phép nó hoạt động hiệu quả trên phần cứng chạy bằng pin.

Tự động hóa công nghiệp

Trong môi trường sản xuất đòi hỏi độ chính xác cao, chẳng hạn như kiểm tra chất lượng , cả hai mẫu đều có khả năng đáp ứng. Tuy nhiên, chức năng ProgLoss của YOLO26 cải thiện khả năng phát hiện các khuyết tật nhỏ, giúp nó có ưu thế trong việc phát hiện các lỗi nhỏ trên dây chuyền sản xuất.

Các nhiệm vụ thị giác phức tạp

Trong khi PP-YOLOE+ tập trung chủ yếu vào việc phát hiện, YOLO26 hỗ trợ nhiều tác vụ hơn ngay từ khi xuất xưởng.

Phân đoạn đối tượng: Để che phủ đối tượng một cách chính xác.
Ước lượng tư thế: Yếu tố then chốt trong nhận diện hoạt động của con người .
Hộp giới hạn định hướng (OBB): Cần thiết cho khảo sát trên không và hậu cần vận chuyển hàng hóa khi các đối tượng được xoay.

Tính linh hoạt đa nhiệm

Không giống như PP-YOLOE+, vốn yêu cầu các kiến trúc mô hình khác nhau cho các nhiệm vụ khác nhau, Ultralytics cho phép bạn dễ dàng thay đổi tiêu đề tác vụ. Ví dụ, chuyển sang yolo26n-pose.pt Cho phép phát hiện điểm mấu chốt ngay lập tức với cùng một API quen thuộc.

Ví dụ mã: Bắt đầu với YOLO26

Việc huấn luyện và triển khai YOLO26 vô cùng đơn giản nhờ vào... Ultralytics Python API. Đoạn mã sau đây minh họa cách tải mô hình đã được huấn luyện trước và chạy suy luận trên một hình ảnh.

from ultralytics import YOLO

# Load the nano version of YOLO26 (NMS-free, highly efficient)
model = YOLO("yolo26n.pt")

# Perform inference on a remote image
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize the results
for result in results:
    result.show()  # Display predictions on screen
    result.save("output.jpg")  # Save annotated image to disk

Kết luận

Cả PP-YOLOE+ và YOLO26 đều là những đóng góp ấn tượng cho lĩnh vực thị giác máy tính. PP-YOLOE+ vẫn là một lựa chọn vững chắc cho các nhóm đã đầu tư vào... PaddlePaddle cơ sở hạ tầng.

Tuy nhiên, đối với phần lớn các nhà phát triển và nhà nghiên cứu, Ultralytics YOLO26 cung cấp một gói giải pháp vượt trội. Kiến trúc tích hợp toàn diện giúp đơn giản hóa quy trình triển khai, trong khi độ chính xác hàng đầu và tốc độ kỷ lục khiến nó trở thành mô hình linh hoạt nhất cho năm 2026. Kết hợp với sự hỗ trợ mạnh mẽ từ hệ sinh thái Ultralytics và các tính năng như Ultralytics Platform , YOLO26 giúp giảm đáng kể thời gian từ khâu ý tưởng đến khi đưa vào sản xuất.

Đối với người dùng quan tâm đến các kiến trúc hiện đại khác, tài liệu cũng đề cập đến các lựa chọn thay thế xuất sắc như YOLO11 và RT-DETR dựa trên transformer.