Ultralytics YOLO26 so với PP-YOLOE+: So sánh kỹ thuật
Bức tranh phát hiện vật thể thời gian thực không ngừng phát triển, với các nhà nghiên cứu và kỹ sư luôn nỗ lực tìm kiếm sự cân bằng tối ưu giữa độ chính xác, tốc độ và tính dễ triển khai. Hai mô hình nổi bật trong lĩnh vực này là Ultralytics YOLO26 và PP-YOLOE+. Mặc dù cả hai mô hình đều đại diện cho những tiến bộ đáng kể trong thị giác máy tính, chúng phục vụ các nhu cầu hệ sinh thái và triết lý kiến trúc khác nhau.
Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện, phân tích kiến trúc, các chỉ số hiệu suất và sự phù hợp của chúng cho các ứng dụng thực tế. Chúng ta sẽ khám phá cách các đổi mới hiện đại của YOLO26 đối lập với khuôn khổ đã được thiết lập của PP-YOLOE+.
Tổng quan và Nguồn gốc Mô hình
Việc hiểu rõ nguồn gốc của các mô hình này giúp làm rõ mục tiêu thiết kế và đối tượng người dùng mà chúng hướng tới.
Ultralytics YOLO26
Được phát hành vào tháng 1 năm 2026 bởi Glenn Jocher và Jing Qiu tại Ultralytics, YOLO26 đại diện cho sự phát triển mới nhất trong dòng YOLO nổi tiếng. Nó được thiết kế đặc biệt cho các thiết bị biên và công suất thấp, tập trung vào hiệu quả từ đầu đến cuối một cách tự nhiên.
Các đổi mới chính bao gồm việc loại bỏ Non-Maximum Suppression (NMS) để tối ưu hóa suy luận, giới thiệu bộ tối ưu hóa MuSGD (lấy cảm hứng từ Kimi K2 của Moonshot AI), và các đơn giản hóa kiến trúc đáng kể như loại bỏ Distribution Focal Loss (DFL). Những thay đổi này biến nó thành một lựa chọn mạnh mẽ cho các nhà phát triển cần tốc độ và sự đơn giản mà không phải hy sinh độ chính xác.
PP-YOLOE+
PP-YOLOE+ là phiên bản nâng cấp của PP-YOLOE, được phát triển bởi nhóm PaddlePaddle tại Baidu. Được phát hành vào khoảng tháng 4 năm 2022, nó được xây dựng trên nền tảng học sâu PaddlePaddle. Nó tập trung vào việc tinh chỉnh kiến trúc xương sống CSPRepResStage và sử dụng chiến lược gán nhãn động được gọi là TAL (Task Alignment Learning). Mặc dù có khả năng cao, nó lại gắn chặt với hệ sinh thái PaddlePaddle, điều này có thể ảnh hưởng đến các lựa chọn triển khai cho người dùng quen thuộc với PyTorch hoặc các framework khác.
Kiến trúc và Triết lý Thiết kế
Sự khác biệt cốt lõi giữa hai mô hình này nằm ở cách chúng xử lý việc gán nhãn, hậu xử lý và tối ưu hóa huấn luyện.
YOLO26: Cuộc cách mạng từ đầu đến cuối
YOLO26 nổi bật với tính năng end-to-end (từ đầu đến cuối), nghĩa là nó tạo ra các dự đoán cuối cùng trực tiếp từ mạng mà không yêu cầu bước hậu xử lý NMS riêng biệt. Lựa chọn thiết kế này, được tiên phong trong YOLOv10, loại bỏ độ trễ và sự phức tạp liên quan đến việc điều chỉnh ngưỡng NMS.
- Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 đơn giản hóa đồ thị mô hình, giúp các định dạng xuất như ONNX và TensorRT trở nên gọn gàng hơn và tương thích tốt hơn với phần cứng biên.
- Bộ tối ưu MuSGD: Là sự kết hợp giữa SGD và Muon, bộ tối ưu này mang lại những cải tiến về độ ổn định đã thấy trong huấn luyện LLM cho thị giác máy tính, đảm bảo hội tụ nhanh hơn.
- Tập trung vào vật thể nhỏ: Các tính năng như ProgLoss và Small-Target-Aware Label Assignment (STAL) đặc biệt nhắm đến việc cải thiện khả năng phát hiện vật thể nhỏ, điều này rất quan trọng đối với ảnh chụp từ trên không và các ứng dụng máy bay không người lái.
PP-YOLOE+: Phát hiện không neo được tinh chỉnh
PP-YOLOE+ tuân theo mô hình không neo (anchor-free) nhưng dựa vào một quy trình hậu xử lý truyền thống hơn so với phương pháp end-to-end của YOLO26.
- Backbone: Nó sử dụng backbone CSPRepResStage, kết hợp các khối kiểu rep-vgg với kết nối CSP (Cross Stage Partial).
- Gán nhãn: Nó sử dụng Task Alignment Learning (TAL), giúp căn chỉnh động điểm phân loại và chất lượng định vị.
- Trọng tâm: Phiên bản "Plus" nhấn mạnh việc cải thiện tốc độ huấn luyện và hội tụ bằng cách khởi tạo với các trọng số được huấn luyện trước tốt hơn, thường là trên Objects365.
Tại sao End-to-End quan trọng
Đối với triển khai biên, mỗi mili giây đều quan trọng. Thiết kế end-to-end không NMS có nghĩa là đầu ra của mô hình sẵn sàng sử dụng ngay lập tức. Không cần phải thực hiện việc sắp xếp và lọc hàng nghìn hộp ứng cử viên tốn nhiều tài nguyên CPU, một nút thắt cổ chai phổ biến trong các bộ detect truyền thống chạy trên phần cứng hạn chế như Raspberry Pi.
So sánh Các chỉ số Hiệu suất
Bảng sau đây so sánh hiệu suất của YOLO26 và PP-YOLOE+ trên tập dữ liệu COCO. YOLO26 thể hiện hiệu quả vượt trội, đặc biệt về số lượng tham số và tốc độ suy luận, làm nổi bật khả năng tối ưu hóa của nó cho phần cứng hiện đại.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Những điểm chính:
- Hiệu quả: YOLO26n đạt độ chính xác cao hơn (40.9 mAP) so với PP-YOLOE+t (39.9 mAP) với số lượng tham số chỉ bằng một nửa (2.4M so với 4.85M) và số FLOPs bằng một phần tư (5.4B so với 19.15B).
- Tốc độ: YOLO26 nhanh hơn đáng kể trong suy luận trên GPU (T4 TensorRT), với mô hình nano đạt 1.7ms so với 2.84ms của mô hình PP-YOLOE+ tương đương.
- Tối ưu hóa CPU: YOLO26 được tối ưu hóa rõ ràng cho CPU, có khả năng suy luận nhanh hơn tới 43%, làm cho nó lý tưởng cho các thiết bị thiếu bộ tăng tốc chuyên dụng.
Đào tạo và Hệ sinh thái
Trải nghiệm của nhà phát triển không chỉ được định nghĩa bởi kiến trúc mô hình mà còn bởi các công cụ xung quanh nó.
Dễ sử dụng với Ultralytics
Ultralytics ưu tiên trải nghiệm người dùng liền mạch. YOLO26 được tích hợp vào một gói Python thống nhất hỗ trợ detect, segment, ước tính tư thế, phân loại và Hộp giới hạn hướng (OBB).
Các nhà phát triển có thể bắt đầu huấn luyện trong vài giây với CLI hoặc API Python trực quan:
from ultralytics import YOLO
# Load the YOLO26s model
model = YOLO("yolo26s.pt")
# Train on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Hệ sinh thái này mở rộng đến việc triển khai dễ dàng. Chế độ export hỗ trợ chuyển đổi sang các định dạng như OpenVINO, CoreML, và TensorRT chỉ với một lệnh duy nhất.
PP-YOLOE+ và PaddlePaddle
PP-YOLOE+ được tích hợp sâu vào framework PaddlePaddle. Mặc dù mạnh mẽ, người dùng thường phải đối mặt với đường cong học tập dốc hơn nếu họ chưa quen thuộc với hệ sinh thái Baidu. Huấn luyện thường bao gồm việc cấu hình các tệp yaml phức tạp và sử dụng các script PaddleDetection cụ thể. Việc chuyển đổi mô hình sang các công cụ suy luận không phải Paddle đôi khi có thể yêu cầu các bước chuyển đổi bổ sung (ví dụ: Paddle sang ONNX sang TensorRT).
Các trường hợp và ứng dụng sử dụng
Các kịch bản lý tưởng cho YOLO26
- AI biên và IoT: Nhờ số FLOPs thấp và việc loại bỏ DFL, YOLO26 hoạt động xuất sắc trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson.
- Phân tích video thời gian thực: Tốc độ suy luận cao làm cho nó hoàn hảo cho việc giám sát giao thông hoặc an ninh, nơi tốc độ khung hình là rất quan trọng.
- Hình ảnh từ trên không và máy bay không người lái: Các hàm STAL và ProgLoss mang lại lợi thế rõ rệt trong việc detect các vật thể nhỏ từ độ cao lớn.
- Yêu cầu đa nhiệm: Các dự án cần ước tính tư thế hoặc segmentation thể hiện cùng với detect có thể sử dụng cùng một API và họ mô hình.
Các kịch bản lý tưởng cho PP-YOLOE+
- Triển khai trung tâm dữ liệu: Đối với các kịch bản có sẵn các cụm GPU lớn và hiệu quả tham số thô ít quan trọng hơn so với các ưu tiên kiến trúc cụ thể.
- Hệ thống kế thừa PaddlePaddle: Các tổ chức đã đầu tư mạnh vào cơ sở hạ tầng PaddlePaddle sẽ thấy việc nâng cấp lên PP-YOLOE+ dễ dàng hơn là chuyển đổi framework.
Kết luận
Mặc dù PP-YOLOE+ vẫn là một bộ detect hiệu quả, Ultralytics YOLO26 mang đến một giải pháp hiện đại, hiệu quả và thân thiện với người dùng hơn cho phần lớn các ứng dụng thị giác máy tính. Thiết kế end-to-end NMS-free của nó, kết hợp với độ chính xác tiên tiến và mức sử dụng tài nguyên tối thiểu, định vị nó là lựa chọn ưu việt cho các nhà phát triển muốn triển khai các giải pháp AI mạnh mẽ vào năm 2026.
Việc tích hợp liền mạch với hệ sinh thái Ultralytics đảm bảo rằng từ gắn nhãn dữ liệu đến triển khai, quy trình làm việc vẫn diễn ra suôn sẻ và hiệu quả.
Đọc thêm
Đối với những ai quan tâm đến việc khám phá các tùy chọn khác hoặc các thế hệ trước, hãy tham khảo tài liệu về:
- YOLO11 - Mô hình tiên tiến nhất trước đây.
- YOLOv10 - Người tiên phong trong lĩnh vực detect đối tượng thời gian thực end-to-end.
- RT-DETR - Một bộ detect dựa trên transformer mang lại độ chính xác cao.