PP-YOLOE+ so với YOLOv5: Tìm hiểu các kiến trúc phát hiện đối tượng
Khi chọn framework deep learning phù hợp cho thị giác máy tính, các nhà phát triển thường so sánh khả năng của các kiến trúc khác nhau để tìm ra sự cân bằng hoàn hảo giữa tốc độ, độ chính xác và tính dễ triển khai. Trong bài phân tích chuyên sâu này, chúng ta sẽ khám phá các sắc thái kỹ thuật giữa PP-YOLOE+ và YOLOv5. Bằng cách phân tích kiến trúc, số liệu hiệu suất và các kịch bản triển khai lý tưởng, bạn có thể đưa ra quyết định sáng suốt cho dự án tiếp theo của mình, bất kể là dự án về robot thời gian thực, triển khai tại biên (edge) hay phân tích video trên đám mây.
Nguồn gốc và Siêu dữ liệu Model
Cả hai model đều bắt nguồn từ các đội ngũ kỹ thuật trình độ cao nhưng nhắm đến các hệ sinh thái hơi khác nhau. Hiểu rõ nguồn gốc của chúng cung cấp bối cảnh giá trị cho các lựa chọn thiết kế kiến trúc của chúng.
Chi tiết về PP-YOLOE+:
- Tác giả: Các tác giả của PaddlePaddle
- Tổ chức: Baidu
- Ngày: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Tài liệu: PaddleDetection README
Chi tiết về YOLOv5:
- Tác giả: Glenn Jocher
- Tổ chức: Ultralytics
- Ngày: 2020-06-26
- GitHub: https://github.com/ultralytics/yolov5
- Tài liệu: https://docs.ultralytics.com/models/yolov5/
So sánh kiến trúc
Kiến trúc PP-YOLOE+
PP-YOLOE+ là một bước tiến trong hệ sinh thái Baidu, được xây dựng dựa trên nền tảng của các model trước đó như PP-YOLOv2. Nó giới thiệu backbone CSPRepResNet được tối ưu hóa mạnh mẽ, giúp tăng cường khả năng trích xuất đặc trưng bằng cách kết hợp các nguyên lý của mạng Cross Stage Partial (CSP) với các kỹ thuật tái tham số hóa. Điều này cho phép model duy trì độ chính xác cao trong quá trình huấn luyện trong khi vẫn rút gọn được kiến trúc để tăng tốc độ suy luận (inference).
Ngoài ra, PP-YOLOE+ sử dụng Task Alignment Learning (TAL) và Efficient Task-aligned head (ET-head). Sự kết hợp này nhằm giải quyết tình trạng lệch lạc giữa các tác vụ phân loại và định vị, một nút thắt cổ chai phổ biến trong các bộ phát hiện đối tượng dày đặc. Mặc dù có cấu trúc ấn tượng, kiến trúc này lại liên kết chặt chẽ với framework PaddlePaddle, điều này có thể gây ra những thách thức về tích hợp cho các đội ngũ đang tiêu chuẩn hóa trên các thư viện ML phổ biến khác.
Kiến trúc YOLOv5
Ngược lại, YOLOv5 được thiết kế nguyên bản trên PyTorch, tiêu chuẩn công nghiệp cho cả nghiên cứu học thuật và sản xuất doanh nghiệp. Nó sử dụng backbone CSPDarknet53 đã được sửa đổi, nổi tiếng với luồng gradient đặc biệt và hiệu suất tham số cao.
Một đặc điểm nổi bật của YOLOv5 là thuật toán AutoAnchor, giúp tự động kiểm tra và điều chỉnh kích thước anchor box dựa trên tập dữ liệu tùy chỉnh cụ thể của bạn trước khi huấn luyện. Điều này loại bỏ việc điều chỉnh thủ công các siêu tham số cho hộp bao (bounding box). Neck Path Aggregation Network (PANet) của model đảm bảo việc hợp nhất đặc trưng đa quy mô mạnh mẽ, khiến nó đạt hiệu quả cao trong việc phát hiện đối tượng ở nhiều kích thước khác nhau.
Vì YOLOv5 được xây dựng trực tiếp trên PyTorch, việc xuất sang các định dạng tối ưu hóa như ONNX và TensorRT yêu cầu ít cấu hình trung gian hơn đáng kể so với các model bị ràng buộc bởi các framework nội bộ.
Phân tích hiệu suất
Việc đánh giá các model này đòi hỏi phải xem xét sự cân bằng giữa mean Average Precision (mAP) và độ trễ. Bảng sau đây hiển thị các số liệu trên các kích thước model khác nhau.
| Model | kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Trong khi PP-YOLOE+ đạt được điểm mAP rất cạnh tranh ở các quy mô lớn hơn (như biến thể X), YOLOv5 cung cấp tốc độ vượt trội và số lượng tham số thấp hơn ở phân khúc nhỏ hơn. YOLOv5 Nano (YOLOv5n) chỉ yêu cầu 2,6 triệu tham số, làm cho nó rất phù hợp cho các thiết bị biên bị hạn chế tài nguyên, nơi các yêu cầu về bộ nhớ rất khắt khe. Hơn nữa, việc huấn luyện các model YOLO thường tiêu tốn ít bộ nhớ CUDA hơn so với các phương án thay thế nặng nề dựa trên Transformer như RT-DETR.
Ưu thế của Ultralytics
Khi chọn một kiến trúc, các số liệu thô chỉ là một phần của phương trình. Trải nghiệm nhà phát triển, sự hỗ trợ của hệ sinh thái và quy trình triển khai thường quyết định sự thành công thực tế của một dự án. Đây là nơi các model của Ultralytics tỏa sáng.
Sự dễ sử dụng vượt trội
Python API của Ultralytics giúp loại bỏ các đoạn mã mẫu (boilerplate code) phức tạp. Các nhà phát triển có thể bắt đầu huấn luyện, xác thực hiệu suất và triển khai model một cách liền mạch. Tài liệu rất phong phú, được duy trì cao và được hỗ trợ bởi một cộng đồng mã nguồn mở toàn cầu khổng lồ.
Tính linh hoạt trên nhiều tác vụ
Mặc dù PP-YOLOE+ là một trình phát hiện đối tượng chuyên dụng, hệ sinh thái Ultralytics cho phép người dùng giải quyết nhiều tác vụ thị giác máy tính khác nhau trong một API thống nhất duy nhất. Với YOLOv5 và các phiên bản kế nhiệm, bạn có thể dễ dàng chuyển đổi từ các hộp bao tiêu chuẩn sang phân đoạn ảnh (Image Segmentation) và các quy trình phân loại.
Ví dụ về mã: Huấn luyện YOLOv5
Để bắt đầu chỉ cần một vài dòng mã. Sự đơn giản này giúp tăng tốc đáng kể các chu kỳ nghiên cứu và phát triển.
from ultralytics import YOLO
# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run fast inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()Các trường hợp sử dụng trong thực tế
Khi nào nên chọn PP-YOLOE+: Nếu tổ chức của bạn gắn bó sâu sắc với hệ sinh thái phần mềm Baidu hoặc phụ thuộc nhiều vào phần cứng chuyên dụng yêu cầu framework PaddlePaddle, PP-YOLOE+ là một lựa chọn hiệu quả. Nó thường được sử dụng trong các quy trình sản xuất chuyên biệt trên khắp châu Á, nơi tồn tại sự tích hợp kế thừa với Paddle.
Khi nào nên chọn YOLOv5: Đối với đại đa số các nhà phát triển, nhà nghiên cứu và doanh nghiệp quốc tế, YOLOv5 vẫn là một cường quốc. Nguồn gốc PyTorch của nó có nghĩa là nó tương thích ngay lập tức với các công cụ như Weights & Biases để theo dõi, và nó xuất ra một cách sạch sẽ sang TensorRT để tăng tốc GPU NVIDIA hoặc CoreML cho các thiết bị Apple. Nó vượt trội trong nhiều lĩnh vực đa dạng từ giám sát cây trồng nông nghiệp đến điều hướng drone tốc độ cao.
Tương lai của phát hiện: Ultralytics YOLO26
Mặc dù YOLOv5 là một model mang tính biểu tượng, nhưng biên giới của thị giác máy tính đã tiến xa hơn. Đối với tất cả các dự án phát triển mới, chúng tôi đặc biệt khuyến nghị chuyển sang YOLO26, được phát hành vào tháng 1 năm 2026. Có sẵn một cách liền mạch thông qua Nền tảng Ultralytics, YOLO26 định nghĩa lại hoàn toàn hiệu quả.
Các cải tiến chính trong YOLO26:
- Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ hoàn toàn quá trình xử lý hậu kỳ Non-Maximum Suppression. Điều này làm giảm sự biến thiên về độ trễ và đơn giản hóa đáng kể quy trình triển khai.
- Tốc độ suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ Distribution Focal Loss (DFL) một cách chiến lược, YOLO26 tăng tốc độ đáng kể trên các thiết bị biên không có GPU.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các Large Language Models hàng đầu, bộ tối ưu hóa lai này ổn định động lực huấn luyện và cho phép hội tụ nhanh hơn nhiều trên các tập dữ liệu tùy chỉnh.
- Cải tiến theo tác vụ: Các tính năng bao gồm các hàm mất mát (loss function) nâng cao như ProgLoss và STAL, mang lại độ chính xác chưa từng có trên các đối tượng nhỏ. Nó hỗ trợ nguyên bản việc phát hiện Oriented Bounding Box (OBB) cho ảnh chụp trên không.
Nếu bạn đang khám phá các model thị giác máy tính hiện đại, bạn cũng có thể quan tâm đến việc so sánh thế hệ trước YOLO11 hoặc các phương pháp dựa trên Transformer như RT-DETR. Cuối cùng, hệ sinh thái mạnh mẽ, kết hợp với các tiến bộ kiến trúc tiên tiến, khẳng định Ultralytics là lựa chọn hàng đầu cho các tác vụ thị giác máy tính hiện đại.