PP-YOLOE+ so với YOLOv7: Định hướng các kiến trúc phát hiện đối tượng thời gian thực
Khi xây dựng các pipeline thị giác máy tính, việc lựa chọn đúng mô hình phát hiện đối tượng là rất quan trọng. Hai kiến trúc quan trọng từ năm 2022, PP-YOLOE+ và YOLOv7, đã mang đến những bước tiến mạnh mẽ trong phát hiện đối tượng thời gian thực. Bản so sánh kỹ thuật này cung cấp cái nhìn sâu sắc về kiến trúc, phương pháp huấn luyện và hiệu suất thực tế của chúng để giúp bạn đưa ra các quyết định sáng suốt cho ứng dụng của mình.
Tổng quan về các mô hình
Cả PP-YOLOE+ và YOLOv7 đều được thiết kế để đẩy mạnh giới hạn về độ chính xác và tốc độ, nhưng chúng xuất phát từ các hệ sinh thái phát triển và triết lý thiết kế khác nhau.
PP-YOLOE+
Được phát triển bởi các tác giả PaddlePaddle tại Baidu, PP-YOLOE+ được xây dựng dựa trên PP-YOLOv2 ban đầu. Nó được giới thiệu nhằm cung cấp một bộ phát hiện đối tượng hiệu quả và có độ chính xác cao được tối ưu hóa cho hệ sinh thái PaddlePaddle.
- Tác giả: Các tác giả PaddlePaddle
- Tổ chức: Baidu
- Ngày: 2022-04-02
- Arxiv: 2203.16250
- GitHub: Kho lưu trữ PaddleDetection
- Tài liệu: Tài liệu PP-YOLOE+
YOLOv7
Được phát triển bởi Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao, YOLOv7 đã giới thiệu "trainable bag-of-freebies" để thiết lập các tiêu chuẩn hiện đại (state-of-the-art) mới cho các bộ phát hiện đối tượng thời gian thực tại thời điểm ra mắt.
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy, và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Ngày: 2022-07-06
- Arxiv: 2207.02696
- GitHub: Kho lưu trữ YOLOv7
- Tài liệu: Tài liệu Ultralytics YOLOv7
Đổi mới kiến trúc
Kiến trúc PP-YOLOE+
PP-YOLOE+ dựa nhiều vào mô hình anchor-free, giúp quá trình triển khai đơn giản hơn bằng cách loại bỏ nhu cầu điều chỉnh anchor boxes cho các tập dữ liệu tùy chỉnh. Nó tích hợp backbone RepResNet mạnh mẽ và PAN (Path Aggregation Network) kiểu CSPNet để hợp nhất đặc trưng đa quy mô hiệu quả. Ngoài ra, nó tận dụng khái niệm Task Alignment Learning (TAL) để căn chỉnh các tác vụ phân loại và định vị một cách linh hoạt trong quá trình huấn luyện, đảm bảo độ chính xác cao trên nhiều tác vụ thị giác máy tính.
Kiến trúc YOLOv7
YOLOv7 áp dụng một cách tiếp cận khác bằng cách giới thiệu Extended Efficient Layer Aggregation Network (E-ELAN). Kiến trúc này cho phép mạng học các đặc trưng đa dạng hơn mà không phá hủy đường dẫn gradient ban đầu, dẫn đến sự hội tụ tốt hơn. YOLOv7 cũng sử dụng nhiều kỹ thuật tái tham số hóa mô hình (model re-parameterization)—cụ thể là các tích chập tái tham số hóa được lập kế hoạch—giúp hợp nhất các lớp tích chập trong quá trình inference để tăng tốc độ thực thi mà không làm giảm độ chính xác. Điều này khiến YOLOv7 đặc biệt mạnh mẽ trong các tác vụ như theo dõi đa đối tượng và các hệ thống báo động an ninh phức tạp.
Phân tích hiệu suất
Khi cân bằng giữa tốc độ, số lượng tham số và độ chính xác (mAP), các mô hình này có thế mạnh riêng tùy thuộc vào biến thể cụ thể và phần cứng mục tiêu. Dưới đây là bảng so sánh toàn diện về các chỉ số của chúng.
| Model | kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Mặc dù mô hình PP-YOLOE+x đạt được mAP cao hơn một chút, các biến thể YOLOv7 lại mang đến tỷ lệ tham số trên độ chính xác rất ấn tượng. Kiến trúc YOLOv7 vẫn là lựa chọn ưu tiên cho quá trình xử lý GPU thô, nơi mà việc tối ưu hóa TensorRT mang lại độ trễ cực thấp.
Ưu thế của Ultralytics
Khi huấn luyện và triển khai các mô hình này, framework bạn chọn cũng quan trọng như chính mô hình đó. Việc sử dụng Ultralytics cung cấp trải nghiệm người dùng được tối ưu hóa nhờ API Python thống nhất, đơn giản hóa toàn bộ vòng đời học máy.
- Hệ sinh thái được bảo trì tốt: Các mô hình Ultralytics YOLO được hưởng lợi từ một hệ sinh thái được cập nhật liên tục, tài liệu mạnh mẽ và cộng đồng tích cực.
- Yêu cầu về bộ nhớ: Ultralytics tối ưu hóa mạnh mẽ các chế độ tải dữ liệu và huấn luyện. Việc huấn luyện các mô hình Ultralytics YOLO thường yêu cầu ít bộ nhớ CUDA hơn nhiều so với các kiến trúc dựa trên Transformer nặng nề, cho phép các nhà phát triển sử dụng kích thước batch lớn hơn trên phần cứng cấp độ người dùng.
- Hiệu suất huấn luyện: Tận dụng các chiến lược tăng cường dữ liệu mạnh mẽ và khả năng tinh chỉnh hyperparameter tích hợp, Ultralytics đảm bảo rằng các mô hình hội tụ nhanh chóng với các trọng số tiền huấn luyện sẵn có.
Triển khai API đơn giản
Việc huấn luyện một mô hình YOLOv7 với Ultralytics chỉ mất vài dòng code, tóm lược hoàn toàn các script huấn luyện phức tạp:
from ultralytics import YOLO
# Load a pretrained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to TensorRT for deployment
model.export(format="engine", device=0)Tiêu chuẩn mới: Giới thiệu YOLO26
Mặc dù PP-YOLOE+ và YOLOv7 là những cột mốc trong phát hiện đối tượng, bối cảnh AI phát triển rất nhanh. Đối với bất kỳ dự án thị giác máy tính mới nào, chúng tôi đặc biệt khuyến nghị Ultralytics YOLO26. Ra mắt vào tháng 1 năm 2026, YOLO26 đại diện cho một bước nhảy vọt khổng lồ trong lĩnh vực thị giác AI tại biên (edge-first).
Tại sao YOLO26 vượt trội hơn các kiến trúc cũ:
- Thiết kế End-to-End không cần NMS: YOLO26 là thiết kế end-to-end nguyên bản. Bằng cách loại bỏ hậu xử lý Non-Maximum Suppression (NMS), nó đảm bảo độ trễ inference có thể dự đoán và xác định—một bước đột phá lần đầu tiên xuất hiện trong YOLOv10.
- Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss giúp đơn giản hóa quá trình xuất mô hình và cải thiện đáng kể khả năng tương thích cho các thiết bị biên công suất thấp.
- Tốc độ Inference trên CPU nhanh hơn tới 43%: Đối với các kịch bản thiếu GPU chuyên dụng—chẳng hạn như các cảm biến IoT thành phố thông minh—YOLO26 được tối ưu hóa mạnh mẽ để chạy hiệu quả trực tiếp trên CPU.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM tiên tiến (như Kimi K2 của Moonshot AI), YOLO26 sử dụng sự kết hợp giữa SGD và Muon để đạt được quá trình huấn luyện ổn định và hội tụ nhanh chóng.
- ProgLoss + STAL: Các hàm loss cải tiến này mang lại những bước tiến đáng kể trong việc phát hiện đối tượng nhỏ, điều này rất quan trọng đối với các trường hợp sử dụng như ảnh máy bay không người lái và phát hiện lỗi sản xuất.
Các trường hợp sử dụng lý tưởng và kịch bản triển khai
Khi nào nên sử dụng PP-YOLOE+
PP-YOLOE+ tỏa sáng khi bạn đã tham gia sâu vào hệ sinh thái Baidu và PaddlePaddle. Nếu mục tiêu triển khai của bạn sử dụng phần cứng chuyên dụng được thiết kế riêng cho các mô hình Paddle (ví dụ: trong một số pipeline sản xuất tại châu Á), PP-YOLOE+ cung cấp độ chính xác tuyệt vời và khả năng tích hợp liền mạch. Nó cực kỳ hiệu quả cho tự động hóa sản xuất công nghiệp.
Khi nào nên sử dụng YOLOv7
YOLOv7 vẫn là lựa chọn tuyệt vời cho các tác vụ inference hiệu suất cao chung, đặc biệt là khi triển khai trên phần cứng NVIDIA sử dụng TensorRT. Sự tích hợp của nó vào hệ sinh thái PyTorch khiến nó trở nên linh hoạt cho nghiên cứu học thuật và các pipeline thương mại tùy chỉnh, chẳng hạn như quản lý đám đông thời gian thực hoặc các tác vụ ước tính tư thế phức tạp nơi mà tính toàn vẹn cấu trúc của mạng là tối quan trọng.
Các model khác cần xem xét
Tùy thuộc vào nhu cầu chính xác của bạn, bạn cũng có thể quan tâm đến việc so sánh các kiến trúc này với YOLO11 để có sự linh hoạt sẵn sàng cho sản xuất, hoặc RT-DETR nếu dự án của bạn yêu cầu các ưu điểm cụ thể của Vision Transformer so với các mạng tích chập truyền thống.
Kết luận
Cả PP-YOLOE+ và YOLOv7 đều mang lại những cải tiến đáng kể cho thế giới phát hiện đối tượng thời gian thực. Trong khi PP-YOLOE+ xuất sắc trong các môi trường tiêu chuẩn hóa xoay quanh PaddlePaddle, YOLOv7 cung cấp khả năng linh hoạt và hiệu suất đáng kinh ngạc thông qua hệ sinh thái PyTorch và Ultralytics.
Tuy nhiên, khi các giải pháp thị giác máy tính tiếp tục phát triển, việc sử dụng các công cụ hiện đại là rất cần thiết. Bằng cách đón nhận Nền tảng Ultralytics và các kiến trúc thế hệ mới như YOLO26, các nhà phát triển có thể đảm bảo các ứng dụng của mình luôn đi đầu về tốc độ, độ chính xác và tính dễ sử dụng.