Link to this sectionPP-YOLOE+ so với YOLOv9#
Bối cảnh thị trường thị giác máy tính thời gian thực luôn thay đổi, với các nhà nghiên cứu và lập trình viên liên tục phá vỡ các giới hạn về độ chính xác và tốc độ suy luận. Khi so sánh PP-YOLOE+ và YOLOv9, chúng ta đang xem xét hai triết lý khác biệt trong kiến trúc mô hình và thiết kế hệ sinh thái.
Bản so sánh kỹ thuật toàn diện này phân tích những cải tiến về kiến trúc, các chỉ số hiệu năng, phương pháp huấn luyện và các trường hợp sử dụng lý tưởng để giúp bạn chọn đúng mô hình phát hiện đối tượng cho lần triển khai tiếp theo.
Link to this sectionDòng mô hình và nền tảng kỹ thuật#
Việc hiểu rõ nguồn gốc và các lựa chọn kiến trúc của những mô hình này là rất quan trọng để xác định mức độ phù hợp của chúng trong các dự án thị giác máy tính của bạn.
Link to this sectionTổng quan về PP-YOLOE+#
Được phát triển bởi các tác giả PaddlePaddle tại Baidu, PP-YOLOE+ ra mắt vào ngày 2 tháng 4 năm 2022. Mô hình này xây dựng dựa trên các phiên bản trước đó trong framework PaddleDetection để mang lại khả năng phát hiện đối tượng hiệu suất cao.
- Tác giả: Các tác giả PaddlePaddle
- Tổ chức: Baidu
- Ngày: 2022-04-02
- Arxiv: 2203.16250
- GitHub: Kho lưu trữ PaddleDetection
PP-YOLOE+ giới thiệu một kiến trúc anchor-free mạnh mẽ, được tối ưu hóa chuyên sâu để triển khai trong hệ sinh thái PaddlePaddle. Nó sử dụng backbone CSPRepResNet đã được sửa đổi và ET-head để cải thiện khả năng trích xuất đặc trưng và hồi quy bounding box. Mặc dù đạt được mean Average Precision (mAP) cao, sự phụ thuộc vào framework PaddlePaddle đôi khi có thể gây khó khăn trong việc tích hợp đối với các lập trình viên đã quen thuộc với PyTorch hoặc TensorFlow.
Link to this sectionTổng quan về YOLOv9#
Được giới thiệu bởi Chien-Yao Wang và Hong-Yuan Mark Liao từ Viện Khoa học Thông tin, Academia Sinica, Đài Loan, YOLOv9 đánh dấu một bước tiến đáng kể trong việc xử lý hiệu quả các điểm nghẽn thông tin (information bottlenecks) trong học sâu.
- Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
- Tổ chức: Viện Thông tin học, Academia Sinica, Đài Loan
- Ngày: 2024-02-21
- Arxiv: 2402.13616
- GitHub: WongKinYiu/yolov9
Đột phá lớn nhất của YOLOv9 là Programmable Gradient Information (PGI), giúp ngăn ngừa mất mát dữ liệu khi các đặc trưng đi qua các mạng thần kinh sâu. Kết hợp với Generalized Efficient Layer Aggregation Network (GELAN), YOLOv9 tối đa hóa hiệu quả tham số và luồng tính toán. Hơn nữa, nó được tích hợp sẵn vào hệ sinh thái Ultralytics, giúp nó trở nên cực kỳ dễ tiếp cận cho cả nghiên cứu và ứng dụng thương mại.
Link to this sectionSo sánh Hiệu năng và Chỉ số#
Khi phân tích hiệu năng thực tế, YOLOv9 thể hiện hiệu quả tham số vượt trội. Nó đạt được độ chính xác tương đương hoặc vượt trội trong khi yêu cầu ít tham số và FLOPs hơn, đồng nghĩa với việc giảm yêu cầu VRAM trong quá trình huấn luyện mô hình.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Như đã thấy trong bảng, YOLOv9c đạt mức 53.0 mAP ấn tượng với số lượng tham số ít hơn đáng kể (25.3M) so với đối thủ PP-YOLOE+l (52.2M). Việc sử dụng bộ nhớ thấp hơn này giúp YOLOv9 trở thành lựa chọn vượt trội cho các lập trình viên làm việc với tài nguyên GPU hạn chế.
Link to this sectionHệ sinh thái, sự linh hoạt và tính dễ sử dụng#
Lợi thế xác định của YOLOv9 nằm ở khả năng tích hợp liền mạch với hệ sinh thái Ultralytics được duy trì tốt. Trong khi PP-YOLOE+ đòi hỏi phải làm việc với các tệp cấu hình PaddlePaddle phức tạp, YOLOv9 hưởng lợi từ một Python API được tinh giản.
Ultralytics Python API cho phép các lập trình viên tải trọng số tiền huấn luyện, quản lý tăng cường dữ liệu và bắt đầu huấn luyện với mã nguồn tối thiểu.
from ultralytics import YOLO
# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Export the model to ONNX format
model.export(format="onnx")Hơn nữa, hệ sinh thái Ultralytics cung cấp sự linh hoạt vô song. Ngoài phát hiện bounding box, framework này hỗ trợ sẵn các tác vụ Instance Segmentation, Pose Estimation và phát hiện Oriented Bounding Box (OBB). Điều này giúp việc tùy chỉnh mô hình cho các quy trình phức tạp trong thế giới thực trở nên vô cùng hiệu quả.
Link to this sectionCác trường hợp sử dụng và Khuyến nghị#
Việc lựa chọn giữa PP-YOLOE+ và YOLOv9 phụ thuộc vào yêu cầu cụ thể của dự án, các giới hạn triển khai và sở thích về hệ sinh thái của bạn.
Link to this sectionKhi nào nên chọn PP-YOLOE+#
PP-YOLOE+ là lựa chọn mạnh mẽ cho:
- Tích hợp hệ sinh thái PaddlePaddle: Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên framework và công cụ PaddlePaddle của Baidu.
- Triển khai Paddle Lite Edge: Triển khai lên phần cứng với các kernel suy luận được tối ưu hóa cao dành riêng cho Paddle Lite hoặc engine suy luận Paddle.
- Nhận diện phía máy chủ có độ chính xác cao: Các kịch bản ưu tiên độ chính xác nhận diện tối đa trên các máy chủ GPU mạnh mẽ, nơi sự phụ thuộc vào framework không phải là vấn đề.
Link to this sectionKhi nào nên chọn YOLOv9#
YOLOv9 được khuyến nghị cho:
- Nghiên cứu Nút thắt Thông tin (Information Bottleneck): Các dự án học thuật nghiên cứu về Programmable Gradient Information (PGI) và kiến trúc Generalized Efficient Layer Aggregation Network (GELAN).
- Nghiên cứu Tối ưu hóa Luồng Gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu tình trạng mất thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
- Đo lường Phát hiện Độ chính xác cao: Các kịch bản mà hiệu suất đo lường trên bộ dữ liệu COCO của YOLOv9 cần thiết làm điểm tham chiếu cho các so sánh kiến trúc.
Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.
Link to this sectionHướng tới tương lai: Lợi thế của YOLO26#
Mặc dù cả PP-YOLOE+ và YOLOv9 đều rất mạnh mẽ, YOLO26 mới ra mắt đại diện cho bước tiến tiếp theo mang tính quyết định cho các môi trường sản xuất. Được phát hành vào tháng 1 năm 2026, YOLO26 thiết lập một tiêu chuẩn mới cho điện toán biên và triển khai trên đám mây. Chúng tôi đặc biệt khuyến nghị sử dụng YOLO26 cho tất cả các dự án thị giác máy tính mới nhờ những đổi mới đột phá:
- Thiết kế End-to-End không cần NMS: YOLO26 là mô hình end-to-end bản địa, loại bỏ hoàn toàn nhu cầu hậu xử lý Non-Maximum Suppression (NMS). Điều này giúp đơn giản hóa đáng kể quy trình triển khai và giảm độ trễ.
- Tăng tốc độ suy luận CPU lên đến 43%: Bằng cách tối ưu hóa kiến trúc chuyên biệt cho điện toán biên, YOLO26 hoạt động nhanh hơn đáng kể trên phần cứng không có GPU chuyên dụng.
- Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ, giúp việc xuất mô hình đơn giản hơn và cải thiện đáng kể khả năng tương thích với các thiết bị biên tiêu thụ điện năng thấp.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện mô hình ngôn ngữ lớn (như Kimi K2 của Moonshot AI), sự kết hợp giữa SGD và Muon này đảm bảo động lực huấn luyện ổn định cao và hội tụ nhanh.
- ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong nhận diện vật thể nhỏ, một bản nâng cấp thiết yếu cho ảnh vệ tinh/hàng không và robot.
- Cải tiến theo tác vụ chuyên biệt: YOLO26 bao gồm các kiến trúc tùy chỉnh cho các tác vụ cụ thể, chẳng hạn như multi-scale proto cho phân đoạn ảnh và Residual Log-Likelihood Estimation (RLE) cho ước tính tư thế (pose estimation).
Bạn có thể dễ dàng huấn luyện và triển khai các mô hình YOLO26 thông qua Ultralytics Platform, một giải pháp tất cả trong một dành cho việc gán nhãn tập dữ liệu, huấn luyện trên đám mây và giám sát mô hình.
Link to this sectionỨng dụng trong thực tế#
Việc lựa chọn giữa các kiến trúc này thường phụ thuộc vào môi trường triển khai mục tiêu của bạn.
PP-YOLOE+ thường được triển khai trong các trung tâm sản xuất công nghiệp, đặc biệt là ở những khu vực mà tích hợp PaddlePaddle và stack phần cứng của Baidu được nhúng sâu vào hạ tầng doanh nghiệp. Nó xuất sắc trong phân tích hình ảnh tĩnh, nơi độ chính xác tuyệt đối được ưu tiên hơn các ràng buộc khắt khe về thời gian thực.
YOLOv9 vượt trội trong các môi trường năng động đòi hỏi khả năng suy luận thời gian thực nhanh chóng. Hiệu quả tham số vượt trội của nó khiến nó trở nên lý tưởng cho việc điều hướng drone tự hành và các hệ thống an ninh tại biên. Hơn nữa, mức tiêu thụ VRAM thấp hơn giúp giảm rào cản gia nhập cho các nhà nghiên cứu huấn luyện trên các GPU tiêu dùng.
Để có hiệu năng tốt nhất tuyệt đối trong quản lý giao thông đô thị thông minh và robot tốc độ cao, YOLO26 mới hơn là vô đối, cung cấp hiệu quả end-to-end mà không bị ảnh hưởng bởi các điểm nghẽn NMS.