PP-YOLOE+ so với YOLOv9 Phân tích chuyên sâu về công nghệ nhận diện đối tượng hiện đại

Lĩnh vực thị giác máy tính thời gian thực liên tục thay đổi, với các nhà nghiên cứu và phát triển không ngừng nỗ lực vượt qua giới hạn về độ chính xác và tốc độ suy luận. Khi so sánh PP-YOLOE+ và YOLOv9 , chúng ta đang xem xét hai triết lý khác biệt về kiến trúc mô hình và thiết kế hệ sinh thái.

Bản so sánh kỹ thuật toàn diện này phân tích những cải tiến về kiến trúc, chỉ số hiệu năng, phương pháp huấn luyện và các trường hợp sử dụng lý tưởng của chúng để giúp bạn chọn mô hình phát hiện đối tượng phù hợp cho lần triển khai tiếp theo.

Nguồn gốc mô hình và nền tảng kỹ thuật

Hiểu rõ nguồn gốc và các lựa chọn kiến trúc của những mô hình này là điều vô cùng quan trọng để xác định mức độ phù hợp của chúng trong các dự án thị giác máy tính của bạn.

Tổng quan về PP-YOLOE+

Được phát triển bởi Các tác giả PaddlePaddle tại Baidu, PP-YOLOE+ được giới thiệu vào ngày 2 tháng 4 năm 2022. Nó được xây dựng dựa trên các phiên bản trước trong khuôn khổ PaddleDetection để mang lại khả năng detect đối tượng hiệu suất cao.

Tác giả: Các tác giả của PaddlePaddle
Tổ chức:Baidu
Ngày: 2022-04-02
Arxiv:2203.16250
GitHub:Kho lưu trữ PaddleDetection

PP-YOLOE+ giới thiệu một kiến trúc không cần neo mạnh mẽ, được tối ưu hóa cao để triển khai trong môi trường... PaddlePaddle Hệ sinh thái này sử dụng kiến trúc xương sống CSPRepResNet đã được sửa đổi và ET-head để cải thiện việc trích xuất đặc trưng và hồi quy hộp giới hạn. Mặc dù đạt được độ chính xác trung bình cao ( mAP ) , nhưng sự phụ thuộc vào... PaddlePaddle Khung phần mềm đôi khi có thể gây ra khó khăn trong việc tích hợp đối với các nhà phát triển đã quen với... PyTorch hoặc TensorFlow .

Tìm hiểu thêm về PP-YOLOE+

Tổng quan về YOLOv9

Lời giới thiệu được thực hiện bởi Chien-Yao Wang và Hong-Yuan Mark Liao từ Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Đài Loan. YOLOv9 Đây là một bước tiến đáng kể trong việc xử lý hiệu quả các nút thắt thông tin trong học sâu.

Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 2024-02-21
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9

YOLOv9 Bước đột phá chính của hệ thống này là Thông tin Gradient có thể lập trình (Programmable Gradient Information - PGI), giúp ngăn ngừa mất dữ liệu khi các đặc trưng được truyền qua mạng nơ-ron sâu. Kết hợp với Mạng tổng hợp lớp hiệu quả tổng quát (Generalized Efficient Layer Aggregation Network - GELAN), YOLOv9 Nó tối ưu hóa hiệu quả tham số và luồng tính toán. Hơn nữa, nó được tích hợp sẵn vào hệ sinh thái Ultralytics , giúp nó dễ tiếp cận cho cả nghiên cứu và ứng dụng thương mại.

Tìm hiểu thêm về YOLOv9

Khác Ultralytics Mô hình

Nếu bạn đang tìm hiểu các tùy chọn tiên tiến nhất, bạn cũng có thể quan tâm đến YOLO11 và RT-DETR , những công nghệ cung cấp sự cân bằng khác nhau giữa độ chính xác dựa trên bộ chuyển đổi và hiệu năng xử lý thời gian thực tại biên.

So sánh hiệu năng và số liệu

Khi phân tích hiệu năng thô, YOLOv9 Thể hiện hiệu quả tham số vượt trội. Nó đạt được độ chính xác tương đương hoặc cao hơn trong khi yêu cầu ít tham số và FLOPs hơn, dẫn đến yêu cầu VRAM thấp hơn trong quá trình huấn luyện mô hình .

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Như đã thấy trong bảng, YOLOv9c đạt mAP mạnh mẽ 53.0 với số lượng tham số ít hơn đáng kể (25.3M) so với PP-YOLOE+l tương đương (52.2M). Việc sử dụng bộ nhớ thấp hơn này làm cho YOLOv9 trở thành lựa chọn ưu việt cho các nhà phát triển làm việc với tài nguyên GPU hạn chế.

Hệ sinh thái, tính linh hoạt và dễ sử dụng

Ưu điểm nổi bật của YOLOv9 nằm ở sự tích hợp liền mạch của nó với hệ thống được bảo trì tốt. Ultralytics hệ sinh thái. Trong khi PP-YOLOE+ yêu cầu điều hướng phức tạp. PaddlePaddle các tệp cấu hình, YOLOv9 được hưởng lợi từ một quy trình tinh gọn Python API.

API Python Ultralytics cho phép các nhà phát triển tải trọng số đã được huấn luyện trước, quản lý việc tăng cường dữ liệu và bắt đầu huấn luyện với mã mẫu tối thiểu.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export the model to ONNX format
model.export(format="onnx")

Hơn nữa, Ultralytics Hệ sinh thái này cung cấp tính linh hoạt vượt trội. Ngoài việc phát hiện hộp giới hạn, khung phần mềm còn hỗ trợ phân đoạn đối tượng , ước tính tư thế và phát hiện hộp giới hạn định hướng (OBB) . Điều này giúp việc điều chỉnh mô hình của bạn cho các quy trình thực tế phức tạp trở nên vô cùng hiệu quả.

Tùy chọn xuất

Các mô hình được huấn luyện bằng cách sử dụng Ultralytics Khung phần mềm này có thể được xuất sang nhiều định dạng khác nhau, bao gồm TensorRT và OpenVINO , đảm bảo khả năng suy luận được tối ưu hóa cao trên nhiều phần cứng khác nhau.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa PP-YOLOE+ và YOLOv9 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn PP-YOLOE+

PP-YOLOE+ là một lựa chọn tuyệt vời cho:

Tích hợp hệ sinh thái PaddlePaddle: Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên khung và công cụ PaddlePaddle của Baidu.
Triển khai biên Paddle Lite: Triển khai trên phần cứng với các nhân suy luận được tối ưu hóa cao, đặc biệt dành cho công cụ suy luận Paddle Lite hoặc Paddle.
Detect phía máy chủ độ chính xác cao: Các kịch bản ưu tiên độ chính xác detect tối đa trên các máy chủ GPU mạnh mẽ, nơi sự phụ thuộc vào framework không phải là mối bận tâm.

Khi nào nên chọn YOLOv9

YOLOv9 được khuyến nghị cho:

Nghiên cứu nút cổ chai thông tin: Các dự án học thuật nghiên cứu kiến trúc Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).
Nghiên cứu tối ưu hóa luồng gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu mất mát thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
Đánh giá hiệu suất detect độ chính xác cao: Các kịch bản cần hiệu suất benchmark COCO mạnh mẽ của YOLOv9 làm điểm tham chiếu cho việc so sánh kiến trúc.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Hướng tới tương lai: Lợi thế của YOLO26

Trong khi cả PP-YOLOE+ và YOLOv9 Với sức mạnh vượt trội, YOLO26 mới ra mắt đại diện cho bước tiến tiếp theo mang tính đột phá dành cho môi trường sản xuất. Được phát hành vào tháng 1 năm 2026, YOLO26 thiết lập một tiêu chuẩn mới cho điện toán biên và triển khai đám mây. Chúng tôi đặc biệt khuyến nghị YOLO26 cho tất cả các dự án thị giác máy tính mới nhờ những cải tiến đột phá của nó:

Thiết kế loại bỏ NMS đầu cuối (End-to-End NMS-Free): YOLO26 có tính đầu cuối tự nhiên, loại bỏ hoàn toàn nhu cầu hậu xử lý Non-Maximum Suppression (NMS). Điều này đơn giản hóa đáng kể các quy trình triển khai và giảm độ trễ.
Tăng tốc suy luận trên CPU lên đến 43%: Bằng cách tối ưu hóa kiến trúc đặc biệt cho điện toán biên, YOLO26 nhanh hơn đáng kể trên phần cứng không có GPU chuyên dụng.
Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ, giúp việc xuất đơn giản hơn và cải thiện đáng kể khả năng tương thích với các thiết bị biên công suất thấp.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện mô hình ngôn ngữ lớn (như Kimi K2 của Moonshot AI), sự kết hợp giữa SGD và Muon này đảm bảo động lực huấn luyện rất ổn định và hội tụ nhanh chóng.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, một nâng cấp thiết yếu cho ảnh chụp từ trên không và robot học.
Cải tiến chuyên biệt theo tác vụ: YOLO26 bao gồm các kiến trúc tùy chỉnh cho các tác vụ cụ thể, chẳng hạn như proto đa tỷ lệ cho segment và Ước tính Log-Likelihood Dư (RLE) cho ước tính tư thế.

Bạn có thể dễ dàng huấn luyện và triển khai các mô hình YOLO26 thông qua Nền tảng Ultralytics , một giải pháp toàn diện cho việc chú thích dữ liệu, huấn luyện trên đám mây và giám sát mô hình.

Các ứng dụng thực tế

Việc lựa chọn giữa các kiến trúc này thường phụ thuộc vào môi trường triển khai mục tiêu của bạn.

PP-YOLOE+ thường được triển khai trong các trung tâm sản xuất công nghiệp, đặc biệt ở những khu vực mà tích hợp PaddlePaddle và ngăn xếp phần cứng của Baidu được nhúng sâu vào cơ sở hạ tầng doanh nghiệp. Nó vượt trội trong phân tích hình ảnh tĩnh, nơi độ chính xác tuyệt đối được ưu tiên hơn các ràng buộc thời gian thực nghiêm ngặt.

YOLOv9 vượt trội trong các môi trường động đòi hỏi suy luận thời gian thực nhanh chóng. Hiệu quả tham số vượt trội của nó làm cho nó lý tưởng cho điều hướng máy bay không người lái tự hành và các hệ thống an ninh dựa trên biên. Hơn nữa, mức tiêu thụ VRAM thấp hơn của nó giúp giảm rào cản gia nhập cho các nhà nghiên cứu huấn luyện trên các GPU cấp tiêu dùng.

Để đạt hiệu suất tối ưu nhất trong quản lý giao thông đô thị thông minh và robot tốc độ cao, YOLO26 thế hệ mới là vô song, mang lại hiệu quả toàn diện mà không phát sinh chi phí vận hành bổ sung. NMS các điểm nghẽn.