PP-YOLOE+ so với YOLOv5 Điều hướng các kiến trúc phát hiện đối tượng

Khi lựa chọn khung học sâu phù hợp cho thị giác máy tính, các nhà phát triển thường so sánh khả năng của các kiến trúc khác nhau để tìm ra sự cân bằng hoàn hảo giữa tốc độ, độ chính xác và tính dễ triển khai. Trong bài phân tích chuyên sâu này, chúng ta sẽ khám phá những khác biệt kỹ thuật giữa PP-YOLOE+ và YOLOv5 Bằng cách phân tích kiến trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng của chúng, bạn có thể đưa ra quyết định sáng suốt cho dự án tiếp theo của mình, cho dù đó là robot thời gian thực, triển khai tại biên hay phân tích video dựa trên đám mây.

Nguồn gốc và siêu dữ liệu của mô hình

Cả hai mô hình đều bắt nguồn từ các đội ngũ kỹ thuật có năng lực cao nhưng nhắm đến các hệ sinh thái hơi khác nhau. Hiểu rõ nguồn gốc của chúng cung cấp bối cảnh quý giá cho các lựa chọn thiết kế kiến trúc của chúng.

Chi tiết PP-YOLOE+:

Tác giả: PaddlePaddle Authors
Tổ chức: Baidu
Ngày: 02-04-2022
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: PaddlePaddle
Tài liệu: README của PaddleDetection

Tìm hiểu thêm về PP-YOLOE+

YOLOv5 Chi tiết:

Tác giả: Glenn Jocher
Tổ chức: Ultralytics
Ngày: 26-06-2020
GitHub: https://github.com/ ultralytics / yolov5
Tài liệu: https://docs.ultralytics.com/models/yolov5/

Tìm hiểu thêm về YOLOv5

So sánh kiến trúc

Kiến trúc PP-YOLOE+

PP-YOLOE+ là một bước tiến trong hệ sinh thái Baidu, được xây dựng dựa trên nền tảng của các mô hình trước đó như PP-YOLOv2. Nó giới thiệu một hệ thống được tối ưu hóa mạnh mẽ. CSPRepResNet backbone, giúp tăng cường trích xuất đặc trưng bằng cách kết hợp các nguyên tắc của mạng Cross Stage Partial (CSP) với các kỹ thuật tái tham số hóa. Điều này cho phép mô hình duy trì độ chính xác cao trong quá trình huấn luyện, đồng thời thu gọn thành một kiến trúc tinh gọn hơn để suy luận nhanh hơn.

Ngoài ra, PP-YOLOE+ sử dụng Học căn chỉnh tác vụ (TAL) và một đầu căn chỉnh tác vụ hiệu quả (ET-head). Sự kết hợp này nhằm giải quyết sự sai lệch giữa các tác vụ phân loại và định vị, một nút thắt cổ chai phổ biến trong các bộ detect vật thể dày đặc. Mặc dù có cấu trúc ấn tượng, kiến trúc này lại gắn chặt với framework PaddlePaddle, điều này có thể gây ra thách thức tích hợp cho các nhóm đang chuẩn hóa trên các thư viện ML chính thống khác.

Kiến trúc YOLOv5

Ngược lại, YOLOv5 Được phát triển nguyên bản bằng PyTorch , tiêu chuẩn công nghiệp cho cả nghiên cứu học thuật và sản xuất doanh nghiệp. Nó sử dụng kiến trúc CSPDarknet53 đã được sửa đổi, nổi tiếng với khả năng xử lý luồng gradient và hiệu quả tham số vượt trội.

Một đặc điểm nổi bật của YOLOv5 là thuật toán AutoAnchor của nó, tự động kiểm tra và điều chỉnh kích thước hộp neo dựa trên tập dữ liệu tùy chỉnh cụ thể của bạn trước khi huấn luyện. Điều này loại bỏ việc điều chỉnh thủ công các siêu tham số cho hộp giới hạn. Phần cổ mạng Path Aggregation Network (PANet) của mô hình đảm bảo hợp nhất đặc trưng đa tỷ lệ mạnh mẽ, giúp nó rất hiệu quả trong việc phát hiện đối tượng ở các kích thước khác nhau.

Được tinh giản PyTorch Triển khai

Vì YOLOv5 được xây dựng trực tiếp trên PyTorch, việc xuất sang các định dạng tối ưu hóa như ONNX và TensorRT yêu cầu cấu hình middleware ít hơn đáng kể so với các mô hình bị ràng buộc với các framework cục bộ.

Phân tích hiệu suất

Việc đánh giá các mô hình này đòi hỏi phải xem xét sự đánh đổi giữa độ chính xác trung bình (Average Precision) ( mAP ) và độ trễ. Bảng sau đây trình bày các chỉ số trên các kích thước mô hình khác nhau.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Trong khi PP-YOLOE+ đạt được hiệu suất cạnh tranh cao mAP điểm số ở các thang đo lớn hơn (chẳng hạn như biến thể X), YOLOv5 Cung cấp tốc độ vượt trội và số lượng tham số ít hơn. ở phân khúc nhỏ hơn. YOLOv5 Nano (YOLOv5n) chỉ yêu cầu 2.6 triệu tham số, khiến nó rất phù hợp cho các thiết bị biên bị hạn chế nơi yêu cầu bộ nhớ nghiêm ngặt. Hơn nữa, việc huấn luyện các mô hình YOLO thường tiêu thụ ít bộ nhớ CUDA hơn so với các giải pháp thay thế dựa trên transformer nặng như RT-DETR.

Lợi thế của Ultralytics

Khi lựa chọn kiến trúc, các chỉ số thô chỉ là một phần của phương trình. Trải nghiệm của nhà phát triển, sự hỗ trợ của hệ sinh thái và các quy trình triển khai thường quyết định sự thành công thực tế của dự án. Đây là nơi mà... Ultralytics Các người mẫu tỏa sáng.

Dễ sử dụng vượt trội

API Python cho Ultralytics Nó loại bỏ các đoạn mã lặp đi lặp lại phức tạp. Các nhà phát triển có thể bắt đầu huấn luyện, xác thực hiệu suất và triển khai mô hình một cách liền mạch. Tài liệu rất đầy đủ, được bảo trì tốt và được hỗ trợ bởi một cộng đồng mã nguồn mở toàn cầu khổng lồ.

Tính linh hoạt trên nhiều tác vụ

Mặc dù PP-YOLOE+ là một thiết bị phát hiện vật thể chuyên dụng, nhưng Ultralytics Hệ sinh thái này cho phép người dùng giải quyết nhiều tác vụ thị giác máy tính khác nhau thông qua một API thống nhất duy nhất. Với YOLOv5 Với các phiên bản trước đó, bạn có thể dễ dàng chuyển đổi từ các hộp giới hạn tiêu chuẩn sang quy trình phân đoạn và phân loại hình ảnh .

Ví dụ mã: Huấn luyện YOLOv5

Việc bắt đầu chỉ cần một vài dòng mã. Sự đơn giản này giúp đẩy nhanh đáng kể chu kỳ nghiên cứu và phát triển.

from ultralytics import YOLO

# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

Các trường hợp sử dụng thực tế

Khi nào nên chọn PP-YOLOE+: Nếu tổ chức của bạn được tích hợp sâu vào hệ thống phần mềm của Baidu hoặc phụ thuộc nhiều vào phần cứng chuyên dụng yêu cầu framework PaddlePaddle, thì PP-YOLOE+ là một lựa chọn hiệu quả. Nó thường được sử dụng trong các quy trình sản xuất chuyên biệt trên khắp châu Á, nơi có sự tích hợp kế thừa với Paddle.

Khi nào nên chọn YOLOv5: Đối với phần lớn các nhà phát triển, nhà nghiên cứu và doanh nghiệp quốc tế, YOLOv5 vẫn là một công cụ mạnh mẽ. Nền tảng PyTorch của nó có nghĩa là nó tương thích ngay lập tức với các công cụ như Weights & Biases để track, và nó xuất sạch sang TensorRT để tăng tốc GPU NVIDIA hoặc CoreML cho các thiết bị Apple. Nó vượt trội trong nhiều lĩnh vực đa dạng, từ giám sát cây trồng nông nghiệp đến điều hướng drone tốc độ cao.

Tương lai của công nghệ phát hiện: Ultralytics YOLO26

Trong khi YOLOv5 Là một mô hình mang tính biểu tượng, ranh giới của thị giác máy tính đã được nâng cao. Đối với tất cả các phát triển mới, chúng tôi đặc biệt khuyến nghị chuyển sang YOLO26 , được phát hành vào tháng 1 năm 2026. Có sẵn một cách liền mạch thông qua Nền tảng Ultralytics , YOLO26 hoàn toàn định nghĩa lại hiệu quả.

Tìm hiểu thêm về YOLO26

Những cải tiến chính trong YOLO26:

Thiết kế NMS-Free End-to-End: YOLO26 loại bỏ hoàn toàn xử lý hậu kỳ Non-Maximum Suppression. Điều này làm giảm sự biến thiên độ trễ và đơn giản hóa đáng kể pipeline triển khai.
Tăng tốc suy luận trên CPU lên đến 43%: Bằng cách loại bỏ chiến lược Distribution Focal Loss (DFL), YOLO26 tăng tốc độ đáng kể trên các thiết bị biên không có GPU.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các Mô hình Ngôn ngữ Lớn hàng đầu, trình tối ưu hóa lai này ổn định động lực huấn luyện và cho phép hội tụ nhanh hơn nhiều trên các tập dữ liệu tùy chỉnh.
Cải tiến chuyên biệt theo tác vụ: Nổi bật với các hàm mất mát tiên tiến như ProgLoss và STAL, mang lại độ chính xác chưa từng có trên các vật thể nhỏ. Nó hỗ trợ nguyên bản detect Hộp giới hạn định hướng (OBB) cho ảnh hàng không.

Nếu bạn đang tìm hiểu về các mô hình thị giác tiên tiến nhất, bạn cũng có thể quan tâm đến việc so sánh với thế hệ trước YOLO11 hoặc các phương pháp dựa trên Transformer như RT-DETR . Tóm lại, hệ sinh thái mạnh mẽ, kết hợp với những tiến bộ kiến trúc hiện đại, củng cố vị thế của chúng. Ultralytics Là sự lựa chọn hàng đầu cho các tác vụ thị giác máy tính hiện đại.

PP-YOLOE+ so với YOLOv5 Điều hướng các kiến ​​trúc phát hiện đối tượng