PP-YOLOE+ so với YOLOv5 Điều hướng các kiến trúc phát hiện đối tượng

Khi lựa chọn khung học sâu phù hợp cho thị giác máy tính, các nhà phát triển thường so sánh khả năng của các kiến trúc khác nhau để tìm ra sự cân bằng hoàn hảo giữa tốc độ, độ chính xác và tính dễ triển khai. Trong bài phân tích chuyên sâu này, chúng ta sẽ khám phá những khác biệt kỹ thuật giữa PP-YOLOE+ và YOLOv5 Bằng cách phân tích kiến trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng của chúng, bạn có thể đưa ra quyết định sáng suốt cho dự án tiếp theo của mình, cho dù đó là robot thời gian thực, triển khai tại biên hay phân tích video dựa trên đám mây.

Nguồn gốc và siêu dữ liệu của mô hình

Cả hai mô hình đều xuất phát từ các nhóm kỹ sư có năng lực cao nhưng nhắm đến các hệ sinh thái hơi khác nhau. Hiểu được nguồn gốc của chúng sẽ cung cấp bối cảnh quan trọng cho các lựa chọn thiết kế kiến trúc.

Chi tiết PP-YOLOE+:

Tác giả: PaddlePaddle Authors
Tổ chức: Baidu
Ngày: 02-04-2022
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: PaddlePaddle
Tài liệu: README của PaddleDetection

Tìm hiểu thêm về PP-YOLOE+

YOLOv5 Chi tiết:

Tác giả: Glenn Jocher
Tổ chức: Ultralytics
Ngày: 26/06/2020
GitHub: https://github.com/ ultralytics / yolov5
Tài liệu yolov5 ultralytics

Tìm hiểu thêm về YOLOv5

So sánh kiến trúc

Kiến trúc PP-YOLOE+

PP-YOLOE+ là một bước tiến trong hệ sinh thái Baidu, được xây dựng dựa trên nền tảng của các mô hình trước đó như PP-YOLOv2. Nó giới thiệu một hệ thống được tối ưu hóa mạnh mẽ. CSPRepResNet Cấu trúc xương sống này giúp tăng cường khả năng trích xuất đặc trưng bằng cách kết hợp các nguyên tắc của mạng Cross Stage Partial (CSP) với các kỹ thuật tái tham số hóa. Điều này cho phép mô hình duy trì độ chính xác cao trong quá trình huấn luyện đồng thời thu gọn thành một kiến trúc tinh gọn hơn để suy luận nhanh hơn.

Ngoài ra, PP-YOLOE+ sử dụng Học căn chỉnh nhiệm vụ (Task Alignment Learning - TAL) và một đầu căn chỉnh nhiệm vụ hiệu quả (Efficient Task-aligned head - ET-head). Sự kết hợp này nhằm giải quyết sự không khớp giữa các nhiệm vụ phân loại và định vị, một nút thắt cổ chai phổ biến trong các bộ phát hiện đối tượng dày đặc. Mặc dù có cấu trúc ấn tượng, kiến trúc này lại liên kết chặt chẽ với khung PaddlePaddle , điều này có thể gây ra những thách thức về tích hợp cho các nhóm đang chuẩn hóa trên các thư viện học máy chính thống khác.

Kiến trúc YOLOv5

Ngược lại, YOLOv5 Được phát triển nguyên bản bằng PyTorch , tiêu chuẩn công nghiệp cho cả nghiên cứu học thuật và sản xuất doanh nghiệp. Nó sử dụng kiến trúc CSPDarknet53 đã được sửa đổi, nổi tiếng với khả năng xử lý luồng gradient và hiệu quả tham số vượt trội.

Một dấu ấn đặc trưng của YOLOv5 Điểm nổi bật là thuật toán AutoAnchor, tự động kiểm tra và điều chỉnh kích thước hộp neo dựa trên tập dữ liệu tùy chỉnh cụ thể của bạn trước khi huấn luyện. Điều này giúp loại bỏ việc tinh chỉnh siêu tham số thủ công cho các hộp giới hạn. Mạng tổng hợp đường dẫn (PANet) của mô hình đảm bảo sự kết hợp đặc trưng đa tỷ lệ mạnh mẽ, giúp nó rất hiệu quả trong việc phát hiện các đối tượng có kích thước khác nhau.

Được tinh giản PyTorch Triển khai

Bởi vì YOLOv5 được xây dựng trực tiếp trên PyTorch , xuất sang các định dạng tối ưu như ONNX và TensorRT Mô hình này yêu cầu cấu hình phần mềm trung gian ít hơn đáng kể so với các mô hình được liên kết với các framework cục bộ.

Phân tích hiệu suất

Việc đánh giá các mô hình này đòi hỏi phải xem xét sự đánh đổi giữa độ chính xác trung bình (Average Precision) ( mAP ) và độ trễ. Bảng sau đây trình bày các chỉ số trên các kích thước mô hình khác nhau.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Trong khi PP-YOLOE+ đạt được hiệu suất cạnh tranh cao mAP điểm số ở các thang đo lớn hơn (chẳng hạn như biến thể X), YOLOv5 Cung cấp tốc độ vượt trội và số lượng tham số ít hơn. ở mức độ nhỏ hơn của phạm vi. YOLOv5 Nano (YOLOv5n(Chỉ cần 2,6 triệu tham số, điều này khiến nó rất phù hợp với các thiết bị biên có tài nguyên hạn chế, nơi yêu cầu về bộ nhớ rất nghiêm ngặt. Hơn nữa, quá trình huấn luyện) YOLO các mô hình thường tiêu thụ ít hơn CUDA so sánh bộ nhớ với các giải pháp thay thế dựa trên máy biến áp nặng nề như RT-DETR.

Lợi thế của Ultralytics

Khi lựa chọn kiến trúc, các chỉ số thô chỉ là một phần của phương trình. Trải nghiệm của nhà phát triển, sự hỗ trợ của hệ sinh thái và các quy trình triển khai thường quyết định sự thành công thực tế của dự án. Đây là nơi mà... Ultralytics Các người mẫu tỏa sáng.

Dễ sử dụng vượt trội

API Python cho Ultralytics Nó loại bỏ các đoạn mã lặp đi lặp lại phức tạp. Các nhà phát triển có thể bắt đầu huấn luyện, xác thực hiệu suất và triển khai mô hình một cách liền mạch. Tài liệu rất đầy đủ, được bảo trì tốt và được hỗ trợ bởi một cộng đồng mã nguồn mở toàn cầu khổng lồ.

Tính linh hoạt trên nhiều tác vụ

Mặc dù PP-YOLOE+ là một thiết bị phát hiện vật thể chuyên dụng, nhưng Ultralytics Hệ sinh thái này cho phép người dùng giải quyết nhiều tác vụ thị giác máy tính khác nhau thông qua một API thống nhất duy nhất. Với YOLOv5 Với các phiên bản trước đó, bạn có thể dễ dàng chuyển đổi từ các hộp giới hạn tiêu chuẩn sang quy trình phân đoạn và phân loại hình ảnh .

Ví dụ mã: Huấn luyện YOLOv5

Việc bắt đầu chỉ cần một vài dòng mã. Sự đơn giản này giúp đẩy nhanh đáng kể chu kỳ nghiên cứu và phát triển.

from ultralytics import YOLO

# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

Các trường hợp sử dụng thực tế

Khi nào nên chọn PP-YOLOE+: Nếu tổ chức của bạn sử dụng sâu rộng hệ sinh thái phần mềm của Baidu hoặc phụ thuộc nhiều vào phần cứng chuyên dụng yêu cầu... PaddlePaddle Với cấu trúc khung PP-YOLOE+, nó hoạt động rất ổn định. Nó thường được sử dụng trong các dây chuyền sản xuất chuyên biệt trên khắp châu Á, nơi đã có sự tích hợp sẵn có với Paddle.

Khi nào nên chọn YOLOv5 : Đối với phần lớn các nhà phát triển, nhà nghiên cứu và doanh nghiệp quốc tế, YOLOv5 vẫn là một cường quốc. PyTorch Nhờ đó, nó tương thích ngay lập tức với các công cụ như Weights & Biases để theo dõi, và xuất dữ liệu một cách mượt mà sang TensorRT . NVIDIA GPU gia tốc hoặc CoreML Dành cho các thiết bị của Apple. Nó vượt trội trong nhiều lĩnh vực khác nhau, từ giám sát cây trồng nông nghiệp đến điều hướng máy bay không người lái tốc độ cao.

Tương lai của công nghệ phát hiện: Ultralytics YOLO26

Trong khi YOLOv5 Là một mô hình mang tính biểu tượng, ranh giới của thị giác máy tính đã được nâng cao. Đối với tất cả các phát triển mới, chúng tôi đặc biệt khuyến nghị chuyển sang YOLO26 , được phát hành vào tháng 1 năm 2026. Có sẵn một cách liền mạch thông qua Nền tảng Ultralytics , YOLO26 hoàn toàn định nghĩa lại hiệu quả.

Tìm hiểu thêm về YOLO26

Những cải tiến chính trong YOLO26:

Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ hoàn toàn quá trình xử lý hậu kỳ Non-Maximum Suppression. Điều này giúp giảm thiểu sự biến động độ trễ và đơn giản hóa đáng kể quy trình triển khai.
Suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ chiến lược Distribution Focal Loss (DFL), YOLO26 tăng tốc đáng kể trên các thiết bị biên không có GPU.
Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các mô hình ngôn ngữ quy mô lớn hàng đầu, bộ tối ưu hóa lai này ổn định động lực huấn luyện và cho phép hội tụ nhanh hơn nhiều trên các tập dữ liệu tùy chỉnh.
Cải tiến chuyên biệt cho từng tác vụ: Tích hợp các hàm mất mát tiên tiến như ProgLoss và STAL, mang lại độ chính xác chưa từng có đối với các vật thể nhỏ. Hỗ trợ phát hiện hộp giới hạn định hướng (OBB) cho ảnh chụp từ trên không.

Nếu bạn đang tìm hiểu về các mô hình thị giác tiên tiến nhất, bạn cũng có thể quan tâm đến việc so sánh với thế hệ trước YOLO11 hoặc các phương pháp dựa trên Transformer như RT-DETR . Tóm lại, hệ sinh thái mạnh mẽ, kết hợp với những tiến bộ kiến trúc hiện đại, củng cố vị thế của chúng. Ultralytics Là sự lựa chọn hàng đầu cho các tác vụ thị giác máy tính hiện đại.

PP-YOLOE+ so với YOLOv5 Điều hướng các kiến ​​trúc phát hiện đối tượng