YOLOv5 So sánh với PP-YOLOE+: Phân tích chuyên sâu về công nghệ nhận diện đối tượng hiện đại

Việc lựa chọn kiến trúc mạng nơ-ron phù hợp là điều cần thiết cho bất kỳ dự án thị giác máy tính hiện đại nào. Khi các nhà phát triển và nhà nghiên cứu đánh giá các mô hình cho detect vật thể thời gian thực, quyết định thường phụ thuộc vào việc cân bằng giữa độ chính xác, tốc độ suy luận và tính dễ triển khai. So sánh kỹ thuật này kiểm tra YOLOv5 và PP-YOLOE+, khám phá kiến trúc, số liệu hiệu suất và phương pháp huấn luyện của chúng để giúp bạn chọn giải pháp tối ưu cho ứng dụng của mình.

Hiểu về các kiến trúc

Cả hai mô hình đều có tác động đáng kể đến lĩnh vực AI thị giác, nhưng chúng tiếp cận các thách thức của phát hiện đối tượng thông qua các phương pháp cấu trúc và sự phụ thuộc khung khác nhau.

Ultralytics YOLOv5: Tiêu chuẩn Công nghiệp

Ra mắt vào giữa năm 2020, Ultralytics YOLOv5 đã cách mạng hóa khả năng tiếp cận các mô hình thị giác tiên tiến. Là phiên bản triển khai PyTorch gốc đầu tiên trong lĩnh vực này, YOLO Đối với gia đình, điều này đã làm giảm đáng kể rào cản gia nhập. Python các nhà phát triển và kỹ sư học máy trên toàn thế giới.

YOLOv5 Chi tiết:

Tác giả: Glenn Jocher
Tổ chức: Ultralytics
Ngày: 26-06-2020
GitHub: ultralytics / yolov5
Tài liệu: Tài liệu YOLOv5

YOLOv5 Nó sử dụng kiến trúc CSPDarknet được sửa đổi, giúp thu thập hiệu quả các biểu diễn đặc trưng phong phú trong khi vẫn duy trì số lượng tham số thấp. Nó giới thiệu các hộp neo tự học, tự động tính toán kích thước neo tối ưu cho các tập dữ liệu tùy chỉnh trước khi quá trình huấn luyện bắt đầu. Hơn nữa, việc tích hợp tăng cường dữ liệu mosaic giúp nâng cao đáng kể khả năng của mô hình. detect các đối tượng nhỏ hơn và khái quát hóa trên các bối cảnh không gian phức tạp.

Một trong những điểm mạnh lớn nhất của YOLOv5 Điểm nổi bật là tính linh hoạt đáng kinh ngạc của nó. Không giống như các máy dò vật thể tiêu chuẩn, YOLOv5 Hệ thống này hỗ trợ liền mạch phân loại hình ảnh , phân đoạn đối tượng và phát hiện hộp giới hạn trong một API thống nhất. Kiến trúc được tối ưu hóa cao của nó cũng giúp giảm đáng kể mức sử dụng bộ nhớ trong quá trình huấn luyện và suy luận so với các mạng dựa trên Transformer nặng nề.

Tìm hiểu thêm về YOLOv5

PP-YOLOE+: The PaddlePaddle Ứng cử viên

Được giới thiệu khoảng hai năm sau đó, PP-YOLOE+ được xây dựng dựa trên nền tảng của các phiên bản PP- trước đó. YOLO các lần lặp. Được phát triển để thể hiện khả năng của khung học sâu của Baidu, nó giới thiệu một số cải tiến về kiến trúc nhằm tăng độ chính xác trung bình (Average Precision).

Chi tiết PP-YOLOE+:

Tác giả: PaddlePaddle Authors
Tổ chức: Baidu
Ngày: 02-04-2022
Arxiv: 2203.16250
GitHub: PaddlePaddle /PaddleDetection
Tài liệu: PP-YOLOE+ README

PP-YOLOE+ dựa trên mô hình không có anchor và sử dụng kiến trúc CSPRepResNet. Nó tích hợp kỹ thuật Học căn chỉnh nhiệm vụ mạnh mẽ và một Đầu căn chỉnh nhiệm vụ hiệu quả để cải thiện độ chính xác. Mặc dù PP-YOLOE+ đạt được điểm số chính xác ấn tượng, điểm yếu chính của nó nằm ở sự phụ thuộc chặt chẽ vào khung PaddlePaddle . Điều này thường tạo ra một đường cong học tập dốc và ma sát hệ sinh thái đối với các nhóm nghiên cứu và doanh nghiệp đã đầu tư sâu vào hệ sinh thái này. PyTorch hoặc TensorFlow môi trường.

Tìm hiểu thêm về PP-YOLOE+

Hiệu năng và điểm chuẩn

Khi đánh giá các mô hình này để đưa vào sản xuất, việc hiểu rõ sự đánh đổi giữa độ chính xác, tốc độ suy luận và số lượng tham số là rất quan trọng. Bảng dưới đây nêu rõ các chỉ số hiệu suất chính trên các biến thể kích thước khác nhau.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

Mặc dù PP-YOLOE+ đạt được giới hạn độ chính xác cao, YOLOv5 YOLOv5n luôn thể hiện hiệu quả tham số vượt trội và tốc độ suy luận nhanh hơn trên phần cứng hạn chế. Đối với các triển khai ở vùng biên nơi bộ nhớ khan hiếm, YOLOv5n cung cấp tốc độ vượt trội và kích thước nhỏ gọn đáng kể.

Hiệu quả bộ nhớ

Ultralytics Các mô hình được thiết kế đặc biệt để tối ưu hiệu quả đào tạo. So với các hệ thống xử lý hình ảnh phức tạp như RT-DETR , YOLOv5 sử dụng ít hơn đáng kể CUDA bộ nhớ cho phép bạn huấn luyện trên các lô dữ liệu lớn hơn hoặc phần cứng cấp người tiêu dùng.

Cái Ultralytics Ưu điểm: Hệ sinh thái và tính dễ sử dụng

Giá trị thực sự của một kiến trúc máy học không chỉ nằm ở những con số thô; nó bao trùm toàn bộ trải nghiệm của nhà phát triển. Nền tảng Ultralytics và các công cụ mã nguồn mở tương ứng cung cấp một hệ sinh thái được hoàn thiện cao và được bảo trì tốt, giúp tăng tốc đáng kể chu kỳ phát triển.

Dễ sử dụng: Ultralytics trừu tượng hóa mã boilerplate phức tạp. Bạn có thể huấn luyện, xác thực và kiểm tra mô hình thông qua API python hoặc CLI trực quan.
Tính linh hoạt triển khai: Việc xuất mô hình cực kỳ đơn giản. Chỉ với một lệnh duy nhất, bạn có thể chuyển đổi trọng số YOLOv5 đã huấn luyện của mình sang các định dạng như ONNX, TensorRT hoặc OpenVINO, đảm bảo khả năng tương thích rộng rãi trên các môi trường biên và đám mây.
Cộng đồng năng động: Cộng đồng sôi nổi đảm bảo các bản cập nhật thường xuyên, tài liệu phong phú và các giải pháp mạnh mẽ cho các thách thức thị giác máy tính phổ biến.

Ngược lại, PP-YOLOE+ phụ thuộc rất nhiều vào các tệp cấu hình phức tạp dành riêng cho PaddleDetection, điều này có thể làm chậm quá trình tạo mẫu nhanh và làm phức tạp việc tích hợp vào các quy trình MLOps hiện đại.

Các triển khai thực tế và ví dụ mã nguồn

Bắt đầu với Ultralytics Nó cực kỳ đơn giản. Dưới đây là một ví dụ hoàn chỉnh, có thể chạy được, về cách tải một mô hình đã được huấn luyện trước. YOLOv5 Xây dựng mô hình, huấn luyện nó trên tập dữ liệu tùy chỉnh và xuất kết quả:

from ultralytics import YOLO

# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset for 50 epochs
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on a sample image
predict_results = model("https://ultralytics.com/images/bus.jpg")

# Export the optimized model to ONNX format
path = model.export(format="onnx")

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOv5 và PP-YOLOE+ phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLOv5

YOLOv5 là một lựa chọn tốt cho:

Hệ thống sản xuất đã được chứng minh: Các triển khai hiện có nơi hồ sơ track ổn định lâu dài, tài liệu phong phú và sự hỗ trợ cộng đồng lớn của YOLOv5 được đánh giá cao.
Huấn luyện hạn chế tài nguyên: Môi trường có tài nguyên GPU hạn chế, nơi quy trình huấn luyện hiệu quả và yêu cầu bộ nhớ thấp hơn của YOLOv5 là một lợi thế.
Hỗ trợ định dạng xuất rộng rãi: Các dự án yêu cầu triển khai trên nhiều định dạng, bao gồm ONNX, TensorRT, CoreML và TFLite.

Khi nào nên chọn PP-YOLOE+

PP-YOLOE+ được khuyến nghị sử dụng cho:

Tích hợp hệ sinh thái PaddlePaddle: Các tổ chức có cơ sở hạ tầng hiện có được xây dựng trên khung và công cụ PaddlePaddle của Baidu.
Triển khai biên Paddle Lite: Triển khai trên phần cứng với các nhân suy luận được tối ưu hóa cao, đặc biệt dành cho công cụ suy luận Paddle Lite hoặc Paddle.
Detect phía máy chủ độ chính xác cao: Các kịch bản ưu tiên độ chính xác detect tối đa trên các máy chủ GPU mạnh mẽ, nơi sự phụ thuộc vào framework không phải là mối bận tâm.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Các mô hình tiên tiến thay thế cần xem xét

Trong khi YOLOv5 Với tiêu chuẩn mạnh mẽ và đã được chứng minh, lĩnh vực thị giác máy tính đang phát triển rất nhanh. Đối với các nhóm bắt đầu dự án mới, chúng tôi đặc biệt khuyến khích các bạn tìm hiểu về các kiến trúc mới hơn của chúng tôi.

Ultralytics YOLO26

Ra mắt vào tháng 1 năm 2026, YOLO26 đại diện cho đỉnh cao tuyệt đối của nghiên cứu của chúng tôi. Nó mang lại những cải tiến vượt bậc về cả độ chính xác và tốc độ. Các cải tiến chính bao gồm:

Thiết kế đầu cuối không NMS: Dựa trên các khái niệm từ YOLOv10, YOLO26 loại bỏ tự nhiên quá trình hậu xử lý Non-Maximum Suppression (NMS), giúp giảm độ trễ và đơn giản hóa logic triển khai.
Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 đạt tốc độ suy luận trên CPU nhanh hơn tới 43%, khiến nó cực kỳ mạnh mẽ cho các thiết bị biên công suất thấp.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM tiên tiến, sự kết hợp giữa SGD và Muon này đảm bảo quá trình huấn luyện cực kỳ ổn định và hội tụ nhanh hơn.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, điều này rất quan trọng cho hình ảnh drone và nông nghiệp thông minh.

Ngoài ra, bạn có thể xem xét YOLO11, cung cấp hiệu suất tuyệt vời và đóng vai trò là cầu nối đáng tin cậy giữa các hệ thống cũ và các khả năng tiên tiến nhất của YOLO26.

Các trường hợp sử dụng thực tế

Sự lựa chọn giữa YOLOv5 Và PP-YOLOE+ cuối cùng phụ thuộc vào môi trường triển khai và các ràng buộc của dự án của bạn.

Các ứng dụng lý tưởng của YOLOv5: Yêu cầu tài nguyên tối thiểu và sự dễ sử dụng đáng kinh ngạc của YOLOv5 làm cho nó trở thành lựa chọn hàng đầu cho AI biên. Nó vượt trội trong các ứng dụng yêu cầu tốc độ khung hình cao trên phần cứng hạn chế, chẳng hạn như robotics thời gian thực, tích hợp ứng dụng di động và hệ thống giám sát giao thông đa camera. Khả năng đồng thời xử lý các tác vụ ước tính tư thế và hộp giới hạn định hướng (OBB) trong cùng một framework làm cho nó có khả năng thích ứng cao.

Các ứng dụng lý tưởng của PP-YOLOE+: PP-YOLOE+ phù hợp nhất cho các kịch bản ưu tiên độ chính xác tối đa tuyệt đối trên hình ảnh tĩnh hơn là các ràng buộc xử lý thời gian thực. Nó tìm thấy ứng dụng chuyên biệt trong các đường ống kiểm tra công nghiệp, đặc biệt trong các ngành sản xuất châu Á có các ngăn xếp kỹ thuật đã được thiết lập sẵn và đầu tư mạnh vào hệ sinh thái Baidu và PaddlePaddle.

Tóm lại, mặc dù PP-YOLOE+ mang lại các chỉ số chuẩn chính xác cao, Ultralytics YOLO Các mô hình này cung cấp sự kết hợp vô song giữa cân bằng hiệu năng, triển khai liền mạch và thiết kế thân thiện với nhà phát triển, giúp thúc đẩy các dự án thị giác máy tính thành công từ khâu ý tưởng đến sản xuất.