Chuyển đến nội dung

PP-YOLOE+ so với YOLOv5 : Điều hướng phát hiện độ chính xác cao và sẵn sàng sản xuất

Việc lựa chọn mô hình phát hiện đối tượng tối ưu thường liên quan đến sự đánh đổi giữa các số liệu học thuật thô sơ và khả năng triển khai thực tế. So sánh kỹ thuật này xem xét PP-YOLOE+ , một máy dò không cần neo được phát triển từ PaddlePaddle hệ sinh thái và Ultralytics YOLOv5 , mô hình tiêu chuẩn công nghiệp nổi tiếng với sự cân bằng giữa tốc độ, độ chính xác và tính dễ sử dụng. Trong khi PP-YOLOE+ vượt qua ranh giới của Độ chính xác trung bình ( mAP ), YOLOv5 vẫn là một thế lực thống trị trong các ứng dụng suy luận thời gian thực nhờ kinh nghiệm phát triển vô song và tính linh hoạt trong triển khai.

PP-YOLOE+: Kỹ thuật chính xác trong PaddlePaddle

PP-YOLOE+ là phiên bản nâng cấp của PP-YOLOE, được phát triển bởi các nhà nghiên cứu tại Baidu như một phần của bộ PaddleDetection. Nó được thiết kế để trở thành một bộ phát hiện vật thể công nghiệp hiệu quả, hiện đại, tập trung vào các tác vụ có độ chính xác cao. Bằng cách tận dụng kiến trúc không neo , nó đơn giản hóa quy trình đào tạo và giảm thiểu việc điều chỉnh siêu tham số thường đi kèm với các phương pháp dựa trên neo.

Tác giả : PaddlePaddle Tác giả
Tổ chức : Baidu
Ngày : 2022-04-02
Arxiv : https://arxiv.org/abs/2203.16250
GitHub : https://github.com/ PaddlePaddle /PaddleDetection/
Tài liệu : https://github.com/ PaddlePaddle /PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md

Kiến trúc và Đổi mới

Kiến trúc của PP-YOLOE+ giới thiệu một số cơ chế tiên tiến để cải thiện khả năng biểu diễn và bản địa hóa tính năng:

  • Xương sống : Sử dụng CSPRepResNet, một xương sống kết hợp các lợi ích của luồng gradient của mạng Cross Stage Partial (CSP) với các kỹ thuật tham số hóa lại của RepVGG.
  • Đầu không neo : Đầu hiệu quả được căn chỉnh theo tác vụ (ET-Head) được sử dụng để tách rời các tác vụ phân loại và hồi quy, cải thiện tốc độ hội tụ và độ chính xác.
  • Chiến lược đào tạo : Kết hợp Học tập căn chỉnh nhiệm vụ (TAL) để chỉ định các mẫu dương tính một cách linh hoạt, đảm bảo rằng các dự đoán chất lượng cao nhất được ưu tiên trong quá trình đào tạo.
  • Hàm mất mát : Sử dụng Mất mát tiêu cự thay đổi (VFL) và Mất mát tiêu cự phân phối (DFL) để xử lý mất cân bằng lớp và tinh chỉnh độ chính xác của hộp giới hạn.

Điểm mạnh và Điểm yếu

PP-YOLOE+ vượt trội trong các tình huống đòi hỏi độ chính xác tối đa. Thiết kế không neo của nó loại bỏ nhu cầu phân cụm các hộp neo , giúp nó thích ứng với các tập dữ liệu có hình dạng đối tượng đa dạng. Tuy nhiên, việc phụ thuộc quá nhiều vào khung PaddlePaddle có thể là một rào cản đối với các nhóm được chuẩn hóa trên PyTorch hoặc TensorFlow Mặc dù có các công cụ để chuyển đổi mô hình, nhưng sự hỗ trợ của hệ sinh thái gốc không rộng rãi bằng các khuôn khổ được áp dụng rộng rãi hơn.

Những cân nhắc về hệ sinh thái

Trong khi PP-YOLOE+ cung cấp hiệu suất lý thuyết ấn tượng, việc áp dụng thường đòi hỏi sự quen thuộc với PaddlePaddle cú pháp và công cụ triển khai cụ thể của 's, có thể khác biệt đáng kể so với tiêu chuẩn PyTorch quy trình làm việc.

Tìm hiểu thêm về PP-YOLOE+

Ultralytics YOLOv5 : Tiêu chuẩn toàn cầu về AI thị giác

Được Glenn Jocher phát hành vào năm 2020, Ultralytics YOLOv5 đã thay đổi căn bản bối cảnh của thị giác máy tính bằng cách giúp các nhà phát triển ở mọi cấp độ kỹ năng có thể tiếp cận công nghệ phát hiện đối tượng tiên tiến. Được xây dựng gốc trong PyTorch , YOLOv5 tập trung vào "hiệu quả đào tạo" và "dễ sử dụng", cung cấp một lộ trình liền mạch từ khâu quản lý tập dữ liệu đến triển khai sản xuất.

Tác giả : Glenn Jocher
Tổ chức : Ultralytics
Ngày : 26-06-2020
GitHub : https://github.com/ ultralytics / yolov5
Tài liệu : https://docs. ultralytics .com/models/ yolov5 /

Kiến trúc và các tính năng chính

YOLOv5 sử dụng kiến trúc dựa trên mỏ neo được tối ưu hóa cao, cân bằng giữa chiều sâu và chiều rộng để tối đa hóa thông lượng:

  • CSPDarknet Backbone : Thiết kế mạng một phần Cross Stage giảm thiểu thông tin gradient dư thừa, tăng cường khả năng học tập đồng thời giảm các tham số .
  • Cổ PANet : Mạng tổng hợp đường dẫn (PANet) cải thiện luồng thông tin, giúp mô hình xác định vị trí các đối tượng chính xác trên nhiều tỷ lệ khác nhau.
  • Tăng cường khảm : Một kỹ thuật tăng cường dữ liệu tiên tiến kết hợp bốn hình ảnh đào tạo thành một, cải thiện đáng kể khả năng của mô hình detect các vật thể nhỏ và khái quát hóa sang môi trường mới.
  • Thuật toán di truyền : Quá trình tiến hóa siêu tham số tự động cho phép mô hình tự điều chỉnh để có hiệu suất tối ưu trên các tập dữ liệu tùy chỉnh.

Điểm mạnh và Hệ sinh thái

YOLOv5 được ca ngợi vì tính dễ sử dụng . API rất trực quan, cho phép người dùng tải mô hình và chạy suy luận chỉ trong vài dòng Python mã số.

import torch

# Load a pretrained YOLOv5s model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Print results
results.print()

Ngoài mã, Hệ sinh thái được duy trì tốt thiết lập YOLOv5 ngoài ra. Người dùng được hưởng lợi từ các bản cập nhật thường xuyên, diễn đàn cộng đồng lớn và tích hợp liền mạch với các công cụ MLOps như Comet Và ClearML Tính linh hoạt của mô hình vượt xa khả năng phát hiện đơn giản, hỗ trợ phân đoạn thực thểphân loại hình ảnh trong cùng một khuôn khổ. Hơn nữa, YOLOv5 các mô hình thường thể hiện yêu cầu bộ nhớ thấp hơn trong quá trình đào tạo so với kiến trúc dựa trên máy biến áp, khiến chúng có thể truy cập được trên GPU cấp tiêu dùng.

Tìm hiểu thêm về YOLOv5

So sánh hiệu suất kỹ thuật

Khi so sánh hai mô hình, điều cần thiết là phải xem xét các số liệu tác động đến tiện ích trong thế giới thực, chẳng hạn như tốc độ suy luận và số lượng tham số, cùng với các số liệu về độ chính xác tiêu chuẩn như mAP .

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Phân tích kết quả

  • Độ chính xác so với Tốc độ : PP-YOLOE+ thể hiện cao hơn mAP điểm số, đặc biệt là trong các biến thể lớn hơn (l và x), được hưởng lợi từ chiến lược đầu không neo và TAL của nó. Tuy nhiên, YOLOv5 cung cấp Hiệu suất cân bằng vượt trội, mang lại độ chính xác cạnh tranh cao với độ trễ thấp hơn đáng kể (xem TensorRT tốc độ). Điều này làm cho YOLOv5 đặc biệt phù hợp với các ứng dụng AI biên , nơi mà từng mili giây đều có giá trị.
  • Hiệu quả tài nguyên : YOLOv5n (Nano) cực kỳ nhẹ với chỉ 2,6 triệu tham số, lý tưởng cho các thiết bị di động và IoT. Mặc dù PP-YOLOE+ có nền tảng hiệu quả, nhưng kiến trúc phức tạp có thể dẫn đến việc sử dụng bộ nhớ cao hơn trong quá trình huấn luyện so với thiết kế hợp lý của YOLOv5 .
  • Hiệu quả đào tạo : YOLOv5 Sử dụng AutoAnchor và tiến hóa siêu tham số để tối đa hóa hiệu suất ngay từ đầu. Việc cung cấp các trọng số được đào tạo trước chất lượng cao cho phép học chuyển giao nhanh chóng, rút ngắn đáng kể thời gian phát triển.

Các trường hợp sử dụng thực tế

Sự lựa chọn giữa các mô hình này thường phụ thuộc vào môi trường triển khai cụ thể.

Ứng dụng PP-YOLOE+

PP-YOLOE+ thường được ưa chuộng trong nghiên cứu học thuật và các tình huống công nghiệp, đặc biệt là tại thị trường châu Á, nơi cơ sở hạ tầng của Baidu đang thịnh hành.

  • Phát hiện lỗi tự động : Độ chính xác cao giúp xác định các vết xước nhỏ trên dây chuyền sản xuất.
  • Giám sát giao thông : Có khả năng phân biệt các loại xe tương tự nhau trong dòng xe cộ đông đúc.

YOLOv5 Ứng dụng

YOLOv5 Tính linh hoạt của nó khiến nó trở thành giải pháp phù hợp cho nhiều ngành công nghiệp toàn cầu.

  • Nông nghiệp thông minh : Được sử dụng để theo dõi sức khỏe cây trồng theo thời gian thực và robot hái trái cây nhờ tốc độ trên các thiết bị biên.
  • Phân tích bán lẻ : Cung cấp hệ thống để đếm hàng hóa và quản lý hàng tồn kho, chạy hiệu quả trên phần cứng máy chủ cửa hàng.
  • Robot tự động : Độ trễ thấp cho phép máy bay không người lái và robot di chuyển an toàn trong môi trường phức tạp.
  • Hệ thống an ninh : Dễ dàng tích hợp vào hệ thống báo động an ninh để phát hiện xâm nhập.

Tính linh hoạt triển khai

YOLOv5 xuất khẩu liền mạch sang nhiều định dạng bao gồm ONNX , TensorRT , CoreML , Và TFLite sử dụng export chế độ. Điều này đảm bảo rằng sau khi mô hình được đào tạo, nó có thể được triển khai ở hầu hết mọi nơi, từ iPhone đến máy chủ đám mây.

Kết luận

Trong khi PP-YOLOE+ đại diện cho một thành tựu đáng kể trong việc phát hiện không có neo với độ chính xác ấn tượng trên các điểm chuẩn như COCO Ultralytics YOLOv5 vẫn là lựa chọn hàng đầu cho hầu hết các nhà phát triển và ứng dụng thương mại. Sự kết hợp hoàn hảo giữa tính dễ sử dụng , Hệ sinh thái được bảo trì tốtCân bằng hiệu suất tuyệt vời đảm bảo các dự án chuyển từ ý tưởng sang sản xuất nhanh chóng và đáng tin cậy.

Đối với người dùng đang tìm kiếm công nghệ thị giác máy tính mới nhất, Ultralytics cũng cung cấp YOLO11 , được xây dựng dựa trên di sản của YOLOv5 với hiệu quả và khả năng thậm chí còn cao hơn trong các nhiệm vụ phát hiện, phân đoạn và ước tính tư thế.

Khám phá thêm

Để khám phá các giải pháp thay thế hiện đại có tính năng nâng cao hiệu suất, hãy cân nhắc xem xét những điều sau:

  • Ultralytics YOLO11 : Mẫu máy hiện đại mới nhất mang lại độ chính xác và tốc độ vượt trội.
  • Ultralytics YOLOv8 : Một mô hình đa năng giới thiệu các khuôn khổ thống nhất để phát hiện, phân đoạn và phân loại.
  • RT-DETR : Máy dò dựa trên máy biến áp thời gian thực đáp ứng yêu cầu độ chính xác cao.

Truy cập trang Mô hình của chúng tôi để xem đầy đủ các giải pháp AI về thị giác có sẵn cho dự án tiếp theo của bạn.


Bình luận