Chuyển đến nội dung

PP-YOLOE+ so với YOLOv7 : Một cái nhìn sâu sắc về mặt kỹ thuật vào kiến trúc phát hiện đối tượng

Việc lựa chọn mô hình phát hiện đối tượng tối ưu liên quan đến việc cân bằng giữa độ chính xác, tốc độ suy luận và độ phức tạp khi triển khai. Hai ứng cử viên đáng chú ý trong lĩnh vực này là PP-YOLOE+YOLOv7 , cả hai đều được phát hành vào năm 2022 với mục tiêu nâng cao hiệu suất tiên tiến. Phân tích toàn diện này khám phá kiến trúc độc đáo, điểm chuẩn và khả năng phù hợp của chúng với các ứng dụng thực tế, giúp các nhà phát triển đưa ra quyết định dựa trên dữ liệu.

So sánh các chỉ số hiệu suất

Bảng sau đây trình bày so sánh trực tiếp các chỉ số hiệu suất chính, bao gồm Độ chính xác trung bình ( mAP ) và tốc độ suy luận trên phần cứng được hỗ trợ. Dữ liệu này giúp hình dung sự đánh đổi giữa phương pháp không neo của PP-YOLOE+ và kiến trúc tối ưu của YOLOv7 .

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

PP-YOLOE+: Phát hiện không neo tinh vi

PP-YOLOE+ là sự phát triển của PP- YOLO Dòng sản phẩm này, được phát triển bởi các nhà nghiên cứu tại Baidu. Nó được xây dựng dựa trên thế mạnh của phiên bản tiền nhiệm PP-YOLOE, bằng cách giới thiệu những cải tiến cho quy trình đào tạo và kiến trúc để cải thiện hơn nữa tốc độ hội tụ và hiệu suất tác vụ hạ nguồn. Là một bộ phát hiện không cần neo , nó loại bỏ nhu cầu sử dụng các hộp neo được xác định trước, giúp đơn giản hóa thiết kế và giảm thiểu việc điều chỉnh siêu tham số.

Tìm hiểu thêm về PP-YOLOE+

Điểm nổi bật về kiến trúc

Kiến trúc của PP-YOLOE+ sử dụng xương sống CSPResNet được trang bị các trường tiếp nhận khác nhau để nắm bắt các đặc điểm ở nhiều quy mô một cách hiệu quả. Một cải tiến quan trọng là Đầu tác vụ hiệu quả (ET-head) , giúp tách rời các tác vụ phân loại và hồi quy, đồng thời đảm bảo sự liên kết của chúng thông qua một hàm mất mát cụ thể.

PP-YOLOE+ sử dụng Học Căn Chỉnh Nhiệm Vụ (TAL) , một chiến lược gán nhãn tự động chọn các mẫu dương tính dựa trên sự căn chỉnh của chất lượng phân loại và định vị. Điều này đảm bảo mô hình tập trung vào các dự đoán chất lượng cao trong quá trình huấn luyện. Hơn nữa, mô hình sử dụng chiến lược huấn luyện phân tán và tránh sử dụng các toán tử không chuẩn, giúp triển khai dễ dàng hơn trên nhiều nền tảng phần cứng được hỗ trợ bởi PaddlePaddle hệ sinh thái.

Tính năng chính: Thiết kế không có neo

Bằng cách loại bỏ các hộp neo , PP-YOLOE+ giảm độ phức tạp liên quan đến các bước phân cụm neo và khớp. Điều này thường dẫn đến khả năng khái quát hóa tốt hơn trên các tập dữ liệu đa dạng, trong đó các đối tượng có thể có tỷ lệ khung hình cực đại.

YOLOv7 : Tối ưu hóa cho tốc độ thời gian thực

YOLOv7 đã thiết lập một chuẩn mực mới cho việc phát hiện đối tượng theo thời gian thực khi ra mắt, tập trung mạnh vào hiệu quả kiến trúc và các phương pháp "túi quà tặng" - các kỹ thuật tăng độ chính xác mà không làm tăng chi phí suy luận. Nó được thiết kế để vượt trội hơn các mô hình tiên tiến trước đây như YOLOR và YOLOv5 về cả tốc độ và độ chính xác.

Tìm hiểu thêm về YOLOv7

Đổi mới kiến trúc

YOLOv7 đã giới thiệu Mạng Tổng hợp Lớp Hiệu quả Mở rộng (E-ELAN) . Thiết kế xương sống này cho phép mạng học được nhiều tính năng đa dạng hơn bằng cách kiểm soát các đường dẫn gradient ngắn nhất và dài nhất, nâng cao khả năng học mà không phá hủy đường dẫn gradient ban đầu.

Một đóng góp quan trọng khác là việc sử dụng tham số hóa lại mô hình . Trong quá trình huấn luyện, mô hình sử dụng cấu trúc đa nhánh, sau đó được hợp nhất thành một cấu trúc đơn nhánh đơn giản hơn để suy luận. Điều này cho phép YOLOv7 để tận dụng các biểu diễn tính năng phong phú trong quá trình học tập mà vẫn duy trì tốc độ cao trong quá trình triển khai. Mô hình cũng sử dụng các đầu phụ trợ để huấn luyện các mạng sâu, sử dụng chiến lược gán nhãn dẫn hướng "từ thô đến tinh".

Phân tích so sánh: Điểm mạnh và điểm yếu

Khi quyết định lựa chọn giữa hai mô hình mạnh mẽ này, điều cần thiết là phải xem xét các yêu cầu cụ thể của dự án thị giác máy tính của bạn.

Độ chính xác so với Tốc độ

PP-YOLOE+ cung cấp một loạt các mô hình chi tiết. PP-YOLOE+s có hiệu quả cao đối với các thiết bị biên, trong khi PP-YOLOE+x đạt được cấp độ hàng đầu mAP , mặc dù ở tốc độ khung hình thấp hơn. YOLOv7 vượt trội trong "điểm ngọt" của phát hiện thời gian thực, thường cung cấp FPS cao hơn trên GPU phần cứng cho một mức độ chính xác nhất định so với nhiều đối thủ cạnh tranh. Đối với các ứng dụng thông lượng cao như giám sát giao thông, YOLOv7 Việc tối ưu hóa suy luận của 's có lợi thế.

Hệ sinh thái và khả năng sử dụng

Một trong những điểm khác biệt chính nằm ở hệ sinh thái của chúng. PP-YOLOE+ có nguồn gốc sâu xa từ PaddlePaddle khuôn khổ. Mặc dù mạnh mẽ, nhưng điều này có thể tạo ra một đường cong học tập dốc hơn cho các nhóm chủ yếu quen với PyTorch . YOLOv7 có nguồn gốc từ PyTorch , giúp cộng đồng nghiên cứu rộng rãi hơn dễ tiếp cận hơn.

Tuy nhiên, cả hai mô hình đều có thể phức tạp trong việc đào tạo và tinh chỉnh so với các tiêu chuẩn hiện đại. YOLOv7 bao gồm các tính toán neo phức tạp và độ nhạy của siêu tham số, trong khi PP-YOLOE+ yêu cầu điều hướng các cấu hình phát hiện Paddle.

Các Ultralytics Ưu điểm: Tại sao phải nâng cấp?

Trong khi PP-YOLOE+ và YOLOv7 là những mô hình tuyệt vời, lĩnh vực AI phát triển rất nhanh chóng. Ultralytics Các mô hình như YOLOv8YOLO11 hiện đại đại diện cho thế hệ AI thị giác tiếp theo, giải quyết nhiều thách thức về khả năng sử dụng và hiệu quả được tìm thấy trong các kiến trúc trước đó.

Trải nghiệm người dùng và hệ sinh thái vượt trội

Ultralytics ưu tiên tính dễ sử dụng . Không giống như các tệp cấu hình phức tạp thường được yêu cầu bởi các nền tảng khác, Ultralytics các mô hình có thể được đào tạo, xác thực và triển khai chỉ với một vài dòng Python mã hoặc đơn giản CLI lệnh.

  • API hợp nhất: Chuyển đổi giữa các tác vụ như phát hiện đối tượng , phân đoạn thể hiện , phân loại , ước tính tư thếOBB một cách liền mạch.
  • Hệ sinh thái được bảo trì tốt: Tận hưởng lợi ích từ các bản cập nhật thường xuyên, cộng đồng phát triển mạnh và tài liệu đầy đủ giúp giải quyết vấn đề nhanh chóng.
  • Tích hợp: Hỗ trợ gốc cho việc theo dõi thử nghiệm (MLflow, Comet ), quản lý tập dữ liệu và xuất mô hình đơn giản sang các định dạng như ONNX , TensorRT , Và CoreML .

Hiệu suất và Hiệu quả

Ultralytics Các mô hình được thiết kế để đạt được sự cân bằng hiệu suất tối ưu. Chúng thường đạt được độ chính xác cao hơn YOLOv7 với chi phí tính toán thấp hơn. Hơn nữa, chúng được thiết kế để tiết kiệm bộ nhớ, yêu cầu ít bộ nhớ CUDA hơn trong quá trình đào tạo so với nhiều giải pháp thay thế dựa trên bộ biến áp hoặc các giải pháp cũ hơn. YOLO phiên bản. Hiệu quả đào tạo này cho phép lặp lại nhanh hơn và giảm chi phí điện toán đám mây.

Ví dụ về mã: Sự đơn giản trong hành động

Xem cách đào tạo một người hiện đại đơn giản như thế nào Ultralytics mô hình so với quy trình làm việc cũ:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model (recommended for best performance)
model = YOLO("yolo11n.pt")

# Train the model on a dataset (e.g., COCO8)
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

# Export to ONNX format for deployment
model.export(format="onnx")

Bảo vệ tương lai cho các dự án của bạn

Áp dụng Ultralytics Framework đảm bảo bạn không chỉ sử dụng một mô hình, mà là một nền tảng liên tục phát triển. Với sự hỗ trợ cho các phiên bản Python mới nhất và bộ tăng tốc phần cứng, bạn sẽ giảm thiểu nợ kỹ thuật và đảm bảo khả năng bảo trì lâu dài cho các giải pháp AI của mình.

Kết luận

PP-YOLOE+ vẫn là một lựa chọn mạnh mẽ cho những người đầu tư vào PaddlePaddle hệ sinh thái, cung cấp kiến trúc mạnh mẽ không có mỏ neo. YOLOv7 tiếp tục là một lựa chọn tuyệt vời cho các dự án đòi hỏi nguyên liệu thô GPU thông lượng. Tuy nhiên, đối với các nhà phát triển đang tìm kiếm một giải pháp linh hoạt, thân thiện với người dùng và hiệu suất cao, bao gồm toàn bộ các tác vụ thị giác máy tính, Ultralytics YOLO11 là con đường được khuyến nghị.

Khám phá các Mô hình Khác

Mở rộng hiểu biết của bạn về bối cảnh phát hiện đối tượng với những so sánh sau:


Bình luận