Chuyển đến nội dung

PP-YOLOE+ so với YOLOv9 : So sánh kỹ thuật

Việc lựa chọn kiến trúc tối ưu cho các dự án thị giác máy tính đòi hỏi phải điều hướng trong bối cảnh các mô hình đang phát triển nhanh chóng. Trang này cung cấp so sánh kỹ thuật chi tiết giữa PP-YOLOE+ và YOLOv9 của Baidu, hai bộ phát hiện vật thể một giai đoạn tinh vi. Chúng tôi phân tích những cải tiến về kiến trúc, số liệu hiệu suất và tích hợp hệ sinh thái của chúng để giúp bạn đưa ra quyết định sáng suốt. Mặc dù cả hai mô hình đều thể hiện khả năng cao, nhưng chúng đại diện cho các triết lý thiết kế và sự phụ thuộc vào khuôn khổ riêng biệt.

PP-YOLOE+: Độ chính xác cao trong hệ sinh thái PaddlePaddle

PP-YOLOE+ là phiên bản nâng cấp của PP-YOLOE, được Baidu phát triển như một phần của bộ PaddleDetection . Nó được thiết kế để cân bằng giữa độ chính xác và tốc độ suy luận, được tối ưu hóa đặc biệt cho nền tảng học sâu PaddlePaddle .

Tác giả: PaddlePaddle Tác giả
Tổ chức: Baidu
Ngày: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: https://github.com/ PaddlePaddle /PaddleDetection/
Tài liệu: PaddleDetection PP-YOLOE+ README

Kiến trúc và các tính năng chính

PP-YOLOE+ hoạt động như một bộ phát hiện đơn tầng, không cần neo. Nó được xây dựng dựa trên nền tảng CSPRepResNet và sử dụng chiến lược Học Căn Chỉnh Nhiệm Vụ (TAL) để cải thiện sự căn chỉnh giữa các tác vụ phân loại và định vị. Một tính năng quan trọng là Đầu Căn Chỉnh Nhiệm Vụ Hiệu Quả (ET-Head), giúp giảm thiểu chi phí tính toán mà vẫn duy trì độ chính xác. Mô hình sử dụng hàm Mất Mát Biến Đổi (Varifocal Loss) để xử lý sự mất cân bằng lớp trong quá trình huấn luyện.

Điểm mạnh và Điểm yếu

Điểm mạnh chính của PP-YOLOE+ nằm ở khả năng tối ưu hóa phần cứng và phần mềm của Baidu. Nó cung cấp các mô hình có khả năng mở rộng (s, m, l, x) hoạt động tốt trong các tiêu chuẩn phát hiện đối tượng tiêu chuẩn.

Tuy nhiên, sự phụ thuộc nặng nề của nó vào PaddlePaddle hệ sinh thái này đặt ra một rào cản đáng kể cho cộng đồng AI rộng lớn hơn, phần lớn ủng hộ PyTorch . Di chuyển các hệ thống hiện có PyTorch quy trình làm việc để PaddlePaddle có thể tốn nhiều tài nguyên. Ngoài ra, so với các kiến trúc mới hơn, PP-YOLOE+ yêu cầu nhiều tham số hơn để đạt được độ chính xác tương tự, ảnh hưởng đến dung lượng lưu trữ và bộ nhớ trên các thiết bị hạn chế.

Tìm hiểu thêm về PP-YOLOE+

YOLOv9 : Thông tin Gradient có thể lập trình để nâng cao khả năng học tập

Ultralytics YOLOv9 giới thiệu một sự thay đổi lớn trong việc phát hiện đối tượng theo thời gian thực bằng cách giải quyết vấn đề "thắt nút cổ chai thông tin" vốn có trong mạng nơ-ron sâu.

Tác giả: Vương Chien-Yao và Liêu Hồng Nguyên
Tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc, Đài Loan
Ngày: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Tài liệu: https://docs. ultralytics .com/models/yolov9/

Kiến trúc và các tính năng chính

YOLOv9 tích hợp hai khái niệm đột phá: Thông tin Gradient có thể lập trình (PGI)Mạng tổng hợp lớp hiệu quả tổng quát (GELAN) .

  • PGI: Khi mạng lưới được mở rộng, thông tin dữ liệu đầu vào thường bị mất trong quá trình truyền thẳng. PGI cung cấp một nhánh giám sát phụ trợ đảm bảo việc tạo gradient đáng tin cậy, cho phép mô hình "ghi nhớ" các đặc điểm quan trọng cho các tác vụ theo dõi và phát hiện đối tượng mà không làm tăng chi phí suy luận.
  • GELAN: Thiết kế kiến trúc này tối ưu hóa hiệu quả tham số, cho phép mô hình đạt được độ chính xác cao hơn với ít tài nguyên tính toán (FLOP) hơn so với xương sống thông thường sử dụng phép tích chập theo chiều sâu.

Bạn có biết không?

YOLOv9 Kỹ thuật PGI của MIT giải quyết vấn đề tắc nghẽn thông tin vốn trước đây đòi hỏi các phương pháp giám sát sâu cồng kềnh. Điều này tạo ra các mô hình nhẹ hơn và chính xác hơn, cải thiện đáng kể sự cân bằng hiệu suất .

Điểm mạnh và Điểm yếu

YOLOv9 vượt trội về hiệu quả đào tạo và sử dụng tham số. Nó đạt được kết quả tiên tiến trên tập dữ liệu COCO , vượt trội so với các phiên bản trước về độ chính xác trong khi vẫn duy trì tốc độ thời gian thực. Việc tích hợp nó vào Ultralytics hệ sinh thái có nghĩa là nó được hưởng lợi từ một hệ sinh thái được duy trì tốt , bao gồm triển khai đơn giản thông qua các chế độ xuất sang các định dạng như ONNX Và TensorRT .

Một cân nhắc tiềm năng là các biến thể lớn nhất ( YOLOv9 -E) yêu cầu đáng kể GPU tài nguyên đào tạo. Tuy nhiên, dung lượng bộ nhớ suy luận vẫn có tính cạnh tranh, tránh được chi phí cao liên quan đến các mô hình dựa trên bộ biến đổi.

Tìm hiểu thêm về YOLOv9

Phân tích hiệu suất so sánh

Trong một so sánh trực tiếp, YOLOv9 thể hiện hiệu quả vượt trội. Ví dụ, YOLOv9 -Mô hình C đạt được mức cao hơn mAP (53,0%) so với PP-YOLOE+l (52,9%) trong khi sử dụng khoảng một nửa số tham số (25,3M so với 52,2M). Việc giảm đáng kể kích thước mô hình mà không ảnh hưởng đến độ chính xác này làm nổi bật hiệu quả của kiến trúc GELAN.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Bảng minh họa rằng đối với các mục tiêu có độ chính xác tương tự, YOLOv9 luôn đòi hỏi ít tài nguyên tính toán hơn. YOLOv9 -Mô hình E đẩy mạnh hơn nữa, đạt 55,6% mAP , một lợi thế rõ ràng so với biến thể PP-YOLOE+ lớn nhất.

Các Ultralytics Lợi thế

Trong khi PP-YOLOE+ là một máy dò có khả năng, việc lựa chọn YOLOv9 thông qua Ultralytics Khung cung cấp những lợi thế riêng biệt về tính dễ sử dụngtính linh hoạt .

Trải nghiệm người dùng được sắp xếp hợp lý

Ultralytics ưu tiên trải nghiệm thân thiện với nhà phát triển. Không giống như các tệp cấu hình phức tạp thường được yêu cầu bởi PaddleDetection, Ultralytics các mô hình có thể được tải, đào tạo và triển khai chỉ với một vài dòng Python mã. Điều này làm giảm đáng kể rào cản gia nhập đối với các kỹ sư và nhà nghiên cứu.

Tính linh hoạt và hệ sinh thái

Ultralytics hỗ trợ một loạt các tác vụ vượt ra ngoài phạm vi phát hiện đơn giản, bao gồm phân đoạn thực thể , ước lượng tư thế và phát hiện hộp giới hạn định hướng (OBB) . Tính linh hoạt này cho phép các nhà phát triển giải quyết nhiều thách thức khác nhau bằng một API thống nhất duy nhất. Hơn nữa, cộng đồng năng động và các bản cập nhật thường xuyên đảm bảo người dùng có quyền truy cập vào các tối ưu hóa và tích hợp mới nhất với các công cụ như TensorBoard và MLflow.

Ví dụ về mã: Sử dụng YOLOv9

Ví dụ sau đây chứng minh bạn có thể dễ dàng chạy suy luận với YOLOv9 sử dụng Ultralytics Python API. Sự đơn giản này trái ngược với thiết lập rườm rà thường được yêu cầu cho PP-YOLOE+.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display results
results[0].show()

Các trường hợp sử dụng lý tưởng

  • PP-YOLOE+: Phù hợp nhất với các nhóm đã tích hợp sâu vào Baidu/ PaddlePaddle hệ sinh thái, hoặc cho các ứng dụng công nghiệp di sản cụ thể ở các khu vực nơi PaddlePaddle hỗ trợ phần cứng chiếm ưu thế.
  • YOLOv9 : Lý tưởng cho các ứng dụng đòi hỏi tỷ lệ chính xác/hiệu quả cao nhất, chẳng hạn như xe tự hành , phân tích video thời gian thực và triển khai biên nơi có yêu cầu về bộ nhớ và lưu trữ bị hạn chế.

Kết luận và Đề xuất

Đối với hầu hết các nhà phát triển và tổ chức, YOLOv9 là sự lựa chọn vượt trội nhờ kiến trúc hiện đại (GELAN/PGI), hiệu quả tham số vượt trội và sự hỗ trợ mạnh mẽ của Ultralytics hệ sinh thái. Nó cung cấp giải pháp phù hợp với tương lai với trọng số được đào tạo sẵn có và khả năng xuất dữ liệu liền mạch.

Nếu bạn đang tìm kiếm tính linh hoạt và tốc độ cao hơn nữa, chúng tôi cũng khuyên bạn nên khám phá YOLO11 , phiên bản mới nhất trong YOLO loạt. YOLO11 cải thiện hơn nữa sự cân bằng giữa hiệu suất và độ trễ, cung cấp khả năng tiên tiến cho các tác vụ phát hiện, phân đoạn và phân loại trong một gói nhỏ gọn.

Đối với những ai quan tâm đến một công cụ mạnh mẽ đã được chứng minh, YOLOv8 vẫn là một lựa chọn đáng tin cậy với nguồn lực cộng đồng rộng lớn và tích hợp của bên thứ ba.


Bình luận