Chuyển đến nội dung

YOLOv9 so với PP-YOLOE+: So sánh kỹ thuật

Việc lựa chọn mô hình phát hiện đối tượng phù hợp liên quan đến sự đánh đổi quan trọng giữa độ chính xác, tốc độ và yêu cầu tài nguyên. Trang này cung cấp so sánh kỹ thuật chi tiết giữa Ultralytics YOLOv9, một mô hình hiện đại nổi tiếng với những cải tiến về kiến trúc và PP-YOLOE+ của Baidu, một đối thủ mạnh từ hệ sinh thái PaddlePaddle. Chúng tôi sẽ phân tích kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn chọn mô hình tốt nhất cho các dự án thị giác máy tính của mình.

YOLOv9: Thông tin Gradient có thể lập trình để tăng cường khả năng học

Ultralytics YOLOv9 thể hiện một bước tiến đáng kể trong việc phát hiện đối tượng theo thời gian thực, giới thiệu các khái niệm đột phá để giải quyết những thách thức lâu dài trong học sâu.

Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Tài liệu: https://docs.ultralytics.com/models/yolov9/

Những đổi mới cốt lõi của YOLOv9 là Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN). PGI được thiết kế để giải quyết vấn đề mất thông tin khi dữ liệu truyền qua các mạng sâu, đảm bảo rằng thông tin gradient đáng tin cậy có sẵn để cập nhật mô hình chính xác. Điều này giúp bảo toàn các tính năng chính và cải thiện khả năng học. GELAN là một kiến trúc mạng mới được tối ưu hóa để sử dụng tham số vượt trội và hiệu quả tính toán. Sự kết hợp mạnh mẽ này cho phép YOLOv9 đạt được độ chính xác vượt trội trong khi vẫn duy trì tốc độ suy luận cao.

Một ưu điểm chính của YOLOv9 là sự tích hợp của nó vào hệ sinh thái Ultralytics. Điều này cung cấp một trải nghiệm người dùng được sắp xếp hợp lý với API đơn giản, tài liệu toàn diện và mạng lưới hỗ trợ mạnh mẽ. Hệ sinh thái được hưởng lợi từ quá trình phát triển tích cực, một cộng đồng mạnh mẽ trên các nền tảng như GitHubDiscord, và cập nhật thường xuyên. Điều này đảm bảo rằng các nhà phát triển có quyền truy cập vào các quy trình huấn luyện hiệu quả, trọng số được huấn luyện trước có sẵn và một nền tảng hỗ trợ nhiều tác vụ như phát hiện đối tượngphân vùng thể hiện.

Điểm mạnh

  • Độ chính xác cao: Đạt được điểm số mAP hiện đại trên các tập dữ liệu khó như COCO, với mô hình YOLOv9-E thiết lập một chuẩn mực mới cho các trình phát hiện theo thời gian thực.
  • Kiến trúc hiệu quả: Kiến trúc GELAN và PGI mang lại hiệu suất tuyệt vời với số lượng tham số và FLOPs ít hơn đáng kể so với các mô hình có độ chính xác tương đương.
  • Bảo toàn thông tin: PGI giảm thiểu hiệu quả vấn đề nút thắt thông tin trong các mạng sâu, dẫn đến sự hội tụ và độ chính xác của mô hình tốt hơn.
  • Hệ sinh thái Ultralytics: Hưởng lợi từ tính dễ sử dụng, tài liệu mở rộng, bảo trì tích cực và hỗ trợ cộng đồng mạnh mẽ. Nó được xây dựng trên PyTorch, khung AI phổ biến nhất, giúp nó có khả năng truy cập cao.
  • Tính linh hoạt: Kiến trúc linh hoạt, hỗ trợ nhiều tác vụ thị giác máy tính ngoài việc chỉ phát hiện.

Điểm yếu

  • Mô hình mới hơn: Là một bản phát hành gần đây, phạm vi các ví dụ do cộng đồng đóng góp và tích hợp công cụ của bên thứ ba vẫn đang phát triển, mặc dù việc được bao gồm trong khuôn khổ Ultralytics giúc đẩy nhanh việc áp dụng.
  • Tài nguyên huấn luyện: Mặc dù hiệu quả so với mức hiệu suất, việc huấn luyện các biến thể YOLOv9 lớn nhất có thể đòi hỏi tài nguyên tính toán đáng kể.

Các trường hợp sử dụng lý tưởng

YOLOv9 vượt trội trong các ứng dụng đòi hỏi mức độ chính xác và hiệu quả cao nhất. Điều này làm cho nó lý tưởng cho các tác vụ phức tạp như lái xe tự động, hệ thống an ninh tiên tiến và robotics có độ chính xác cao. Thiết kế hiệu quả của nó cũng làm cho các biến thể nhỏ hơn phù hợp để triển khai trong môi trường AI biên bị hạn chế về tài nguyên.

Tìm hiểu thêm về YOLOv9

PP-YOLOE+: Độ chính xác cao trong hệ sinh thái PaddlePaddle

PP-YOLOE+ là một detector đối tượng hiệu suất cao được phát triển bởi Baidu và là một phần quan trọng trong bộ PaddleDetection của họ. Nó được thiết kế để mang lại sự cân bằng tốt giữa tốc độ và độ chính xác, nhưng việc triển khai của nó gắn liền với framework deep learning PaddlePaddle.

Tác giả: Các tác giả của PaddlePaddle
Tổ chức: Baidu
Ngày: 02-04-2022
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: https://github.com/PaddlePaddle/PaddleDetection/
Tài liệu: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md

PP-YOLOE+ là một detector không neo, một giai đoạn, được xây dựng dựa trên các phiên bản PP-YOLO trước đó. Nó kết hợp một backbone hiệu quả, thường dựa trên CSPRepResNet, và một detection head sử dụng Task Alignment Learning (TAL) để cải thiện sự căn chỉnh phân loại và định vị. Chuỗi mô hình cung cấp nhiều kích cỡ khác nhau (s, m, l, x) để phục vụ cho các mức ngân sách tính toán khác nhau.

Điểm mạnh

  • Hiệu suất cao: Mang lại độ chính xác và tốc độ cạnh tranh, khiến nó trở thành một mô hình có khả năng cho nhiều nhiệm vụ phát hiện đối tượng.
  • Tối ưu hóa cho PaddlePaddle: Dành cho các nhóm đã đầu tư vào hệ sinh thái Baidu PaddlePaddle, PP-YOLOE+ cung cấp khả năng tích hợp liền mạch và hiệu suất tối ưu.

Điểm yếu

  • Phụ thuộc Framework: Sự phụ thuộc vào framework PaddlePaddle có thể là một rào cản đáng kể cho cộng đồng lớn hơn, nơi phần lớn sử dụng PyTorch. Việc di chuyển các dự án hoặc tích hợp với các công cụ dựa trên PyTorch có thể phức tạp.
  • Tính linh hoạt hạn chế: PP-YOLOE+ chủ yếu tập trung vào phát hiện đối tượng. Ngược lại, các mô hình Ultralytics như YOLOv8YOLO11 cung cấp một framework thống nhất cho nhiều tác vụ, bao gồm phân đoạn, ước tính tư thế và phân loại, ngay khi xuất xưởng.
  • Hệ sinh thái và Hỗ trợ: Hệ sinh thái xung quanh PP-YOLOE+ ít mở rộng hơn so với Ultralytics YOLO. Người dùng có thể tìm thấy ít hướng dẫn từ cộng đồng hơn, các kênh hỗ trợ ít phản hồi hơn và cập nhật chậm hơn so với hệ sinh thái Ultralytics sôi động và được duy trì tích cực.

Các trường hợp sử dụng lý tưởng

PP-YOLOE+ phù hợp nhất cho các nhà phát triển và tổ chức đã được tiêu chuẩn hóa trên framework deep learning Baidu PaddlePaddle. Đây là một lựa chọn vững chắc cho các ứng dụng phát hiện đối tượng tiêu chuẩn, nơi nhóm phát triển có chuyên môn hiện tại về PaddlePaddle.

Tìm hiểu thêm về PP-YOLOE+

Phân tích hiệu năng: YOLOv9 so với PP-YOLOE+

Khi so sánh hiệu suất, rõ ràng là YOLOv9 đặt ra một tiêu chuẩn cao hơn cho cả độ chính xác và hiệu quả.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0
PP-YOLOE+t 640 39.9 - 2.84 4.85 19.15
PP-YOLOE+s 640 43.7 - 2.62 7.93 17.36
PP-YOLOE+m 640 49.8 - 5.56 23.43 49.91
PP-YOLOE+l 640 52.9 - 8.36 52.2 110.07
PP-YOLOE+x 640 54.7 - 14.3 98.42 206.59
  • Độ chính xác cao nhất: YOLOv9-E đạt được mAP cao nhất là 55.6, vượt trội so với mô hình PP-YOLOE+x lớn nhất (54.7 mAP) trong khi sử dụng ít tham số hơn đáng kể (57.3M so với 98.42M).
  • Hiệu quả: YOLOv9 thể hiện hiệu quả tham số vượt trội trên toàn diện. Ví dụ: YOLOv9-C đạt 53.0 mAP chỉ với 25.3M tham số, trong khi PP-YOLOE+l yêu cầu 52.2M tham số để đạt được 52.9 mAP tương tự. Mô hình nhỏ nhất, YOLOv9-T, đặc biệt gọn nhẹ chỉ với 2.0M tham số.
  • Đánh đổi giữa tốc độ và độ chính xác: Mặc dù PP-YOLOE+s cho thấy thời gian suy luận nhanh nhất trên GPU T4, nhưng điều này phải trả giá bằng độ chính xác (43.7 mAP). Ngược lại, YOLOv9-S mang lại mAP cao hơn nhiều là 46.8 chỉ với mức tăng không đáng kể về độ trễ, thể hiện sự đánh đổi tốt hơn cho các ứng dụng mà độ chính xác là quan trọng.

Kết luận: Bạn nên chọn mô hình nào?

Đối với phần lớn các nhà phát triển, nhà nghiên cứu và doanh nghiệp, YOLOv9 là lựa chọn vượt trội. Độ chính xác hiện đại của nó, kết hợp với hiệu quả tính toán và tham số đáng kể, đặt ra một tiêu chuẩn mới trong việc phát hiện đối tượng theo thời gian thực.

Ưu điểm chính của YOLOv9 không chỉ nằm ở hiệu năng mà còn ở sự tích hợp của nó trong hệ sinh thái Ultralytics. Được xây dựng trên nền tảng PyTorch được áp dụng rộng rãi, nó mang lại sự dễ sử dụng tuyệt vời, tài liệu phong phú, tính linh hoạt đa nhiệm và một cộng đồng hỗ trợ sôi động. Môi trường toàn diện này giảm đáng kể thời gian phát triển và đơn giản hóa việc triển khai và bảo trì.

PP-YOLOE+ là một mô hình có năng lực, nhưng giá trị của nó phần lớn giới hạn cho những người dùng đã hoạt động trong hệ sinh thái Baidu PaddlePaddle. Đối với những người bên ngoài môi trường cụ thể này, chi phí áp dụng một framework mới và những hạn chế về tính linh hoạt và hỗ trợ cộng đồng khiến nó trở thành một lựa chọn kém thiết thực hơn so với giải pháp mạnh mẽ và dễ tiếp cận do Ultralytics YOLOv9 cung cấp.

Các mô hình khác để xem xét

Nếu bạn đang khám phá các kiến trúc khác nhau, bạn cũng có thể quan tâm đến các mô hình khác có sẵn trong hệ sinh thái Ultralytics:

  • YOLOv8: Một mô hình rất linh hoạt và cân bằng, tuyệt vời cho nhiều loại tác vụ và nổi tiếng về tốc độ và dễ sử dụng.
  • YOLO11: Mô hình Ultralytics chính thức mới nhất, đẩy mạnh hơn nữa các ranh giới về hiệu suất và hiệu quả.
  • RT-DETR: Một detector dựa trên transformer thời gian thực, cung cấp một phương pháp kiến trúc khác để phát hiện đối tượng.


📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận