Chuyển đến nội dung

YOLOv7 so với PP-YOLOE+: So sánh kỹ thuật về phát hiện đối tượng

Việc lựa chọn đúng mô hình phát hiện đối tượng là một quyết định quan trọng trong thị giác máy tính, đòi hỏi sự cân bằng cẩn thận giữa độ chính xác, tốc độ và tài nguyên tính toán. Trang này cung cấp so sánh kỹ thuật chi tiết giữa YOLOv7PP-YOLOE+, hai mô hình có ảnh hưởng đã thiết lập các chuẩn mực cao trong lĩnh vực này. Chúng ta sẽ khám phá thiết kế kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn đưa ra lựa chọn sáng suốt cho các dự án của mình.

YOLOv7: Tối ưu hóa cho tốc độ và độ chính xác

YOLOv7 thể hiện một cột mốc quan trọng trong gia đình YOLO, được ca ngợi vì sự cân bằng đặc biệt giữa tốc độ suy luận thời gian thực và độ chính xác cao. Nó giới thiệu các tối ưu hóa kiến trúc và đào tạo mới, đẩy lùi các ranh giới của những gì có thể đối với các trình phát hiện đối tượng tại thời điểm phát hành.

Tìm hiểu thêm về YOLOv7

Kiến trúc và các tính năng chính

Kiến trúc của YOLOv7 kết hợp một số cải tiến quan trọng được trình bày chi tiết trong bài báo của nó. Một trong những đóng góp chính của nó là Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN), một thiết kế backbone mới giúp tăng cường khả năng học hỏi của mạng mà không làm gián đoạn đường dẫn gradient, dẫn đến trích xuất đặc trưng hiệu quả hơn.

Hơn nữa, YOLOv7 sử dụng phương pháp "trainable bag-of-freebies". Điều này bao gồm việc sử dụng các kỹ thuật tối ưu hóa và chiến lược đào tạo nâng cao, chẳng hạn như coarse-to-fine lead guided loss, giúp cải thiện độ chính xác phát hiện mà không làm tăng thêm bất kỳ chi phí tính toán nào trong quá trình suy luận. Mô hình này cũng tận dụng các kỹ thuật tái tham số hóa để tạo ra một kiến trúc hiệu quả hơn để triển khai sau khi quá trình đào tạo hoàn tất.

Hiệu suất và các trường hợp sử dụng

YOLOv7 nổi tiếng với hiệu suất vượt trội, đặc biệt trong các tình huống đòi hỏi xử lý tốc độ cao mà không ảnh hưởng đáng kể đến độ chính xác. Hiệu quả của nó làm cho nó trở thành một lựa chọn tuyệt vời cho suy luận thời gian thực trên phần cứng GPU.

Các ứng dụng lý tưởng bao gồm:

  • Hệ thống tự động: Cung cấp sức mạnh cho các hệ thống nhận diện trong xe tự hành và máy bay không người lái, nơi độ trễ thấp là rất quan trọng đối với sự an toàn.
  • An ninh và Giám sát: Được sử dụng trong hệ thống an ninh tiên tiến để phát hiện mối đe dọa ngay lập tức trong các nguồn cấp video trực tiếp.
  • Robot: Cho phép robot nhận biết và tương tác với môi trường của chúng trong thời gian thực, điều này rất quan trọng đối với tự động hóa sản xuất và hậu cần.

Điểm mạnh và Điểm yếu

  • Ưu điểm: Tốc độ và độ chính xác hàng đầu, kiến trúc hiệu quả cao cho suy luận GPU và các chiến lược huấn luyện nâng cao giúp tăng hiệu suất.
  • Điểm yếu: Vì là một mô hình dựa trên anchor, nó có thể yêu cầu điều chỉnh cẩn thận các cấu hình hộp neo để có hiệu suất tối ưu trên các bộ dữ liệu tùy chỉnh. Quá trình đào tạo cho các biến thể lớn hơn có thể tốn nhiều tài nguyên tính toán.

PP-YOLOE+: Không cần anchor và linh hoạt

PP-YOLOE+, được phát triển bởi Baidu, là một detector không neo hiệu năng cao từ bộ PaddleDetection. Nó nổi bật nhờ khả năng mở rộng và hiệu suất mạnh mẽ trên nhiều kích cỡ mô hình, đồng thời đơn giản hóa quy trình phát hiện bằng cách loại bỏ các hộp neo.

Tài liệu PP-YOLOE+ (PaddleDetection)

Kiến trúc và các tính năng chính

Đổi mới cốt lõi của PP-YOLOE+ là thiết kế không neo, giúp đơn giản hóa mô hình bằng cách loại bỏ nhu cầu về các hộp neo được xác định trước và các siêu tham số liên quan của chúng. Điều này làm cho mô hình linh hoạt hơn và dễ dàng thích ứng với các hình dạng và kích thước đối tượng khác nhau. Nó có một đầu tách rời cho các tác vụ phân loại và bản địa hóa, giúp giải quyết các xung đột tối ưu hóa giữa hai tác vụ. Mô hình này cũng sử dụng VariFocal Loss, một hàm mất mát chuyên dụng, để ưu tiên các ví dụ khó trong quá trình huấn luyện. Phiên bản "+" bao gồm các cải tiến cho backbone, neck (Path Aggregation Network) và head để cải thiện hiệu suất.

Hiệu suất và các trường hợp sử dụng

PP-YOLOE+ cung cấp một họ các mô hình (t, s, m, l, x) mang lại sự đánh đổi linh hoạt giữa tốc độ và độ chính xác. Khả năng mở rộng này làm cho nó có thể thích ứng với các ràng buộc phần cứng khác nhau, từ thiết bị biên hạn chế tài nguyên đến các máy chủ đám mây mạnh mẽ.

Các ứng dụng lý tưởng bao gồm:

Điểm mạnh và Điểm yếu

  • Ưu điểm: Thiết kế không mỏ neo giúp đơn giản hóa kiến trúc và quy trình huấn luyện. Nó cung cấp khả năng mở rộng tuyệt vời với nhiều kích thước mô hình và đạt được sự cân bằng mạnh mẽ giữa độ chính xác/tốc độ.
  • Điểm yếu: Mô hình này chủ yếu được thiết kế cho framework học sâu PaddlePaddle, điều này có thể đòi hỏi nỗ lực thêm để tích hợp vào các quy trình làm việc dựa trên PyTorch. Sự hỗ trợ của cộng đồng và công cụ của bên thứ ba ít mở rộng hơn so với họ YOLO.

So sánh hiệu suất trực tiếp

Khi so sánh YOLOv7 và PP-YOLOE+, sự lựa chọn thường phụ thuộc vào các yêu cầu hiệu suất cụ thể và phần cứng. YOLOv7 thường vượt trội trong việc cung cấp thông lượng tối đa trên GPU, như đã thấy với các số liệu FPS cao của nó. Mặt khác, PP-YOLOE+ cung cấp một lựa chọn mô hình chi tiết hơn, cho phép các nhà phát triển chọn điểm đánh đổi chính xác mà họ cần. Ví dụ: PP-YOLOE+s đặc biệt nhanh, trong khi PP-YOLOE+x đạt được mAP rất cao với chi phí là tốc độ.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
PP-YOLOE+t 640 39.9 - 2.84 4.85 19.15
PP-YOLOE+s 640 43.7 - 2.62 7.93 17.36
PP-YOLOE+m 640 49.8 - 5.56 23.43 49.91
PP-YOLOE+l 640 52.9 - 8.36 52.2 110.07
PP-YOLOE+x 640 54.7 - 14.3 98.42 206.59

Tại sao Ultralytics YOLO là lựa chọn tốt hơn

Mặc dù YOLOv7 và PP-YOLOE+ đều là những mô hình mạnh mẽ, nhưng các nhà phát triển và nhà nghiên cứu tìm kiếm một framework hiện đại, linh hoạt và thân thiện với người dùng sẽ tìm thấy giá trị vượt trội trong hệ sinh thái Ultralytics, đặc biệt với các mô hình như Ultralytics YOLOv8YOLO11 mới nhất.

Đây là lý do tại sao các mô hình Ultralytics YOLO nổi bật:

  • Dễ sử dụng: Ultralytics cung cấp Python API và CLI được tinh giản giúp cho việc đào tạo, xác thực và triển khai trở nên cực kỳ đơn giản. Điều này được hỗ trợ bởi tài liệu mở rộng và nhiều hướng dẫn.
  • Hệ sinh thái được duy trì tốt: Các mô hình là một phần của hệ sinh thái toàn diện bao gồm quá trình phát triển tích cực, một cộng đồng mã nguồn mở lớn và tích hợp với các công cụ như Ultralytics HUB để MLOps liền mạch.
  • Tính linh hoạt: Các mô hình Ultralytics như YOLOv8 và YOLO11 không giới hạn ở phát hiện đối tượng. Chúng cung cấp hỗ trợ tích hợp cho các tác vụ thị giác quan trọng khác, bao gồm phân vùng thể hiện, ước tính dáng điệu, phân loạiphát hiện đối tượng theo hướng (OBB), cung cấp một giải pháp thống nhất.
  • Hiệu suất và Hiệu quả: Các mô hình Ultralytics được thiết kế để có sự cân bằng tối ưu giữa tốc độ và độ chính xác. Chúng cũng tiết kiệm bộ nhớ, thường yêu cầu ít bộ nhớ CUDA hơn để huấn luyện và suy luận so với các kiến trúc khác, đây là một lợi thế đáng kể.
  • Hiệu quả huấn luyện: Với các trọng số đã được huấn luyện trước có sẵn trên các bộ dữ liệu như COCO và quy trình huấn luyện hiệu quả, việc có được một mô hình tùy chỉnh hiệu suất cao sẽ nhanh hơn và dễ tiếp cận hơn.

Kết luận

YOLOv7 là một lựa chọn mạnh mẽ cho các ứng dụng mà hiệu suất GPU thời gian thực là ưu tiên hàng đầu. PP-YOLOE+ cung cấp khả năng mở rộng tuyệt vời và phương pháp tiếp cận không neo đơn giản, nhưng sự phụ thuộc của nó vào framework PaddlePaddle có thể là một hạn chế đối với nhiều nhà phát triển.

Tuy nhiên, đối với hầu hết các ứng dụng hiện đại, các mô hình Ultralytics như YOLOv8 và YOLO11 mang đến một lựa chọn hấp dẫn và có tính bảo chứng tương lai hơn. Chúng kết hợp hiệu suất hiện đại với trải nghiệm người dùng tuyệt vời, hỗ trợ tác vụ mở rộng và một hệ sinh thái mạnh mẽ, được duy trì tốt. Điều này làm cho chúng trở thành lựa chọn lý tưởng cho các nhà phát triển và nhà nghiên cứu muốn xây dựng và triển khai các giải pháp thị giác máy tính chất lượng cao một cách hiệu quả.

Khám phá các Mô hình Khác

Để khám phá thêm, hãy xem xét các so sánh liên quan đến YOLOv7, PP-YOLOE+ và các mô hình hàng đầu khác sau:



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận