PP-YOLOE+ so với YOLOv7: So sánh kỹ thuật cho phát hiện đối tượng
Việc lựa chọn đúng mô hình phát hiện đối tượng là một bước quan trọng trong bất kỳ dự án thị giác máy tính nào, đòi hỏi sự cân bằng cẩn thận giữa độ chính xác, tốc độ và tài nguyên tính toán. Trang này cung cấp so sánh kỹ thuật chi tiết giữa PP-YOLOE+ và YOLOv7, hai mô hình phát hiện đối tượng có ảnh hưởng. Chúng ta sẽ đi sâu vào thiết kế kiến trúc, điểm chuẩn hiệu suất, phương pháp huấn luyện và các trường hợp sử dụng lý tưởng của chúng để giúp bạn đưa ra quyết định sáng suốt cho các nhu cầu cụ thể của mình.
PP-YOLOE+: Không cần anchor và linh hoạt
PP-YOLOE+, được phát triển bởi các tác giả PaddlePaddle tại Baidu, là một detector không neo hiệu năng cao từ bộ PaddleDetection. Nó xây dựng dựa trên thành công của các phiên bản tiền nhiệm bằng cách giới thiệu các cải tiến cho backbone, neck và head, nhằm mục đích cân bằng độ chính xác và hiệu quả vượt trội.
- Tác giả: Các tác giả của PaddlePaddle
- Tổ chức: Baidu
- Date: 2022-04-02
- ArXiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- Tài liệu: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
Kiến trúc và huấn luyện
PP-YOLOE+ tự phân biệt với kiến trúc không cần anchor box, giúp đơn giản hóa quy trình phát hiện bằng cách loại bỏ nhu cầu về các anchor box được xác định trước và việc điều chỉnh các siêu tham số liên quan. Lựa chọn thiết kế này thường dẫn đến quá trình huấn luyện và suy luận nhanh hơn. Mô hình có một decoupled head cho các tác vụ phân loại và định vị, cho phép mỗi nhánh học các đặc trưng chuyên biệt hơn. Một thành phần quan trọng là việc sử dụng VariFocal Loss, một loại hàm mất mát ưu tiên các ví dụ khó trong quá trình huấn luyện và Task Alignment Learning (TAL) để cải thiện sự liên kết đặc trưng giữa phân loại và định vị.
Hiệu suất
Là một mô hình không neo, PP-YOLOE+ cung cấp sự cân bằng tốt giữa tốc độ và độ chính xác trên các kích thước mô hình khác nhau (t, s, m, l, x). Khả năng mở rộng này làm cho nó có thể thích ứng với các yêu cầu về phần cứng và hiệu suất khác nhau. Các mô hình thể hiện điểm số mAP cạnh tranh và thời gian suy luận nhanh, đặc biệt khi được tăng tốc bằng các công cụ như TensorRT, làm cho chúng phù hợp với nhiều ứng dụng.
Các Trường hợp Sử dụng
Hiệu suất cân bằng và thiết kế không neo giúp PP-YOLOE+ trở thành một lựa chọn tuyệt vời cho các ứng dụng cần phát hiện mạnh mẽ mà không làm giảm tốc độ. Nó vượt trội trong các tình huống như kiểm tra chất lượng công nghiệp, nơi nó có thể xác định các khuyết tật trên dây chuyền sản xuất và cải thiện hiệu quả tái chế bằng cách phân loại vật liệu một cách chính xác. Hiệu quả của nó cho phép triển khai trên các phần cứng đa dạng, từ các máy chủ mạnh mẽ đến thiết bị biên bị hạn chế hơn.
Điểm mạnh và Điểm yếu
- Ưu điểm: Thiết kế không mỏ neo giúp đơn giản hóa việc triển khai và giảm điều chỉnh siêu tham số. Nó cung cấp sự cân bằng tuyệt vời giữa độ chính xác/tốc độ và được tích hợp tốt vào framework PaddlePaddle.
- Điểm yếu: Thiết kế chính của nó cho hệ sinh thái PaddlePaddle có thể yêu cầu nỗ lực bổ sung để tích hợp vào các framework khác như PyTorch. Sự hỗ trợ của cộng đồng, mặc dù mạnh mẽ, có thể ít mở rộng hơn so với các mô hình được chấp nhận rộng rãi hơn như series Ultralytics YOLO.
YOLOv7: Được tối ưu hóa cho tốc độ và hiệu quả
YOLOv7, một phần của gia đình YOLO nổi tiếng, đã thiết lập một tiêu chuẩn hiện đại mới cho các trình phát hiện đối tượng thời gian thực khi phát hành. Nó tập trung vào việc cung cấp tốc độ và độ chính xác vượt trội thông qua các tối ưu hóa kiến trúc và các chiến lược đào tạo tiên tiến.
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Date: 2022-07-06
- ArXiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- Tài liệu: https://docs.ultralytics.com/models/yolov7/
Kiến trúc và huấn luyện
YOLOv7 giới thiệu một số cải tiến kiến trúc, đáng chú ý nhất là Mạng Tổng Hợp Lớp Hiệu Quả Mở Rộng (E-ELAN) trong backbone của nó. E-ELAN tăng cường khả năng học hỏi của mạng mà không làm gián đoạn đường dẫn gradient, cải thiện hiệu quả trích xuất đặc trưng. Mô hình này cũng kết hợp "trainable bag-of-freebies", một tập hợp các kỹ thuật huấn luyện giúp cải thiện độ chính xác mà không làm tăng chi phí suy luận. Chúng bao gồm tái tham số hóa mô hình và huấn luyện có hướng dẫn từ thô đến tinh, như được trình bày chi tiết trong bài báo YOLOv7.
Hiệu suất
YOLOv7 được ca ngợi vì sự cân bằng vượt trội giữa tốc độ và độ chính xác. Như được nêu bật trong tài liệu của nó, các mô hình như YOLOv7
đạt được 51.4% mAP ở 161 FPS trên GPU V100, vượt trội hơn đáng kể so với nhiều đối thủ đương thời. Hiệu quả cao này làm cho nó trở thành lựa chọn hàng đầu cho các ứng dụng yêu cầu suy luận thời gian thực.
Các Trường hợp Sử dụng
Khả năng tốc độ cao của YOLOv7 khiến nó trở nên lý tưởng cho các ứng dụng mà độ trễ thấp là rất quan trọng. Điều này bao gồm hệ thống báo động an ninh, ước tính tốc độ xe và các hệ thống tự động như robot. Hiệu quả của nó cũng tạo điều kiện thuận lợi cho việc triển khai trên các nền tảng biên như NVIDIA Jetson.
Điểm mạnh và Điểm yếu
- Ưu điểm: Tốc độ và độ chính xác hàng đầu. Kiến trúc hiệu quả cao, hoàn hảo cho các ứng dụng thời gian thực và edge. Có lượng người dùng lớn và tài nguyên cộng đồng rộng lớn.
- Điểm yếu: Vì là một mô hình dựa trên anchor, nó có thể yêu cầu điều chỉnh cẩn thận hơn các cấu hình anchor để có hiệu suất tối ưu trên các bộ dữ liệu tùy chỉnh so với các lựa chọn thay thế không cần anchor. Mặc dù mạnh mẽ, nhưng các mô hình mới hơn đã xuất hiện với các hệ sinh thái tích hợp hơn.
Phân tích hiệu năng: PP-YOLOE+ so với YOLOv7
So sánh trực tiếp về các chỉ số hiệu suất cho thấy những ưu điểm riêng biệt của mỗi mô hình. PP-YOLOE+ cung cấp nhiều kích thước mô hình hơn, cho phép các ưu đãi chi tiết hơn giữa độ chính xác và việc sử dụng tài nguyên. Mặt khác, YOLOv7 đẩy mạnh giới hạn về hiệu suất thời gian thực.
Mô hình | Kích thước (pixels) |
mAPval 50-95 |
Tốc độ CPU ONNX (ms) |
Tốc độ T4 TensorRT10 (ms) |
Tham số (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Từ bảng so sánh, PP-YOLOE+x đạt mAP cao nhất là 54.7, nhưng phải trả giá bằng độ trễ cao hơn. YOLOv7x cung cấp một giải pháp thay thế hấp dẫn với mAP thấp hơn một chút là 53.1 nhưng tốc độ suy luận nhanh hơn. Các mô hình PP-YOLOE+ nhỏ hơn, chẳng hạn như t
và s
, cung cấp suy luận cực kỳ nhanh chóng, làm cho chúng trở nên lý tưởng cho các môi trường bị hạn chế tài nguyên cao.
Tại sao nên chọn các mô hình Ultralytics YOLO?
Mặc dù PP-YOLOE+ và YOLOv7 đều là những mô hình mạnh mẽ, nhưng bối cảnh phát hiện đối tượng không ngừng phát triển. Đối với các nhà phát triển và nhà nghiên cứu đang tìm kiếm framework hiện đại, linh hoạt và thân thiện với người dùng nhất, các mô hình Ultralytics YOLO như YOLOv8 và YOLO11 mang đến một lựa chọn vượt trội.
- Dễ sử dụng: Các mô hình Ultralytics được thiết kế chú trọng đến trải nghiệm người dùng được tinh giản, có Python API đơn giản, tài liệu đầy đủ và các lệnh CLI dễ sử dụng.
- Hệ sinh thái được duy trì tốt: Các mô hình là một phần của hệ sinh thái toàn diện với quá trình phát triển tích cực, một cộng đồng mã nguồn mở mạnh mẽ và tích hợp với các công cụ như Ultralytics HUB để MLOps liền mạch.
- Hiệu suất và Hiệu quả: Các mô hình Ultralytics đạt được sự cân bằng tuyệt vời giữa tốc độ và độ chính xác. Chúng được thiết kế để sử dụng bộ nhớ hiệu quả trong quá trình huấn luyện và suy luận, thường yêu cầu ít bộ nhớ CUDA hơn so với các kiến trúc khác.
- Tính linh hoạt: Các mô hình như YOLOv8 và YOLO11 là các giải pháp đa nhiệm, hỗ trợ phát hiện đối tượng, phân đoạn, phân loại, ước tính tư thế và phát hiện đối tượng theo hướng (OBB) trong một framework duy nhất, thống nhất.
- Hiệu quả huấn luyện: Tận dụng lợi thế từ quy trình huấn luyện hiệu quả, các trọng số đã được huấn luyện trước có sẵn trên các bộ dữ liệu như COCO và thời gian hội tụ nhanh hơn.
Kết luận
Cả PP-YOLOE+ và YOLOv7 đều là những mô hình phát hiện đối tượng đáng gờm đã đẩy lùi các ranh giới của những gì có thể. PP-YOLOE+ cung cấp một giải pháp không neo có thể mở rộng và hiệu quả, đặc biệt có giá trị trong hệ sinh thái PaddlePaddle. YOLOv7 nổi bật về tốc độ và độ chính xác thô, khiến nó trở thành lựa chọn phù hợp cho các ứng dụng thời gian thực khắt khe.
Tuy nhiên, đối với các nhà phát triển đang tìm kiếm một giải pháp hoàn chỉnh và có tính đến tương lai, các mô hình Ultralytics như YOLOv8 và YOLO11 mang đến một gói giải pháp hấp dẫn hơn. Sự kết hợp giữa hiệu suất hiện đại, dễ sử dụng, tính linh hoạt đa nhiệm và một hệ sinh thái mạnh mẽ, được duy trì tốt khiến chúng trở thành lựa chọn lý tưởng cho nhiều dự án thị giác máy tính, từ nghiên cứu học thuật đến triển khai sản xuất.
Khám phá các Mô hình Khác
Để khám phá thêm, hãy xem xét các so sánh liên quan đến PP-YOLOE+, YOLOv7 và các mô hình hàng đầu khác sau:
- YOLOv7 so với YOLOv8
- YOLOv7 so với YOLOv5
- RT-DETR so với YOLOv7
- PP-YOLOE+ so với YOLOv8
- So sánh YOLOX và YOLOv7
- Khám phá các mô hình mới nhất như YOLOv10 và YOLO11.