Chuyển đến nội dung

So sánh kỹ thuật chi tiết YOLOv6-3.0 và YOLOv7

Việc lựa chọn mô hình phát hiện đối tượng tối ưu là một quyết định quan trọng trong các dự án thị giác máy tính, đòi hỏi sự cân bằng giữa độ chính xác, tốc độ và việc sử dụng tài nguyên. Trang này cung cấp so sánh kỹ thuật chi tiết giữa YOLOv6-3.0YOLOv7, hai mô hình nổi bật được biết đến với khả năng phát hiện đối tượng. Chúng ta sẽ đi sâu vào kiến trúc, các chuẩn mực hiệu suất và các ứng dụng phù hợp của chúng để hướng dẫn quy trình lựa chọn mô hình của bạn.

YOLOv6-3.0: Được thiết kế cho tốc độ công nghiệp

YOLOv6-3.0, được phát triển bởi Meituan, được thiết kế cho các ứng dụng công nghiệp đòi hỏi khả năng phát hiện đối tượng hiệu suất cao, tập trung vào tốc độ và hiệu quả. Phiên bản 3.0 tăng cường đáng kể so với các phiên bản tiền nhiệm, mang lại độ chính xác được cải thiện và thời gian suy luận nhanh hơn, khiến nó trở thành một đối thủ mạnh mẽ cho các hệ thống thời gian thực.

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức: Meituan
Ngày: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Tài liệu: https://docs.ultralytics.com/models/yolov6/

Kiến trúc và các tính năng chính

YOLOv6-3.0 giới thiệu thiết kế mạng nơ-ron nhận biết phần cứng, tận dụng backbone tái tham số hóa hiệu quả. Lựa chọn thiết kế này là trọng tâm trong khả năng tăng tốc tốc độ suy luận, một yếu tố quan trọng để triển khai trong công nghiệp. Kiến trúc này cũng kết hợp cấu trúc khối lai, được thiết kế tỉ mỉ để đạt được sự cân bằng tối ưu giữa độ chính xác và hiệu quả tính toán. Việc tập trung vào tính thân thiện với phần cứng này đảm bảo rằng mô hình hoạt động tốt trên nhiều nền tảng triển khai khác nhau, từ máy chủ đến thiết bị biên.

Điểm mạnh

  • Tốc độ suy luận cao: Được tối ưu hóa cho suy luận nhanh chóng, làm cho nó rất phù hợp cho các ứng dụng có yêu cầu nghiêm ngặt về độ trễ.
  • Tập trung vào công nghiệp: Được thiết kế với các tình huống công nghiệp thực tế, đảm bảo tính mạnh mẽ và hiệu quả trong các môi trường như AI trong sản xuất.
  • Thiết kế chú trọng phần cứng: Kiến trúc được điều chỉnh để mang lại hiệu suất hiệu quả trên nhiều nền tảng phần cứng khác nhau, bao gồm cả CPU và GPU.

Điểm yếu

  • Đánh đổi về độ chính xác: Mặc dù rất hiệu quả, nhưng nó có thể thể hiện độ chính xác thấp hơn một chút trên các bộ dữ liệu phức tạp so với các mô hình như YOLOv7, ưu tiên độ chính xác tối đa.
  • Tính linh hoạt hạn chế: Framework ban đầu chủ yếu tập trung vào phát hiện đối tượng, với các triển khai riêng biệt cho các tác vụ khác, không giống như các mô hình tích hợp hơn.

Các Trường hợp Sử dụng

YOLOv6-3.0 vượt trội trong các ứng dụng mà tốc độ và hiệu quả là tối quan trọng:

  • Tự động hóa công nghiệp: Lý tưởng cho kiểm soát chất lượng, giám sát quy trình và các ứng dụng công nghiệp khác đòi hỏi phát hiện nhanh chóng.
  • Hệ thống thời gian thực: Phù hợp để triển khai trong giám sát thời gian thực, robotics và các ứng dụng có ràng buộc nghiêm ngặt về độ trễ.
  • Điện toán biên: Thiết kế hiệu quả của nó làm cho nó trở thành một lựa chọn tuyệt vời để triển khai trên các thiết bị có tài nguyên hạn chế. Hãy xem hướng dẫn của chúng tôi về cách triển khai trên các thiết bị như NVIDIA Jetson.

Tìm hiểu thêm về YOLOv6-3.0

YOLOv7: Vượt qua các ranh giới của độ chính xác

YOLOv7, được phát triển bởi các nhà nghiên cứu tại Viện Khoa học Thông tin, Academia Sinica, Đài Loan, thể hiện một bước nhảy về phía trước đáng kể trong phát hiện đối tượng thời gian thực, tập trung vào việc đạt được độ chính xác cao trong khi vẫn duy trì hiệu quả.

Tác giả: Chien-Yao Wang, Alexey Bochkovskiy, và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Tài liệu: https://docs.ultralytics.com/models/yolov7/

Kiến trúc và các tính năng chính

YOLOv7 giới thiệu một số cải tiến kiến trúc và chiến lược huấn luyện nhằm tăng cường hiệu suất mà không làm tăng đáng kể chi phí suy luận. Các tính năng chính bao gồm:

  • E-ELAN (Extended-Efficient Layer Aggregation Networks - Các mạng tổng hợp lớp hiệu quả mở rộng): Thiết kế mạng mới lạ này giúp tăng cường khả năng học các đặc trưng một cách hiệu quả, cải thiện cả hiệu quả tính toán và tham số. Bạn có thể tìm thêm chi tiết trong bài báo gốc.
  • Compound Model Scaling: Nó triển khai các phương pháp compound scaling cho độ sâu và chiều rộng của mô hình, tối ưu hóa hiệu suất trên các kích thước mô hình khác nhau.
  • Các cải tiến "Bag-of-Freebies": YOLOv7 tích hợp các kỹ thuật huấn luyện nâng cao, chẳng hạn như các chiến lược tăng cường dữ liệu và gán nhãn được tinh chỉnh, giúp cải thiện độ chính xác mà không làm tăng thêm chi phí suy luận. Tìm hiểu các kỹ thuật tương tự trong hướng dẫn tăng cường dữ liệu của chúng tôi.
  • Huấn luyện Head phụ: Nó sử dụng các head phụ trong giai đoạn huấn luyện để tăng cường khả năng học đặc trưng. Sau đó, các head này sẽ bị loại bỏ trong quá trình suy luận để duy trì tốc độ cao.

Điểm mạnh

  • Độ chính xác cao: Đạt được độ chính xác hiện đại trên các bộ đánh giá tiêu chuẩn như bộ dữ liệu COCO.
  • Hiệu suất hiệu quả: Cân bằng độ chính xác cao với tốc độ suy luận cạnh tranh, phù hợp với nhiều ứng dụng thời gian thực.
  • Tính linh hoạt: Kho lưu trữ chính thức cho thấy sự hỗ trợ dựa trên cộng đồng cho các tác vụ ngoài phát hiện, bao gồm ước tính dáng điệuphân vùng thể hiện.

Điểm yếu

  • Độ phức tạp: Các tính năng kiến trúc nâng cao và kỹ thuật huấn luyện có thể làm cho mô hình trở nên phức tạp hơn để hiểu và tinh chỉnh so với các kiến trúc đơn giản hơn.
  • Huấn luyện tốn nhiều tài nguyên: Các biến thể YOLOv7 lớn hơn (ví dụ: YOLOv7-E6E) yêu cầu tài nguyên tính toán đáng kể cho việc huấn luyện.

Các Trường hợp Sử dụng

YOLOv7 là một lựa chọn tuyệt vời cho các ứng dụng mà độ chính xác cao là mục tiêu chính:

  • Giám sát tiên tiến: Phát hiện các đối tượng nhỏ hoặc khó thấy trong các cảnh đông đúc để tăng cường an ninh.
  • Hệ thống tự động: Cung cấp khả năng phát hiện vật thể chính xác để điều hướng an toàn trên xe tự lái hoặc máy bay không người lái.
  • Nghiên cứu khoa học: Phân tích dữ liệu trực quan phức tạp, nơi độ chính xác cao là rất quan trọng để có kết quả chính xác.

Tìm hiểu thêm về YOLOv7

So sánh hiệu năng: YOLOv6-3.0 so với YOLOv7

Bảng dưới đây tóm tắt các số liệu hiệu suất cho các biến thể tương đương của YOLOv6-3.0 và YOLOv7 trên bộ dữ liệu COCO.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv6-3.0n 640 37.5 - 1.17 4.7 11.4
YOLOv6-3.0s 640 45.0 - 2.66 18.5 45.3
YOLOv6-3.0m 640 50.0 - 5.28 34.9 85.8
YOLOv6-3.0l 640 52.8 - 8.95 59.6 150.7
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9

Lưu ý: Điểm chuẩn tốc độ có thể khác nhau dựa trên phần cứng, phần mềm (TensorRT, ONNX, OpenVINO), kích thước lô và cấu hình cụ thể. Giá trị mAP thường được báo cáo trên bộ dữ liệu COCO val.

Dựa trên bảng, YOLOv7x đạt được mAP cao nhất, cho thấy độ chính xác vượt trội. Tuy nhiên, các mô hình YOLOv6-3.0, đặc biệt là các biến thể nhỏ hơn như YOLOv6-3.0n, cung cấp tốc độ suy luận nhanh hơn đáng kể, đặc biệt là trên GPU với tối ưu hóa TensorRT. Chúng cũng có ít tham số và FLOP hơn, khiến chúng cực kỳ hiệu quả. Lựa chọn phụ thuộc vào việc ưu tiên độ chính xác tối đa (YOLOv7) hay tốc độ và hiệu quả tối ưu (YOLOv6-3.0).

Lợi thế của Ultralytics: Tại sao nên chọn YOLOv8 và YOLO11?

Trong khi YOLOv6 và YOLOv7 là những mô hình mạnh mẽ, các nhà phát triển và nhà nghiên cứu đang tìm kiếm một giải pháp hiện đại trong một hệ sinh thái toàn diện và thân thiện với người dùng nên cân nhắc các mô hình Ultralytics YOLO mới nhất. Các mô hình như Ultralytics YOLOv8YOLO11 mới nhất mang lại một số lợi thế chính:

  • Dễ sử dụng: Các mô hình Ultralytics được thiết kế chú trọng đến trải nghiệm của nhà phát triển, có Python API được tinh giản, tài liệu đầy đủ và các lệnh CLI đơn giản giúp đơn giản hóa việc huấn luyện, xác thực và triển khai.
  • Hệ sinh thái được duy trì tốt: Tận dụng lợi thế từ quá trình phát triển tích cực, cộng đồng mã nguồn mở vững mạnh, cập nhật thường xuyên và tích hợp liền mạch với các công cụ như Ultralytics HUB cho MLOps toàn diện.
  • Tính linh hoạt: Các mô hình như YOLOv8 và YOLO11 là những công cụ đa nhiệm thực sự, hỗ trợ phát hiện đối tượng, phân đoạn, phân loại, ước tính tư thếphát hiện đối tượng theo hướng (OBB) trong một framework duy nhất, thống nhất.
  • Cân bằng hiệu năng: Các model Ultralytics đạt được sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, khiến chúng phù hợp với nhiều tình huống thực tế khác nhau, từ thiết bị biên đến máy chủ đám mây.
  • Hiệu quả huấn luyện: Tận dụng quy trình huấn luyện hiệu quả, các trọng số đã được huấn luyện trước có sẵn và thời gian hội tụ nhanh hơn, giúp tiết kiệm thời gian và tài nguyên tính toán quý giá.

Kết luận

Cả YOLOv6-3.0 và YOLOv7 đều là những mô hình phát hiện đối tượng mạnh mẽ đã đẩy mạnh các ranh giới của những gì có thể trong thị giác máy tính. YOLOv6-3.0 vượt trội trong các tình huống ưu tiên tốc độ và hiệu quả suy luận, làm cho nó lý tưởng cho các ứng dụng công nghiệp và triển khai biên. Ngược lại, YOLOv7 cung cấp độ chính xác đỉnh cao cao hơn, làm cho nó trở thành một lựa chọn mạnh mẽ cho các tác vụ mà độ chính xác là mối quan tâm hàng đầu, mặc dù có khả năng chi phí tính toán cao hơn.

Đối với người dùng quan tâm đến việc khám phá các tùy chọn hiện đại khác, Ultralytics cung cấp các mô hình như YOLOv8YOLO11, cung cấp sự cân bằng vượt trội về hiệu suất, tính linh hoạt và dễ sử dụng. Bạn cũng có thể thấy các so sánh của chúng tôi với các mô hình khác như YOLOXRT-DETR sâu sắc để khám phá thêm.



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận