Chuyển đến nội dung

YOLOv6-3.0 so với RTDETRv2: So sánh kỹ thuật

Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định quan trọng, cân bằng giữa độ chính xác, tốc độ và chi phí tính toán. So sánh này đi sâu vào hai mô hình mạnh mẽ nhưng có kiến trúc khác biệt: YOLOv6-3.0, một detector dựa trên CNN được tối ưu hóa cao và RTDETRv2, một mô hình dựa trên transformer thời gian thực hiện đại. Trong khi YOLOv6-3.0 được thiết kế cho các ứng dụng công nghiệp tốc độ cao, RTDETRv2 tận dụng Vision Transformer (ViT) để đạt được độ chính xác vượt trội.

Trang này cung cấp một phân tích chuyên sâu về kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn xác định sự phù hợp nhất cho dự án của mình.

YOLOv6-3.0

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức: Meituan
Ngày: 13-01-2023
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Tài liệu: https://docs.ultralytics.com/models/yolov6/

YOLOv6-3.0 là một khung phát hiện đối tượng một giai đoạn được phát triển bởi Meituan, được thiết kế đặc biệt cho các ứng dụng công nghiệp, nơi tốc độ suy luận là ưu tiên hàng đầu. Nó xây dựng dựa trên kiến trúc YOLO cổ điển với một số tối ưu hóa chính.

Kiến trúc và các tính năng chính

YOLOv6-3.0 giới thiệu thiết kế mạng nơ-ron nhận biết phần cứng để tối đa hóa hiệu quả. Kiến trúc của nó có backbone tái tham số hóa hiệu quả và neck được thiết kế lại để cân bằng độ chính xác và tốc độ. Mô hình này cũng kết hợp chiến lược huấn luyện tối ưu hóa, bao gồm tự chưng cất, để nâng cao hiệu suất mà không làm tăng thêm chi phí suy luận. Nó là một trình phát hiện đối tượng một giai đoạn cổ điển, làm cho nó vốn có tốc độ nhanh và dễ triển khai.

Điểm mạnh

  • Tốc độ suy luận cao: Được tối ưu hóa cho hiệu suất nhanh, làm cho nó rất phù hợp cho suy luận thời gian thực trong môi trường công nghiệp.
  • Sự cân bằng tốt giữa tốc độ và độ chính xác: Mang lại độ chính xác cạnh tranh, đặc biệt là với các biến thể lớn hơn, đồng thời duy trì thông lượng cao.
  • Lượng tử hóa và Hỗ trợ trên thiết bị di động: Cung cấp hỗ trợ mạnh mẽ cho lượng tử hóa mô hình và bao gồm các biến thể YOLOv6Lite được thiết kế riêng cho việc triển khai trên thiết bị di động hoặc dựa trên CPU.

Điểm yếu

  • Tính linh hoạt của tác vụ bị hạn chế: Chủ yếu tập trung vào phát hiện đối tượng, thiếu sự hỗ trợ tích hợp cho các tác vụ khác như phân đoạn, phân loại và ước tính tư thế được tìm thấy trong các khuôn khổ toàn diện hơn như Ultralytics YOLO.
  • Hệ sinh thái và Bảo trì: Mặc dù là mã nguồn mở, hệ sinh thái của nó không rộng lớn hoặc được duy trì tích cực như nền tảng Ultralytics, điều này có thể có nghĩa là ít cập nhật hơn và ít hỗ trợ từ cộng đồng hơn.

Các trường hợp sử dụng lý tưởng

YOLOv6-3.0 vượt trội trong các tình huống mà tốc độ là tối quan trọng:

  • Tự động hóa công nghiệp: Hoàn hảo để kiểm soát chất lượng và giám sát quy trình trong sản xuất.
  • Hệ thống thời gian thực: Lý tưởng cho các ứng dụng có yêu cầu nghiêm ngặt về độ trễ, chẳng hạn như robotics và giám sát video.
  • Điện toán biên: Thiết kế hiệu quả và các biến thể di động của nó làm cho nó trở thành một lựa chọn mạnh mẽ để triển khai trên các thiết bị có tài nguyên hạn chế như NVIDIA Jetson.

Tìm hiểu thêm về YOLOv6-3.0

RTDETRv2

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu
Ngày: 2023-04-17
Arxiv: https://arxiv.org/abs/2304.08069
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Tài liệu: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

RTDETRv2 (Real-Time Detection Transformer v2) là một trình phát hiện đối tượng tiên tiến, điều chỉnh kiến trúc transformer cho hiệu suất thời gian thực. Nó xây dựng dựa trên framework DETR ban đầu để mang lại độ chính xác cao bằng cách nắm bắt hiệu quả ngữ cảnh hình ảnh toàn cục.

Kiến trúc và các tính năng chính

RTDETRv2 sử dụng cấu trúc bộ mã hóa-giải mã transformer, cho phép nó mô hình hóa các phụ thuộc tầm xa giữa các đối tượng trong một cảnh. Nhận thức ngữ cảnh toàn cục này thường dẫn đến độ chính xác vượt trội, đặc biệt là trong các hình ảnh phức tạp có nhiều đối tượng chồng lên nhau. Là một detector không neo, nó đơn giản hóa quy trình phát hiện bằng cách loại bỏ nhu cầu thiết kế hộp neo và loại bỏ các hộp chồng lấn không tối đa (NMS) trong bộ giải mã.

Điểm mạnh

  • Độ chính xác cao: Kiến trúc transformer cho phép hiểu sâu về ngữ cảnh hình ảnh, dẫn đến độ chính xác phát hiện hiện đại.
  • Trích xuất đặc trưng mạnh mẽ: Vượt trội trong việc nắm bắt cả ngữ cảnh tổng thể lẫn các chi tiết nhỏ, giúp mô hình hoạt động mạnh mẽ trong các khung cảnh phức tạp.
  • Khả năng hoạt động theo thời gian thực: Được tối ưu hóa để suy luận nhanh, đặc biệt khi được tăng tốc bằng các công cụ như TensorRT, giúp nó khả thi cho các ứng dụng thời gian thực.

Điểm yếu

  • Chi phí tính toán cao: Transformers nổi tiếng là tốn nhiều tài nguyên. Các mô hình RTDETRv2 thường có nhiều tham số và FLOPs hơn so với các đối tác CNN của chúng.
  • Demanding Training Requirements (Yêu cầu huấn luyện khắt khe): Việc huấn luyện các mô hình dựa trên transformer thường đòi hỏi lượng dữ liệu lớn hơn đáng kể, thời gian huấn luyện lâu hơn và bộ nhớ CUDA cao hơn nhiều, khiến nó trở nên khó tiếp cận hơn đối với những người dùng có phần cứng hạn chế. Ngược lại, các mô hình Ultralytics YOLO được thiết kế để huấn luyện hiệu quả trên các GPU tiêu chuẩn.

Các trường hợp sử dụng lý tưởng

RTDETRv2 phù hợp nhất cho các ứng dụng mà độ chính xác tối đa là mục tiêu chính:

  • Lái xe tự động: Nhận thức có độ chính xác cao là rất quan trọng đối với sự an toàn của xe tự lái.
  • Robotics tiên tiến: Cho phép robot điều hướng và tương tác với các môi trường phức tạp, năng động.
  • Giám sát độ chính xác cao: Hữu ích trong các hệ thống an ninh, nơi cần phát hiện chính xác các đối tượng nhỏ hoặc bị che khuất.

Tìm hiểu thêm về RTDETRv2

So sánh hiệu năng: YOLOv6-3.0 so với RTDETRv2

Bảng dưới đây cung cấp so sánh hiệu suất trên tập dữ liệu COCO.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv6-3.0n 640 37.5 - 1.17 4.7 11.4
YOLOv6-3.0s 640 45.0 - 2.66 18.5 45.3
YOLOv6-3.0m 640 50.0 - 5.28 34.9 85.8
YOLOv6-3.0l 640 52.8 - 8.95 59.6 150.7
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

Từ các số liệu, RTDETRv2-x đạt được mAP cao nhất, thể hiện những lợi ích về độ chính xác của kiến trúc transformer của nó. Tuy nhiên, điều này phải trả giá bằng tốc độ và kích thước mô hình. Ngược lại, các mô hình YOLOv6-3.0 cung cấp thời gian suy luận nhanh hơn đáng kể với ít tham số hơn. Ví dụ: YOLOv6-3.0s nhanh hơn gần gấp đôi so với RTDETRv2-s trong khi mang lại mAP cạnh tranh là 45,0. Sự lựa chọn rõ ràng phụ thuộc vào mức độ ưu tiên của dự án: độ chính xác tối đa (RTDETRv2) hoặc tốc độ và hiệu quả tối ưu (YOLOv6-3.0).

Phương pháp luận huấn luyện

YOLOv6-3.0 được huấn luyện bằng cách sử dụng các phương pháp học sâu tiêu chuẩn thường thấy ở CNN, bao gồm các kỹ thuật như tự chưng cất để cải thiện hiệu suất. Quá trình huấn luyện của nó thường hiệu quả và ít tốn tài nguyên hơn.

RTDETRv2, với cấu trúc dựa trên transformer, có quy trình đào tạo khắt khe hơn. Các mô hình này thường yêu cầu bộ dữ liệu lớn hơn, lịch trình đào tạo dài hơn và bộ nhớ GPU lớn hơn đáng kể để hội tụ hiệu quả. Rào cản gia nhập cao hơn này có thể khiến chúng kém thực tế hơn đối với các nhóm không có quyền truy cập vào tài nguyên máy tính hiệu suất cao.

Kết luận

Cả YOLOv6-3.0 và RTDETRv2 đều là những người có hiệu suất mạnh mẽ trong các lĩnh vực tương ứng của họ. YOLOv6-3.0 là một lựa chọn tuyệt vời cho các ứng dụng công nghiệp, nơi tốc độ và hiệu quả là rất quan trọng. RTDETRv2 đẩy mạnh các ranh giới của độ chính xác, làm cho nó lý tưởng cho các nhiệm vụ có tính rủi ro cao, nơi không thể thỏa hiệp về độ chính xác.

Tuy nhiên, đối với hầu hết các nhà phát triển và nhà nghiên cứu, các mô hình Ultralytics YOLO như YOLOv8, YOLOv10YOLO11 mới nhất cung cấp một gói tổng thể hấp dẫn hơn. Các mô hình Ultralytics cung cấp sự cân bằng đặc biệt giữa tốc độ và độ chính xác, rất hiệu quả để đào tạo và hỗ trợ một loạt các tác vụ ngoài phát hiện đối tượng, bao gồm phân đoạn, ước tính tư thế và phân loại.

Hơn nữa, chúng được hỗ trợ bởi một hệ sinh thái mạnh mẽ và được duy trì tích cực, bao gồm tài liệu toàn diện, API python đơn giản và tích hợp với Ultralytics HUB để hợp lý hóa quá trình đào tạo và triển khai. Sự kết hợp giữa hiệu suất, tính linh hoạt và dễ sử dụng này làm cho các mô hình Ultralytics YOLO trở thành lựa chọn được đề xuất cho một loạt các dự án thị giác máy tính.

Khám phá các Mô hình Khác

Nếu bạn quan tâm đến các so sánh khác, bạn có thể khám phá thêm các mô hình khác trong tài liệu Ultralytics:



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận