Chuyển đến nội dung

RTDETRv2 so với YOLOv5: So sánh kỹ thuật chi tiết

Việc lựa chọn mô hình phát hiện đối tượng tối ưu là một quyết định quan trọng đối với bất kỳ dự án thị giác máy tính nào. Sự đánh đổi giữa độ chính xác, tốc độ và chi phí tính toán xác định tính phù hợp của mô hình cho một ứng dụng nhất định. Trang này cung cấp so sánh kỹ thuật chi tiết giữa RTDETRv2, một mô hình dựa trên transformer có độ chính xác cao và Ultralytics YOLOv5, một tiêu chuẩn công nghiệp hiệu quả cao và được áp dụng rộng rãi. Chúng ta sẽ khám phá sự khác biệt về kiến trúc, điểm chuẩn hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn đưa ra lựa chọn sáng suốt.

RTDETRv2: Transformer phát hiện theo thời gian thực với độ chính xác cao

RTDETRv2 (Real-Time Detection Transformer v2) là một trình phát hiện đối tượng hiện đại từ Baidu, tận dụng sức mạnh của Vision Transformer để đạt được độ chính xác cao đồng thời duy trì hiệu suất thời gian thực. Nó thể hiện một bước tiến đáng kể trong việc đưa các kiến trúc transformer phức tạp vào các ứng dụng thực tế, thời gian thực.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức: Baidu
Ngày: 17-04-2023 (RT-DETR ban đầu), 24-07-2024 (cải tiến RT-DETRv2)
Arxiv: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Tài liệu: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

Kiến trúc

RTDETRv2 sử dụng kiến trúc kết hợp, kết hợp những điểm mạnh của Mạng nơ-ron tích chập (CNN) và Transformer.

  • Backbone: Một CNN (như ResNet hoặc HGNetv2) được sử dụng để trích xuất đặc trưng ban đầu, nắm bắt hiệu quả các đặc trưng hình ảnh mức thấp.
  • Encoder-Decoder: Cốt lõi của mô hình là một encoder-decoder dựa trên Transformer. Nó sử dụng cơ chế tự chú ý để xử lý các bản đồ đặc trưng từ backbone, cho phép mô hình nắm bắt ngữ cảnh toàn cục và các phụ thuộc tầm xa giữa các đối tượng trong cảnh. Điều này đặc biệt hiệu quả để phát hiện các đối tượng trong môi trường phức tạp hoặc đông đúc.

Điểm mạnh

  • Độ chính xác cao: Kiến trúc Transformer cho phép RTDETRv2 đạt được điểm mAP xuất sắc, thường vượt trội hơn các mô hình dựa trên CNN truyền thống trên các bộ dữ liệu phức tạp như COCO.
  • Trích xuất đặc trưng mạnh mẽ: Bằng cách xem xét toàn bộ ngữ cảnh hình ảnh, nó hoạt động tốt trong các tình huống khó khăn với các đối tượng bị che khuất hoặc nhỏ, làm cho nó phù hợp với các ứng dụng như lái xe tự động.
  • Khả năng hoạt động theo thời gian thực: Mô hình được tối ưu hóa để mang lại tốc độ suy luận cạnh tranh, đặc biệt khi được tăng tốc bằng các công cụ như NVIDIA TensorRT.

Điểm yếu

  • Chi phí tính toán: Các mô hình dựa trên Transformer thường có số lượng tham số và FLOPs cao hơn, đòi hỏi tài nguyên tính toán đáng kể hơn như bộ nhớ GPU và sức mạnh xử lý.
  • Độ phức tạp khi huấn luyện: Huấn luyện RTDETRv2 có thể tốn nhiều tài nguyên và chậm hơn so với huấn luyện các mô hình dựa trên CNN. Nó thường yêu cầu nhiều bộ nhớ CUDA hơn đáng kể, điều này có thể là một rào cản đối với người dùng có phần cứng hạn chế.
  • Tốc độ suy luận trên CPU: Mặc dù nhanh trên GPU cao cấp, nhưng hiệu suất của nó có thể chậm hơn đáng kể so với các mô hình được tối ưu hóa như YOLOv5 trên CPU hoặc các thiết bị biên kém mạnh mẽ hơn.
  • Hệ sinh thái: Nó thiếu hệ sinh thái mở rộng, thống nhất, các công cụ và sự hỗ trợ cộng đồng rộng rãi mà Ultralytics cung cấp cho các mô hình YOLO của mình.

Tìm hiểu thêm về RTDETRv2

Ultralytics YOLOv5: Tiêu chuẩn công nghiệp đã được thiết lập

Ultralytics YOLOv5, lần đầu tiên ra mắt vào năm 2020, đã nhanh chóng trở thành chuẩn mực của ngành nhờ sự cân bằng vượt trội giữa tốc độ, độ chính xác và tính dễ sử dụng vô song. Được phát triển bằng PyTorch bởi Glenn Jocher, YOLOv5 là một mô hình hoàn thiện, đáng tin cậy và được tối ưu hóa cao, đã được triển khai trong vô số ứng dụng thực tế.

Tác giả: Glenn Jocher
Tổ chức: Ultralytics
Ngày: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Tài liệu: https://docs.ultralytics.com/models/yolov5/

Kiến trúc

YOLOv5 có kiến trúc CNN cổ điển và hiệu quả cao. Nó sử dụng backbone CSPDarknet53 để trích xuất đặc trưng, neck PANet để tổng hợp đặc trưng trên các tỷ lệ khác nhau và một head phát hiện dựa trên anchor. Thiết kế này đã được chứng minh là cực kỳ hiệu quả để nhận dạng đối tượng theo thời gian thực.

Điểm mạnh

  • Tốc độ và Hiệu quả Vượt trội: YOLOv5 được tối ưu hóa cao cho suy luận nhanh trên nhiều loại phần cứng, từ GPU cao cấp đến các thiết bị biên hạn chế về tài nguyên như NVIDIA JetsonRaspberry Pi.
  • Dễ sử dụng: Ultralytics YOLOv5 nổi tiếng với trải nghiệm người dùng được tinh giản. Với Python API đơn giản và tài liệu mở rộng, các nhà phát triển có thể đào tạo, xác thực và triển khai các mô hình với nỗ lực tối thiểu.
  • Hệ sinh thái được duy trì tốt: YOLOv5 được hỗ trợ bởi hệ sinh thái Ultralytics mạnh mẽ, bao gồm phát triển tích cực, một cộng đồng lớn và hỗ trợ, cập nhật thường xuyên và các công cụ tích hợp như Ultralytics HUB để đào tạo và triển khai không cần code.
  • Cân bằng hiệu năng: Dòng model (n, s, m, l, x) mang lại sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, cho phép người dùng lựa chọn model hoàn hảo cho nhu cầu cụ thể của họ.
  • Hiệu quả bộ nhớ: So với các mô hình dựa trên transformer như RTDETRv2, YOLOv5 yêu cầu ít bộ nhớ CUDA hơn đáng kể để huấn luyện, giúp nó dễ tiếp cận hơn với nhiều nhà phát triển và nhà nghiên cứu.
  • Tính linh hoạt: YOLOv5 hỗ trợ nhiều tác vụ, bao gồm phát hiện đối tượng, phân đoạn thể hiệnphân loại ảnh, tất cả trong một khuôn khổ thống nhất.
  • Hiệu quả huấn luyện: Quá trình huấn luyện nhanh chóng và hiệu quả, với các trọng số đã được huấn luyện trước có sẵn, giúp tăng tốc độ hội tụ trên các bộ dữ liệu tùy chỉnh.

Điểm yếu

  • Độ chính xác trên các cảnh phức tạp: Mặc dù có độ chính xác cao, YOLOv5 có thể bị RTDETRv2 vượt trội hơn một chút về mAP trên các tập dữ liệu có các đối tượng rất dày đặc hoặc nhỏ, nơi bối cảnh toàn cục là rất quan trọng.
  • Dựa trên Anchor: Việc dựa vào các hộp anchor được xác định trước đôi khi có thể yêu cầu điều chỉnh thêm cho các bộ dữ liệu có tỷ lệ khung hình đối tượng bất thường, một bước không cần thiết trong các bộ dò tìm không cần anchor.

Các trường hợp sử dụng lý tưởng

YOLOv5 vượt trội trong các ứng dụng mà tốc độ, hiệu quả và phát triển nhanh chóng là ưu tiên:

  • Giám sát video theo thời gian thực: Cung cấp năng lượng cho hệ thống báo động an ninh và giám sát nguồn cấp video trực tiếp.
  • Điện toán biên: Triển khai trên các thiết bị tiêu thụ điện năng thấp cho các ứng dụng trong robot và tự động hóa công nghiệp.
  • Ứng dụng di động: Các mô hình nhẹ của nó rất phù hợp cho việc suy luận trên thiết bị trên điện thoại thông minh.
  • Tạo mẫu nhanh: Tính dễ sử dụng và chu kỳ huấn luyện nhanh chóng khiến nó trở nên lý tưởng để nhanh chóng phát triển và thử nghiệm các ý tưởng mới.

Tìm hiểu thêm về YOLOv5

Phân tích hiệu năng: Tốc độ so với độ chính xác

Sự khác biệt chính giữa RTDETRv2 và YOLOv5 nằm ở triết lý thiết kế của chúng. RTDETRv2 ưu tiên đạt được độ chính xác cao nhất có thể bằng cách tận dụng kiến trúc transformer chuyên sâu về tính toán. Ngược lại, YOLOv5 được thiết kế để có sự cân bằng tối ưu giữa tốc độ và độ chính xác, khiến nó trở thành một lựa chọn thiết thực hơn cho nhiều tình huống triển khai hơn, đặc biệt là trên phần cứng không phải GPU.

Bảng dưới đây cung cấp so sánh định lượng trên bộ dữ liệu COCO val2017. Trong khi các mô hình RTDETRv2 đạt được mAP cao hơn, các mô hình YOLOv5, đặc biệt là các biến thể nhỏ hơn, cung cấp tốc độ suy luận nhanh hơn đáng kể, đặc biệt là trên CPU.

Mô hình Kích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4

Kết luận và Đề xuất

Cả RTDETRv2 và YOLOv5 đều là những mô hình phát hiện đối tượng mạnh mẽ, nhưng chúng phục vụ cho các nhu cầu khác nhau.

RTDETRv2 là một lựa chọn tuyệt vời cho các ứng dụng mà việc đạt được độ chính xác tuyệt đối cao nhất là ưu tiên hàng đầu và có sẵn tài nguyên tính toán đáng kể (đặc biệt là GPU cao cấp). Khả năng hiểu ngữ cảnh toàn cục của nó làm cho nó vượt trội hơn cho các tiêu chuẩn học thuật và các tác vụ công nghiệp chuyên biệt với các cảnh phức tạp.

Tuy nhiên, đối với phần lớn các ứng dụng thực tế, Ultralytics YOLOv5 vẫn là lựa chọn thiết thực và linh hoạt hơn. Sự cân bằng vượt trội giữa tốc độ và độ chính xác, kết hợp với yêu cầu tài nguyên thấp, khiến nó phù hợp để triển khai ở khắp mọi nơi từ đám mây đến biên. Những ưu điểm chính của YOLOv5—dễ sử dụng, hệ sinh thái được duy trì tốt, hiệu quả đào tạotính linh hoạt—làm cho nó trở thành mô hình lựa chọn hàng đầu cho các nhà phát triển và nhà nghiên cứu cần cung cấp các giải pháp mạnh mẽ, hiệu suất cao một cách nhanh chóng và hiệu quả.

Đối với những ai đang tìm kiếm những tiến bộ mới nhất được xây dựng dựa trên nền tảng vững chắc này, chúng tôi đặc biệt khuyên bạn nên khám phá các mô hình Ultralytics mới hơn như YOLOv8YOLO11, mang lại hiệu suất tốt hơn và nhiều tính năng hơn trong cùng một khuôn khổ thân thiện với người dùng.

So sánh các mô hình khác

Nếu bạn quan tâm đến việc so sánh hiệu quả của các mô hình này so với các mô hình khác, hãy xem các trang so sánh sau:



📅 Đã tạo 1 năm trước ✏️ Đã cập nhật 1 tháng trước

Bình luận