YOLOv7 so với RT-DETRv2: So sánh kỹ thuật chi tiết
Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định quan trọng đối với bất kỳ dự án thị giác máy tính nào, cân bằng sự đánh đổi giữa độ chính xác, tốc độ và chi phí tính toán. Trang này cung cấp so sánh kỹ thuật toàn diện giữa YOLOv7, một trình phát hiện dựa trên CNN hiệu quả cao và RT-DETRv2, một mô hình dựa trên transformer hiện đại. Chúng tôi sẽ đi sâu vào sự khác biệt về kiến trúc, điểm chuẩn hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn đưa ra lựa chọn sáng suốt.
YOLOv7: Tối ưu hóa cho tốc độ và độ chính xác
YOLOv7 đánh dấu một cột mốc quan trọng trong chuỗi YOLO, giới thiệu các chiến lược huấn luyện và tối ưu hóa kiến trúc mới để thiết lập một tiêu chuẩn mới cho việc phát hiện đối tượng theo thời gian thực tại thời điểm phát hành.
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Date: 2022-07-06
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- Tài liệu: https://docs.ultralytics.com/models/yolov7/
Kiến trúc và các tính năng chính
Kiến trúc của YOLOv7 được xây dựng dựa trên nền tảng CNN mạnh mẽ, kết hợp nhiều cải tiến quan trọng để tăng hiệu suất mà không làm tăng chi phí suy luận. Backbone của nó có Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN), giúp tăng cường khả năng học các đặc trưng đa dạng của mạng. Một đóng góp lớn là khái niệm "trainable bag-of-freebies", bao gồm các kỹ thuật tối ưu hóa nâng cao được áp dụng trong quá trình huấn luyện—chẳng hạn như auxiliary heads và coarse-to-fine guided label assignment—để cải thiện độ chính xác của mô hình cuối cùng. Các chiến lược này cho phép YOLOv7 đạt được sự cân bằng đáng kể giữa tốc độ và độ chính xác.
Hiệu suất và các trường hợp sử dụng
YOLOv7 nổi tiếng với hiệu suất vượt trội trên phần cứng GPU, mang lại số khung hình trên giây (FPS) cao cho suy luận thời gian thực. Điều này làm cho nó trở thành một lựa chọn tuyệt vời cho các ứng dụng mà độ trễ thấp là rất quan trọng.
-
Điểm mạnh:
- Sự đánh đổi tốc độ-độ chính xác tuyệt vời: Cung cấp sự kết hợp mạnh mẽ giữa mAP và tốc độ suy luận, lý tưởng cho các tác vụ thời gian thực.
- Huấn luyện hiệu quả: Tận dụng "bag-of-freebies" để cải thiện độ chính xác mà không làm tăng thêm chi phí tính toán trong quá trình suy luận.
- Hiệu suất đã được chứng minh: Đã được thiết lập và đánh giá chuẩn tốt trên các bộ dữ liệu tiêu chuẩn như MS COCO.
-
Điểm yếu:
- Độ phức tạp: Kiến trúc và các kỹ thuật huấn luyện nâng cao có thể phức tạp để hiểu và tùy chỉnh hoàn toàn.
- Tốn tài nguyên: Các mô hình YOLOv7 lớn hơn đòi hỏi tài nguyên GPU đáng kể để đào tạo.
- Tính linh hoạt hạn chế: Được thiết kế chủ yếu cho phát hiện đối tượng, với các tiện ích mở rộng do cộng đồng phát triển cho các tác vụ khác, không giống như các mô hình có hỗ trợ đa nhiệm tích hợp.
RT-DETRv2: Real-Time Detection Transformer v2
RT-DETRv2 (Real-Time Detection Transformer v2) là một trình phát hiện đối tượng tiên tiến từ Baidu, tận dụng sức mạnh của transformer để đạt được độ chính xác cao trong khi vẫn duy trì hiệu suất thời gian thực.
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
- Tổ chức: Baidu
- Ngày: 2023-04-17
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Kiến trúc và các tính năng chính
RT-DETRv2 dựa trên kiến trúc Vision Transformer (ViT), cho phép nó nắm bắt ngữ cảnh và các mối quan hệ toàn cục trong một hình ảnh hiệu quả hơn so với CNN truyền thống. Nó sử dụng một thiết kế kết hợp, sử dụng backbone CNN để trích xuất đặc trưng ban đầu và bộ mã hóa-giải mã dựa trên transformer để phát hiện. Mô hình này cũng không cần anchor, đơn giản hóa quy trình phát hiện bằng cách loại bỏ nhu cầu về các hộp anchor được xác định trước, tương tự như các mô hình như YOLOX.
Hiệu suất và các trường hợp sử dụng
Ưu điểm chính của RT-DETRv2 là độ chính xác cao, đặc biệt là để phát hiện các đối tượng trong các cảnh phức tạp với sự tắc nghẽn hoặc lộn xộn đáng kể.
-
Điểm mạnh:
- Độ chính xác cao: Kiến trúc Transformer cho phép đạt được độ chính xác phát hiện vật thể vượt trội bằng cách xử lý hiệu quả ngữ cảnh hình ảnh toàn cục.
- Biểu diễn đặc trưng mạnh mẽ: Vượt trội trong việc hiểu các chi tiết phức tạp và mối quan hệ giữa các đối tượng.
-
Điểm yếu:
- Chi phí tính toán cao: Các mô hình dựa trên Transformer như RT-DETRv2 tốn nhiều tính toán, đặc biệt là trong quá trình huấn luyện. Chúng thường đòi hỏi bộ nhớ CUDA nhiều hơn đáng kể và thời gian huấn luyện lâu hơn so với các mô hình dựa trên CNN.
- Suy luận chậm hơn trên một số phần cứng: Mặc dù được tối ưu hóa cho hiệu suất thời gian thực, nó có thể không phù hợp với tốc độ thô của các CNN được tối ưu hóa cao như YOLOv7 trên tất cả các cấu hình phần cứng.
So sánh hiệu năng: YOLOv7 so với RT-DETRv2
Bảng dưới đây cung cấp so sánh định lượng về các biến thể mô hình khác nhau. RT-DETRv2-x đạt được mAP cao nhất, nhưng điều này phải trả giá bằng nhiều tham số hơn, FLOP cao hơn và tốc độ suy luận chậm hơn so với YOLOv7x. YOLOv7 cung cấp một cấu hình cân bằng hơn, khiến nó trở thành một ứng cử viên mạnh mẽ cho các ứng dụng đòi hỏi cả tốc độ cao và độ chính xác cao.
Mô hình | Kích thước (pixels) |
mAPval 50-95 |
Tốc độ CPU ONNX (ms) |
Tốc độ T4 TensorRT10 (ms) |
Tham số (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Tại sao nên chọn các mô hình Ultralytics YOLO?
Mặc dù YOLOv7 và RT-DETRv2 đều là những mô hình mạnh mẽ, nhưng các mô hình Ultralytics YOLO mới hơn như YOLOv8 và Ultralytics YOLO11 mới nhất mang đến một giải pháp hiện đại, linh hoạt và thân thiện hơn cho nhà phát triển.
- Dễ sử dụng: Các mô hình Ultralytics được thiết kế để mang lại trải nghiệm người dùng được tinh giản, có Python API đơn giản, tài liệu đầy đủ và các lệnh CLI dễ sử dụng.
- Hệ sinh thái được duy trì tốt: Tận dụng lợi thế từ quá trình phát triển tích cực, cộng đồng mã nguồn mở mạnh mẽ, cập nhật thường xuyên và tích hợp liền mạch với các công cụ như Ultralytics HUB cho MLOps toàn diện.
- Cân bằng hiệu năng: Các model Ultralytics đạt được sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, khiến chúng phù hợp với nhiều tình huống thực tế khác nhau, từ các thiết bị AI biên đến máy chủ đám mây.
- Hiệu quả bộ nhớ: Các mô hình Ultralytics YOLO được tối ưu hóa để sử dụng bộ nhớ hiệu quả. Chúng thường yêu cầu ít bộ nhớ CUDA hơn để huấn luyện và suy luận so với các mô hình dựa trên transformer như RT-DETR, vốn nổi tiếng là tốn nhiều bộ nhớ và huấn luyện chậm hơn.
- Tính linh hoạt: Các mô hình như YOLOv8 và YOLO11 là các framework đa nhiệm thực sự, hỗ trợ phát hiện đối tượng, phân đoạn, phân loại, ước tính tư thế và phát hiện đối tượng theo hướng (OBB) ngay khi xuất xưởng.
- Hiệu quả huấn luyện: Tận hưởng quy trình huấn luyện hiệu quả với các weights đã được huấn luyện trước có sẵn trên các bộ dữ liệu như COCO, giúp hội tụ nhanh hơn và giảm thời gian phát triển.
Kết luận
Cả YOLOv7 và RT-DETRv2 đều là những mô hình phát hiện đối tượng đáng gờm, mỗi mô hình có những ưu điểm riêng biệt. YOLOv7 vượt trội trong các ứng dụng đòi hỏi tốc độ thời gian thực trên GPU, mang lại sự cân bằng tuyệt vời giữa hiệu suất và hiệu quả. RT-DETRv2 đẩy mạnh các ranh giới của độ chính xác, khiến nó trở thành lựa chọn ưu tiên cho các tình huống mà độ chính xác là tối quan trọng và tài nguyên tính toán ít bị hạn chế hơn, chẳng hạn như trong AI trong xe tự lái hoặc phân tích hình ảnh y tế.
Tuy nhiên, đối với các nhà phát triển và nhà nghiên cứu đang tìm kiếm một giải pháp tất cả trong một hiện đại, các mô hình Ultralytics như YOLOv8 và YOLO11 thường đưa ra lựa chọn hấp dẫn nhất. Chúng kết hợp hiệu suất hiện đại với sự dễ sử dụng đặc biệt, yêu cầu bộ nhớ thấp hơn, tính linh hoạt đa tác vụ và một hệ sinh thái toàn diện, được hỗ trợ tốt, làm cho chúng trở thành lựa chọn lý tưởng cho một loạt các dự án thị giác máy tính.
So sánh các mô hình khác
Để khám phá thêm, hãy xem xét các so sánh liên quan đến YOLOv7, RT-DETR và các mô hình hàng đầu khác sau:
- YOLOv7 so sánh với YOLOv8
- YOLOv7 so sánh với YOLOv5
- RT-DETR so với YOLOv8
- RT-DETR so với YOLOX
- Khám phá các mô hình mới nhất như YOLOv10 và YOLO11.