RTDETRv2 so với YOLOv7 : So sánh kỹ thuật chi tiết
Bối cảnh phát hiện đối tượng thời gian thực đã chứng kiến sự cạnh tranh khốc liệt giữa Mạng Nơ-ron Tích chập (CNN) và Bộ chuyển đổi Thị giác (ViT) mới nổi. Hai cột mốc quan trọng trong quá trình phát triển này là RTDETRv2 (Bộ chuyển đổi Phát hiện Thời gian Thực v2) và YOLOv7 (Bạn Chỉ Nhìn Một Lần phiên bản 7). Trong khi YOLOv7 đại diện cho đỉnh cao của tối ưu hóa kiến trúc CNN hiệu quả, RTDETRv2 giới thiệu sức mạnh của bộ biến áp để loại bỏ nhu cầu về các bước xử lý hậu kỳ như Khử nhiễu không tối đa ( NMS ).
So sánh này khám phá các thông số kỹ thuật, sự khác biệt về kiến trúc và số liệu hiệu suất của cả hai mô hình để giúp các nhà phát triển chọn đúng công cụ cho các ứng dụng thị giác máy tính của họ.
Chỉ số hiệu suất: Độ chính xác so với Tốc độ
Bảng sau đây trình bày so sánh trực tiếp các số liệu hiệu suất chính. RTDETRv2-x thể hiện độ chính xác vượt trội với mAP , phần lớn là nhờ khả năng hiểu ngữ cảnh toàn cục dựa trên bộ biến đổi. Tuy nhiên, YOLOv7 vẫn giữ được tính cạnh tranh, đặc biệt trong các tình huống yêu cầu tốc độ suy luận cân bằng và trọng lượng nhẹ hơn trên các phần cứng khác nhau.
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
RTDETRv2: Phương pháp tiếp cận của máy biến áp
RTDETRv2 được xây dựng dựa trên thành công của bản gốc RT-DETR , máy dò dựa trên máy biến áp đầu tiên thực sự cạnh tranh YOLO Mô hình tốc độ thời gian thực. Được phát triển bởi các nhà nghiên cứu tại Baidu , giải pháp này giải quyết các điểm nghẽn tính toán liên quan đến tương tác đa thang đo trong kiến trúc DETR tiêu chuẩn.
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
- Tổ chức: Baidu
- Ngày: 2023-04-17
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/ RT-DETR /tree/main/rtdetrv2_pytorch
Các đặc điểm kiến trúc chính
RTDETRv2 sử dụng bộ mã hóa lai (hybrid encoder) xử lý hiệu quả các đặc điểm đa tỷ lệ bằng cách tách rời tương tác nội tỷ lệ và hợp nhất đa tỷ lệ. Thiết kế này giúp giảm đáng kể chi phí tính toán so với các bộ biến đổi tiêu chuẩn. Một tính năng nổi bật là lựa chọn truy vấn nhận biết IoU , giúp cải thiện việc khởi tạo các truy vấn đối tượng, dẫn đến hội tụ nhanh hơn và độ chính xác cao hơn. Không giống như các mô hình dựa trên CNN, RTDETRv2 không cần NMS , nghĩa là không yêu cầu hậu xử lý Non-Maximum Suppression, giúp đơn giản hóa quy trình triển khai và giảm độ trễ jitter.
Ưu điểm của máy biến áp
Ưu điểm chính của kiến trúc RTDETRv2 là khả năng nắm bắt bối cảnh toàn cục. Trong khi CNN chỉ tập trung vào các trường tiếp nhận cục bộ, cơ chế tự chú ý trong bộ biến đổi cho phép mô hình xem xét toàn bộ bối cảnh hình ảnh khi phát hiện vật thể, điều này rất hữu ích để giải quyết các điểm mơ hồ trong các cảnh phức tạp có hiện tượng che khuất.
YOLOv7 : Đỉnh CNN
YOLOv7 Mở rộng giới hạn khả năng của Mạng Nơ-ron Tích chập. Phương pháp này tập trung vào việc tối ưu hóa quy trình đào tạo và kiến trúc mô hình để đạt được "túi quà tặng miễn phí" - phương pháp tăng độ chính xác mà không làm tăng chi phí suy luận.
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica
- Date: 2022-07-06
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
Các đặc điểm kiến trúc chính
YOLOv7 Giới thiệu E-ELAN (Mạng Tổng hợp Lớp Hiệu quả Mở rộng), giúp tăng cường khả năng học của mạng bằng cách kiểm soát độ dài đường dẫn gradient. Mạng này cũng sử dụng kỹ thuật tham số hóa lại mô hình , một kỹ thuật trong đó cấu trúc mô hình được phức tạp hóa trong quá trình huấn luyện để học tốt hơn nhưng được đơn giản hóa trong quá trình suy luận để tăng tốc độ. Điều này cho phép YOLOv7 để duy trì hiệu suất cao trên các thiết bị GPU trong khi vẫn giữ các thông số ở mức tương đối thấp so với các mẫu máy biến áp.
Phân tích so sánh
Kiến trúc và tính linh hoạt
Sự khác biệt cơ bản nằm ở thiết kế xương sống và đầu. YOLOv7 dựa trên các cấu trúc CNN sâu được tối ưu hóa cao cho khả năng tăng tốc CUDA nhưng có thể gặp khó khăn với các phụ thuộc tầm xa trong hình ảnh. RTDETRv2 tận dụng các cơ chế chú ý để hiểu mối quan hệ giữa các điểm ảnh ở xa, giúp nó hoạt động mạnh mẽ trong môi trường phức tạp. Tuy nhiên, điều này phải trả giá bằng việc tiêu thụ bộ nhớ cao hơn trong quá trình huấn luyện.
Ultralytics Các mô hình như YOLO11 thu hẹp khoảng cách này bằng cách cung cấp kiến trúc dựa trên CNN tích hợp các mô-đun hiện đại, mang lại tốc độ của CNN với độ chính xác thường dành cho các máy biến áp. Hơn nữa, mặc dù RTDETRv2 chủ yếu là một bộ phát hiện vật thể, nhưng các mô hình mới hơn Ultralytics các mô hình hỗ trợ phân đoạn trường hợp , ước tính tư thế và phân loại một cách tự nhiên.
Đào tạo và Dễ sử dụng
Đào tạo các mô hình máy biến áp như RTDETRv2 thường yêu cầu đáng kể GPU bộ nhớ và thời gian đào tạo dài hơn sẽ hội tụ so với CNN như YOLOv7 .
Dành cho các nhà phát triển đang tìm kiếm Hiệu quả đào tạo và Dễ sử dụng, cái Ultralytics hệ sinh thái cung cấp một lợi thế riêng biệt. Với ultralytics Python gói, người dùng có thể đào tạo, xác thực và triển khai các mô hình chỉ bằng một vài dòng mã, truy cập vào bộ trọng số được đào tạo trước cho các tác vụ khác nhau.
from ultralytics import RTDETR, YOLO
# Load an Ultralytics YOLOv7-style model (if available) or YOLO11
model_yolo = YOLO("yolo11n.pt") # Recommended for best performance
model_yolo.train(data="coco8.yaml", epochs=10)
# Load RT-DETR for comparison
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.predict("asset.jpg")
Triển khai và Hệ sinh thái
YOLOv7 được hỗ trợ rộng rãi do đã có từ lâu, nhưng việc tích hợp vào các quy trình MLOps hiện đại có thể được thực hiện thủ công. RTDETRv2 mới hơn và được hỗ trợ ngày càng nhiều. Ngược lại, các mô hình Ultralytics được hưởng lợi từ Hệ sinh thái được Bảo trì Tốt , bao gồm khả năng xuất dữ liệu liền mạch sang ONNX . TensorRT , Và CoreML và tích hợp với các công cụ như Ultralytics HUB để đào tạo đám mây và quản lý tập dữ liệu.
Các trường hợp sử dụng lý tưởng
- Chọn RTDETRv2 nếu: Bạn có đủ GPU bộ nhớ và yêu cầu độ chính xác cao trong các cảnh có sự che khuất hoặc đông đúc nặng nề, nơi NMS theo truyền thống thì không thành công. Nó rất tuyệt vời cho nghiên cứu và hệ thống giám sát cao cấp.
- Chọn YOLOv7 nếu: Bạn cần một kiến trúc CNN đã được chứng minh, có tính kế thừa và chạy hiệu quả trên tiêu chuẩn GPU phần cứng cho các nhiệm vụ phát hiện mục đích chung.
- Chọn Ultralytics YOLO11 nếu: Bạn cần sự cân bằng hiệu suất tốt nhất giữa tốc độ và độ chính xác, yêu cầu bộ nhớ thấp hơn và một mô hình linh hoạt có khả năng phát hiện, phân đoạn và ước tính tư thế. Đây là lựa chọn lý tưởng cho các nhà phát triển coi trọng quy trình làm việc hợp lý và tài liệu hướng dẫn chi tiết.
Tại sao nên nâng cấp lên YOLO11 ?
Trong khi YOLOv7 và RTDETRv2 rất mạnh mẽ, YOLO11 đại diện cho sự phát triển mới nhất trong AI thị giác. Nó đòi hỏi ít hơn CUDA bộ nhớ tốt hơn máy biến áp, đào tạo nhanh hơn và cung cấp độ chính xác tiên tiến trên nhiều loại phần cứng hơn, từ thiết bị biên đến máy chủ đám mây.
Kết luận
Cả RTDETRv2 và YOLOv7 đã định hình hướng đi của thị giác máy tính. RTDETRv2 đã thách thức thành công quan niệm cho rằng máy biến áp quá chậm đối với các ứng dụng thời gian thực, trong khi YOLOv7 đã chứng minh hiệu quả bền bỉ của CNN. Tuy nhiên, đối với hầu hết các ứng dụng thực tế hiện nay, mô hình Ultralytics YOLO11 mang đến trải nghiệm phát triển vượt trội, kết hợp những đặc điểm tốt nhất của các thế hệ trước với một hệ sinh thái hiện đại, hỗ trợ tối đa.
Khám Phá Các So Sánh Khác
Để hiểu rõ hơn về bối cảnh mô hình, hãy khám phá những so sánh sau:
- YOLO11 so với RT-DETR
- YOLOv8 so với RT-DETR
- YOLOv7 so với YOLOv8
- YOLOv10 so với RT-DETR
- YOLOv9 so với YOLOv7