YOLO11 so với RTDETRv2: So sánh kỹ thuật của các máy dò thời gian thực
Việc lựa chọn kiến trúc phát hiện đối tượng tối ưu đòi hỏi phải cân nhắc một bối cảnh phức tạp với những đánh đổi giữa tốc độ suy luận, độ chính xác phát hiện và hiệu quả tài nguyên tính toán. Phân tích này cung cấp một so sánh kỹ thuật toàn diện giữa Ultralytics YOLO11 , phiên bản mới nhất của bộ phát hiện dựa trên CNN tiêu chuẩn công nghiệp, và RTDETRv2, một bộ chuyển đổi phát hiện thời gian thực hiệu suất cao.
Trong khi RTDETRv2 chứng minh tiềm năng của kiến trúc máy biến áp cho các tác vụ có độ chính xác cao, YOLO11 thường mang lại sự cân bằng vượt trội cho việc triển khai thực tế, mang lại tốc độ suy luận nhanh hơn, dung lượng bộ nhớ thấp hơn đáng kể và hệ sinh thái nhà phát triển mạnh mẽ hơn.
Ultralytics YOLO11 : Tiêu chuẩn cho tầm nhìn máy tính thời gian thực
Ultralytics YOLO11 là thành quả của nhiều năm nghiên cứu về Mạng Nơ-ron Tích chập (CNN) hiệu quả. Được thiết kế để trở thành công cụ tối ưu cho các ứng dụng thị giác máy tính thực tế, YOLO11 ưu tiên hiệu quả mà không ảnh hưởng đến độ chính xác tiên tiến.
Tác giả: Glenn Jocher, Jing Qiu
Tổ chức: Ultralytics
Ngày: 27-09-2024
GitHub: https://github.com/ ultralytics / ultralytics
Tài liệu: https://docs. ultralytics .com/models/ yolo11 /
Kiến trúc và Điểm mạnh
YOLO11 sử dụng kiến trúc một giai đoạn tinh vi, không cần neo. Nó tích hợp các mô-đun trích xuất tính năng nâng cao, bao gồm các khối C3k2 được tối ưu hóa và các mô-đun SPFF (Spatial Pyramid Pooling - Fast), để thu thập các tính năng ở nhiều tỷ lệ khác nhau.
- Tính linh hoạt: Không giống như nhiều mô hình chuyên dụng, YOLO11 hỗ trợ nhiều tác vụ thị giác máy tính trong một khuôn khổ duy nhất, bao gồm phát hiện đối tượng , phân đoạn thể hiện , ước tính tư thế , hộp giới hạn định hướng (OBB) và phân loại hình ảnh .
- Hiệu quả bộ nhớ: YOLO11 được thiết kế để chạy hiệu quả trên phần cứng từ các thiết bị biên nhúng đến máy chủ cấp doanh nghiệp. Nó yêu cầu ít hơn đáng kể CUDA bộ nhớ trong quá trình đào tạo so với các giải pháp thay thế dựa trên máy biến áp.
- Tích hợp hệ sinh thái: Mô hình được hỗ trợ bởi hệ sinh thái Ultralytics , cung cấp quyền truy cập liền mạch vào các công cụ như Ultralytics HUB để quản lý mô hình và Ultralytics Explorer để phân tích tập dữ liệu.
RTDETRv2: Độ chính xác do máy biến áp cung cấp
RTDETRv2 là một máy biến áp phát hiện thời gian thực ( RT-DETR ) tận dụng sức mạnh của Vision Transformers (ViT) để đạt được độ chính xác cao trên các tập dữ liệu chuẩn. Nó nhằm mục đích giải quyết các vấn đề về độ trễ thường gặp ở các mô hình tương tự DETR.
Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu
Ngày: 17-04-2023
Arxiv: https://arxiv.org/abs/2304.08069
GitHub: https://github.com/lyuwenyu/ RT-DETR /tree/main/rtdetrv2_pytorch
Tài liệu: https://github.com/lyuwenyu/ RT-DETR /tree/main/rtdetrv2_pytorch#readme
Kiến trúc và đặc điểm
RTDETRv2 sử dụng kiến trúc lai kết hợp xương sống CNN với bộ mã hóa-giải mã biến áp hiệu quả. Cơ chế tự chú ý cho phép mô hình nắm bắt bối cảnh toàn cục, rất hữu ích cho các cảnh có mối quan hệ đối tượng phức tạp.
- Bối cảnh toàn cầu: Kiến trúc máy biến áp có khả năng phân biệt các vật thể trong môi trường đông đúc, nơi các đặc điểm cục bộ có thể không rõ ràng.
- Cường độ tài nguyên: Mặc dù được tối ưu hóa về tốc độ, các lớp biến áp về cơ bản yêu cầu nhiều tính toán và bộ nhớ hơn, đặc biệt là đối với các đầu vào có độ phân giải cao.
- Tiêu điểm: RTDETRv2 chủ yếu là một kiến trúc tập trung vào phát hiện, thiếu hỗ trợ đa tác vụ gốc được tìm thấy trong YOLO gia đình.
Phân tích hiệu năng: Tốc độ, độ chính xác và hiệu quả
Khi so sánh YOLO11 và RTDETRv2, sự khác biệt nằm ở sự đánh đổi về mặt kiến trúc giữa các số liệu chính xác thuần túy và hiệu quả hoạt động.
Cân nhắc về phần cứng
Các mô hình dựa trên máy biến áp như RTDETRv2 thường yêu cầu GPU mạnh mẽ để đào tạo và suy luận hiệu quả. Ngược lại, các mô hình dựa trên CNN như YOLO11 được tối ưu hóa cao cho nhiều loại phần cứng hơn, bao gồm CPU và các thiết bị AI tiên tiến như Raspberry Pi.
So sánh định lượng
Bảng dưới đây minh họa các số liệu hiệu suất trên tập dữ liệu COCO . Trong khi RTDETRv2 cho thấy mAP điểm số, YOLO11 cung cấp độ chính xác cạnh tranh với tốc độ suy luận nhanh hơn đáng kể, đặc biệt là trên CPU .
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Phân tích kết quả
- Tốc độ suy luận: YOLO11 chiếm ưu thế về tốc độ. Ví dụ, YOLO11x đạt độ chính xác cao hơn (54,7 mAP ) hơn RTDETRv2-x (54,3 mAP ) trong khi chạy nhanh hơn khoảng 25% trên T4 GPU (11,3ms so với 15,03ms).
- Hiệu suất tham số: YOLO11 các mô hình thường yêu cầu ít tham số và FLOP hơn để đạt được mức độ chính xác tương tự. YOLO11l đạt được cùng mức 53,4 mAP như RTDETRv2-l nhưng thực hiện như vậy với gần một nửa số FLOP (86,9B so với 136B).
- Hiệu suất CPU : Các hoạt động biến áp trong RTDETRv2 tốn nhiều tài nguyên tính toán trên CPU. YOLO11 vẫn là lựa chọn ưu tiên cho những người không GPU triển khai, cung cấp tốc độ khung hình khả thi trên bộ xử lý tiêu chuẩn.
Quy trình làm việc và khả năng sử dụng
Đối với các nhà phát triển, "chi phí" của một mô hình bao gồm thời gian tích hợp, tính ổn định khi đào tạo và tính dễ triển khai.
Dễ sử dụng và hệ sinh thái
API Python Ultralytics tóm tắt các vòng đào tạo phức tạp thành một vài dòng mã.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Ngược lại, mặc dù RTDETRv2 là một công cụ nghiên cứu mạnh mẽ, nhưng nó thường yêu cầu cấu hình thủ công nhiều hơn và kiến thức sâu hơn về cơ sở mã cơ bản để thích ứng với các tập dữ liệu tùy chỉnh hoặc xuất sang các định dạng cụ thể như ONNX hoặc TensorRT .
Hiệu quả đào tạo
Đào tạo các mô hình máy biến áp thường đòi hỏi cao hơn đáng kể GPU bộ nhớ (VRAM). Điều này có thể buộc các nhà phát triển phải sử dụng kích thước lô nhỏ hơn hoặc thuê phần cứng đám mây đắt tiền hơn. YOLO11 Kiến trúc CNN của nó tiết kiệm bộ nhớ, cho phép xử lý khối lượng lớn hơn và hội tụ nhanh hơn trên GPU cấp tiêu dùng.
Các trường hợp sử dụng lý tưởng
Khi nào nên chọn YOLO11
- Triển khai Edge theo thời gian thực: Khi triển khai tới các thiết bị như NVIDIA Jetson, Raspberry Pi hoặc điện thoại di động có tài nguyên tính toán hạn chế.
- Nhiệm vụ tầm nhìn đa dạng: Nếu dự án của bạn yêu cầu phân đoạn hoặc ước tính tư thế cùng với phát hiện.
- Phát triển nhanh chóng: Khi thời gian đưa ra thị trường là rất quan trọng, tài liệu mở rộng và sự hỗ trợ của cộng đồng Ultralytics đẩy nhanh vòng đời.
- Phân tích video: Dùng để xử lý FPS cao trong các ứng dụng như giám sát giao thông hoặc phân tích thể thao .
Khi nào nên chọn RTDETRv2
- Nghiên cứu học thuật: Nghiên cứu các đặc tính của bộ chuyển đổi thị giác và cơ chế chú ý.
- Xử lý phía máy chủ: Khi không giới hạn GPU năng lượng có sẵn và độ chính xác cao nhất tuyệt đối trên các tiêu chuẩn cụ thể—bất kể độ trễ—là số liệu duy nhất.
- Phân tích hình ảnh tĩnh: Các tình huống mà thời gian xử lý không bị hạn chế, chẳng hạn như phân tích hình ảnh y tế ngoại tuyến.
Kết luận
Trong khi RTDETRv2 thể hiện sự tiến bộ vượt bậc về mặt học thuật của kiến trúc biến áp trong lĩnh vực thị giác, Ultralytics YOLO11 vẫn là lựa chọn thực tế cho phần lớn các ứng dụng thực tế. Tỷ lệ tốc độ/độ chính xác vượt trội, yêu cầu bộ nhớ thấp hơn và khả năng xử lý nhiều tác vụ thị giác khiến nó trở thành một công cụ linh hoạt và mạnh mẽ. Kết hợp với một hệ sinh thái hoàn thiện và được bảo trì tốt, YOLO11 cho phép các nhà phát triển chuyển từ khái niệm sang sản xuất với ít trở ngại nhất.
Khám phá các Mô hình Khác
So sánh các mô hình giúp lựa chọn công cụ phù hợp với các ràng buộc cụ thể của bạn. Khám phá thêm các so sánh trong Ultralytics tài liệu:
- YOLO11 so với YOLOv10
- So sánh YOLO11 và YOLOv8
- RT-DETR so với YOLOv8
- YOLOv5 so với RT-DETR
- Khám phá tất cả các so sánh mô hình