Link to this sectionRTDETRv2 so với EfficientDet#
Việc lựa chọn kiến trúc mạng thần kinh tối ưu là quyết định mang tính định hình cho bất kỳ dự án thị giác máy tính nào. Bài so sánh kỹ thuật toàn diện này phân tích hai mô hình phát hiện vật thể có tầm ảnh hưởng: RTDETRv2, một trình phát hiện dựa trên transformer hiện đại, và EfficientDet, một mạng thần kinh tích chập có khả năng mở rộng cao. Chúng tôi sẽ đánh giá kiến trúc riêng biệt, các chỉ số hiệu suất, phương pháp huấn luyện và các kịch bản triển khai lý tưởng của chúng để giúp bạn đưa ra các quyết định dựa trên dữ liệu cho các pipeline AI của mình.
Link to this sectionRTDETRv2: Transformer phát hiện thời gian thực#
Tiếp nối thành công của RT-DETR bản gốc, RTDETRv2 cải tiến mô hình phát hiện vật thể dựa trên transformer. Bằng cách tối ưu hóa các cấu trúc encoder và decoder, nó mang lại độ chính xác cao trong khi vẫn duy trì tốc độ suy luận thời gian thực, thu hẹp khoảng cách hiệu quả giữa CNN truyền thống và vision transformer.
Chi tiết mô hình
Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức: Baidu
Ngày: 2024-07-24
Liên kết: Arxiv, GitHub, Docs
Link to this sectionKiến trúc và các thế mạnh cốt lõi#
RTDETRv2 sử dụng kiến trúc lai kết hợp backbone CNN mạnh mẽ (thường là ResNet hoặc HGNet) với bộ giải mã Transformer hiệu quả. Đặc điểm xác định nhất của RTDETRv2 là khả năng tự thân loại bỏ NMS. Các bộ phát hiện truyền thống yêu cầu NMS để lọc bỏ các BBox trùng lặp, gây thêm độ trễ inference latency biến thiên trong quá trình hậu xử lý. RTDETRv2 định hình bài toán phát hiện như một vấn đề dự đoán tập hợp trực tiếp, sử dụng khớp hai phía (bipartite matching) để xuất ra các dự đoán duy nhất.
Mô hình này xuất sắc trong các triển khai phía máy chủ (server-side) nơi bộ nhớ GPU dồi dào. Cơ chế chú ý toàn cầu của nó cung cấp nhận thức bối cảnh đặc biệt, giúp nó cực kỳ thành thạo trong việc tách biệt các đối tượng chồng chéo trong các môi trường đông đúc, lộn xộn như hệ thống báo động an ninh tự động hoặc giám sát đám đông mật độ cao.
Link to this sectionHạn chế#
Mặc dù mạnh mẽ, các kiến trúc Transformer vốn đòi hỏi nhiều bộ nhớ CUDA hơn trong quá trình huấn luyện so với các CNN tiêu chuẩn. Hơn nữa, việc tinh chỉnh RTDETRv2 có thể cần thời gian hội tụ training data lâu hơn, khiến việc tạo mẫu nhanh tốn nhiều tài nguyên hơn một chút.
Link to this sectionEfficientDet: Các CNN có khả năng mở rộng và hiệu quả#
EfficientDet giới thiệu một dòng các model phát hiện đối tượng được tối ưu hóa cho cả độ chính xác và hiệu suất trên một phạm vi rộng các ràng buộc tài nguyên. Đây vẫn là một ví dụ điển hình về thiết kế machine vision có khả năng mở rộng.
Chi tiết mô hình
Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
Tổ chức: Google
Ngày: 2019-11-20
Liên kết: Arxiv, GitHub, Docs
Link to this sectionKiến trúc và các thế mạnh cốt lõi#
Sự đổi mới đằng sau EfficientDet nằm ở hai lĩnh vực chính: Bi-directional Feature Pyramid Network (BiFPN) và phương pháp compound scaling. BiFPN cho phép feature extraction đa quy mô đơn giản và nhanh chóng bằng cách giới thiệu các trọng số học được để nhận biết tầm quan trọng của các đặc trưng đầu vào khác nhau, đồng thời áp dụng lặp đi lặp lại quá trình hợp nhất đặc trưng đa quy mô từ trên xuống và từ dưới lên. Phương pháp compound scaling mở rộng đồng nhất độ phân giải, độ sâu và chiều rộng của mạng cùng một lúc.
Các model EfficientDet trải dài từ D0 siêu nhẹ đến D7 khổng lồ. Điều này làm cho chúng cực kỳ linh hoạt cho các triển khai edge AI nơi các nhà phát triển phải cân bằng giữa ngân sách tính toán hạn hẹp và yêu cầu về độ chính xác, ví dụ như các ứng dụng augmented reality trên di động đời đầu.
Link to this sectionHạn chế#
EfficientDet là một kiến trúc cũ hơn dựa nhiều vào anchor box và pipeline hậu xử lý NMS truyền thống. Quá trình tạo anchor yêu cầu tinh chỉnh siêu tham số cẩn thận, và bước NMS có thể trở thành nút thắt cổ chai khi triển khai trên phần cứng nhúng như Raspberry Pi. Nó cũng thiếu hỗ trợ bẩm sinh cho các tác vụ hiện đại như ước tính tư thế hoặc hộp bao định hướng (OBB).
Link to this sectionSo sánh Hiệu năng và Chỉ số#
Việc hiểu rõ các đánh đổi chính xác giữa các mô hình này đòi hỏi phải phân tích thông lượng và hiệu quả tham số của chúng. Bảng dưới đây phác thảo cách dòng RTDETRv2 hiện đại so sánh với họ EfficientDet có khả năng mở rộng.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Như đã thấy ở trên, RTDETRv2 đạt được mean Average Precision (mAP) cao hơn đáng kể với số lượng tham số tương đương so với các model EfficientDet tầm trung, tận dụng tối đa kiến trúc Transformer của nó để thúc đẩy độ chính xác.
Link to this sectionCác trường hợp sử dụng và Khuyến nghị#
Việc lựa chọn giữa RT-DETR và EfficientDet phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Link to this sectionKhi nào nên chọn RT-DETR#
RT-DETR là lựa chọn mạnh mẽ cho:
- Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer cho phát hiện vật thể end-to-end không cần NMS.
- Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là có thể chấp nhận được.
- Phát hiện vật thể lớn: Các cảnh chủ yếu có vật thể từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.
Link to this sectionKhi nào nên chọn EfficientDet#
EfficientDet được khuyến nghị cho:
- Google Cloud và các đường ống TPU: Các hệ thống được tích hợp sâu với API Google Cloud Vision hoặc hạ tầng TPU, nơi EfficientDet có sự tối ưu hóa gốc.
- Nghiên cứu về Compound Scaling: Các nghiên cứu học thuật tập trung vào việc đánh giá tác động của độ sâu mạng, chiều rộng và khả năng mở rộng độ phân giải cân bằng.
- Triển khai trên di động qua TFLite: Các dự án yêu cầu cụ thể việc xuất TensorFlow Lite cho Android hoặc các thiết bị Linux nhúng.
Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.
Link to this sectionGiải pháp thay thế từ Ultralytics: Thúc đẩy sự hiện đại#
Mặc dù cả RTDETRv2 và EfficientDet đều có những ưu điểm mạnh mẽ, việc phát triển AI hiện đại đòi hỏi các framework cung cấp trải nghiệm nhà phát triển liền mạch cùng với hiệu suất tiên tiến. Hệ sinh thái Ultralytics cung cấp phương pháp tiếp cận tinh gọn hơn đáng kể cho các tác vụ thị giác máy tính.
Nếu bạn đang khám phá các phương pháp phát hiện hiện đại nhất, Ultralytics YOLO26 mới ra mắt đã tổng hợp những khía cạnh tốt nhất của cả CNN và transformer.
YOLO26 triển khai End-to-End NMS-Free Design, mang lại sự đơn giản trong triển khai của RTDETRv2 vào kiến trúc YOLO siêu hiệu quả. Hơn nữa, nó giới thiệu MuSGD Optimizer—lấy cảm hứng từ các đổi mới trong huấn luyện LLM—để mang lại sự ổn định huấn luyện vượt trội. Với DFL Removal (loại bỏ Distribution Focal Loss để xuất model đơn giản hóa và cải thiện khả năng tương thích với thiết bị biên/công suất thấp), YOLO26 đạt tốc độ CPU inference nhanh hơn tới 43% so với các thế hệ trước, biến nó thành lựa chọn đặc biệt cho edge computing so với các model nặng nề hơn. Ngoài ra, ProgLoss + STAL cung cấp các hàm loss cải tiến với những cải thiện đáng chú ý trong việc nhận diện đối tượng nhỏ, vốn rất quan trọng cho IoT, robot và hình ảnh hàng không.
Sự dễ sử dụng được cung cấp bởi gói Python của Ultralytics là vô đối. Các nhà phát triển có thể huấn luyện, xác thực và xuất mô hình bằng cách sử dụng một API trực quan giúp trừu tượng hóa các đoạn mã lặp lại thường thấy trong các kho lưu trữ nghiên cứu.
from ultralytics import RTDETR
# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export for optimized inference on TensorRT
model.export(format="engine")Các mô hình Ultralytics hỗ trợ bẩm sinh nhiều tác vụ, bao gồm phân đoạn cá thể và phân loại ảnh, cung cấp một bộ công cụ linh hoạt cho các nhu cầu đa dạng của ngành. Hơn nữa, việc loại bỏ Distribution Focal Loss (DFL) trong các mô hình Ultralytics hiện đại giúp đơn giản hóa đồ thị tính toán, đảm bảo việc xuất sang các NPU và TPU nhúng diễn ra trơn tru hơn.
Để gán nhãn dữ liệu và quản lý mô hình liền mạch, Nền tảng Ultralytics cung cấp một môi trường đám mây toàn diện để giám sát toàn bộ vòng đời học máy, khẳng định vị thế là lựa chọn hàng đầu để triển khai các giải pháp thị giác máy tính mạnh mẽ trong môi trường sản xuất.