Chuyển đến nội dung

So sánh RTDETRv2 và EfficientDet: Phân tích các kiến ​​trúc phát hiện thời gian thực

Việc lựa chọn kiến ​​trúc mạng nơ-ron tối ưu là một quyết định quan trọng đối với bất kỳ dự án thị giác máy tính nào. Bài so sánh kỹ thuật toàn diện này sẽ phân tích hai mô hình phát hiện đối tượng có ảnh hưởng lớn: RTDETRv2, một bộ phát hiện dựa trên transformer hiện đại, và EfficientDet, một mạng nơ-ron tích chập có khả năng mở rộng cao. Chúng tôi sẽ đánh giá các kiến ​​trúc khác nhau, các chỉ số hiệu suất , phương pháp huấn luyện và các kịch bản triển khai lý tưởng của chúng để giúp bạn đưa ra các quyết định dựa trên dữ liệu cho các quy trình AI của mình.

RTDETRv2: Bộ chuyển đổi phát hiện thời gian thực

Tiếp nối thành công của phiên bản gốc. RT-DETR RTDETRv2 tinh chỉnh mô hình phát hiện đối tượng dựa trên transformer. Bằng cách tối ưu hóa cấu trúc bộ mã hóa và giải mã, nó mang lại độ chính xác cao trong khi vẫn duy trì tốc độ suy luận thời gian thực, thu hẹp khoảng cách giữa các mạng CNN truyền thống và các transformer thị giác.

Chi tiết mô hình Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu Ngày: 24/07/2024 Liên kết: Arxiv , GitHub , Docs

Kiến trúc và Điểm mạnh Cốt lõi

RTDETRv2 sử dụng kiến ​​trúc lai kết hợp mạng nơ-ron tích chập (CNN) mạnh mẽ (thường là ResNet hoặc HGNet) với bộ giải mã Transformer hiệu quả. Đặc điểm nổi bật nhất của RTDETRv2 là khả năng tự nhiên bỏ qua hiện tượng triệt tiêu cực đại cục bộ (non-maximum suppression). NMS Các thiết bị dò truyền thống yêu cầu... NMS Để lọc bỏ các hộp giới hạn trùng lặp, cần thêm độ trễ suy luận thay đổi trong quá trình xử lý hậu kỳ. RTDETRv2 xây dựng bài toán phát hiện dưới dạng bài toán dự đoán tập hợp trực tiếp, sử dụng phương pháp khớp hai phía để đưa ra các dự đoán duy nhất.

Mô hình này vượt trội trong các triển khai phía máy chủ, nơi mà GPU Bộ nhớ của nó rất dồi dào. Cơ chế chú ý toàn cục cung cấp khả năng nhận thức ngữ cảnh vượt trội, giúp nó rất giỏi trong việc phân tách các đối tượng chồng chéo trong môi trường dày đặc, lộn xộn như hệ thống báo động an ninh tự động hoặc giám sát đám đông dày đặc.

Hạn chế

Mặc dù mạnh mẽ, kiến ​​trúc máy biến áp vốn dĩ đòi hỏi nhiều hơn. CUDA RTDETRv2 có bộ nhớ tốt hơn trong quá trình huấn luyện so với các mạng CNN tiêu chuẩn. Hơn nữa, việc tinh chỉnh RTDETRv2 có thể yêu cầu thời gian hội tụ dữ liệu huấn luyện kéo dài, khiến việc tạo mẫu nhanh tốn nhiều tài nguyên hơn một chút.

Tìm hiểu thêm về RTDETRv2

EfficientDet: Mạng nơ-ron tích chập (CNN) có khả năng mở rộng và hiệu quả.

EfficientDet đã giới thiệu một nhóm các mô hình phát hiện đối tượng được tối ưu hóa cả về độ chính xác và hiệu quả trên nhiều phạm vi hạn chế tài nguyên khác nhau. Nó vẫn là một ví dụ kinh điển về thiết kế thị giác máy tính có khả năng mở rộng.

Thông tin chi tiết về mô hình Tác giả: Mingxing Tan, Ruoming Pang và Quoc V. Le
Tổ chức: Google
Ngày: 20/11/2019
Liên kết: Arxiv , GitHub , Tài liệu

Kiến trúc và Điểm mạnh Cốt lõi

Sự đổi mới đằng sau EfficientDet nằm ở hai lĩnh vực chính: Mạng kim tự tháp đặc trưng hai chiều (BiFPN) và phương pháp mở rộng tỷ lệ kết hợp. BiFPN cho phép trích xuất đặc trưng đa tỷ lệ đơn giản và nhanh chóng bằng cách đưa vào các trọng số có thể học được để tìm hiểu tầm quan trọng của các đặc trưng đầu vào khác nhau, đồng thời liên tục áp dụng phương pháp kết hợp đặc trưng đa tỷ lệ từ trên xuống và từ dưới lên. Phương pháp mở rộng tỷ lệ kết hợp mở rộng đồng đều độ phân giải, độ sâu và độ rộng của mạng cùng một lúc.

Các mẫu EfficientDet có nhiều kích cỡ, từ D0 siêu nhẹ đến D7 đồ sộ. Điều này giúp chúng trở nên cực kỳ linh hoạt cho các triển khai AI tại biên , nơi các nhà phát triển phải cân bằng giữa ngân sách tính toán eo hẹp với các yêu cầu về độ chính xác, chẳng hạn như các ứng dụng thực tế tăng cường trên thiết bị di động đời đầu.

Hạn chế

EfficientDet là một kiến ​​trúc cũ hơn, phụ thuộc nhiều vào các anchor box và các phương pháp truyền thống. NMS quy trình xử lý hậu kỳ. Quá trình tạo điểm neo đòi hỏi phải điều chỉnh siêu tham số cẩn thận, và NMS Bước này có thể gây tắc nghẽn quá trình triển khai trên phần cứng nhúng như Raspberry Pi . Nó cũng thiếu hỗ trợ gốc cho các tác vụ hiện đại như ước lượng tư thế hoặc hộp giới hạn định hướng (OBB) .

Tìm hiểu thêm về EfficientDet

So sánh hiệu năng và số liệu

Để hiểu rõ sự đánh đổi chính xác giữa các mô hình này, cần phải phân tích hiệu suất và hiệu quả tham số của chúng. Bảng dưới đây so sánh dòng RTDETRv2 hiện đại với dòng EfficientDet có khả năng mở rộng.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Như đã thấy ở trên, RTDETRv2 đạt được độ chính xác trung bình ( mAP ) cao hơn đáng kể ở số lượng tham số tương đương so với các mô hình EfficientDet tầm trung, nhờ tận dụng tối đa kiến ​​trúc transformer của nó để nâng cao độ chính xác.

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa RT-DETR Và EfficientDet phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên lựa chọn RT-DETR

RT-DETR là một lựa chọn tốt cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến ​​trúc Transformer để phát hiện đối tượng từ đầu đến cuối mà không cần NMS .
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là chấp nhận được.
  • Phát hiện vật thể lớn: Các cảnh chủ yếu chứa các vật thể có kích thước trung bình đến lớn, nơi cơ chế chú ý toàn cục của Transformer mang lại lợi thế tự nhiên.

Khi nào nên chọn EfficientDet

EfficientDet được khuyến nghị sử dụng cho:

  • Google Cloud và TPU Pipelines: Các hệ thống tích hợp sâu rộng với Google API Cloud Vision hoặc TPU cơ sở hạ tầng nơi EfficientDet có khả năng tối ưu hóa gốc.
  • Nghiên cứu về mở rộng quy mô phức hợp: Nghiên cứu chuẩn mực học thuật tập trung vào việc nghiên cứu tác động của việc mở rộng quy mô cân bằng về độ sâu, độ rộng và độ phân giải của mạng.
  • Triển khai trên thiết bị di động thông qua TFLite : Các dự án yêu cầu xuất sang TensorFlow Lite . Android hoặc các thiết bị Linux nhúng.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Cái Ultralytics Phương án khác: Nâng cao trình độ kỹ thuật hiện đại

Mặc dù cả RTDETRv2 và EfficientDet đều có những ưu điểm riêng, nhưng việc phát triển AI hiện đại đòi hỏi các framework cung cấp trải nghiệm phát triển liền mạch cùng với hiệu năng vượt trội. Hệ sinh thái Ultralytics cung cấp một phương pháp tiếp cận hiệu quả hơn đáng kể cho các tác vụ thị giác máy tính.

Nếu bạn đang tìm hiểu về công nghệ phát hiện tiên tiến nhất, Ultralytics YOLO26 mới ra mắt kết hợp những ưu điểm tốt nhất của cả mạng nơ-ron tích chập (CNN) và mô hình Transformer.

Tại sao chọn YOLO26?

YOLO26 triển khai thiết kế không cần NMS từ đầu đến cuối , mang lại sự đơn giản trong triển khai của RTDETRv2 cho hiệu quả cực cao. YOLO Kiến trúc này còn giới thiệu bộ tối ưu hóa MuSGD —lấy cảm hứng từ những cải tiến trong huấn luyện LLM—để mang lại sự ổn định huấn luyện vượt trội. Với việc loại bỏ DFL (Distribution Focal Loss được loại bỏ để đơn giản hóa việc xuất dữ liệu và cải thiện khả năng tương thích với thiết bị biên/công suất thấp), YOLO26 tự hào có tốc độ suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, khiến nó trở thành lựa chọn đặc biệt cho điện toán biên so với các mô hình nặng hơn. Ngoài ra, ProgLoss + STAL cung cấp các hàm mất mát được cải tiến với những cải thiện đáng kể trong nhận dạng vật thể nhỏ, rất quan trọng đối với IoT, robot và hình ảnh trên không.

Sự dễ sử dụng mà gói phần mềm Ultralytics Python mang lại là không gì sánh bằng. Các nhà phát triển có thể huấn luyện, xác thực và xuất mô hình bằng cách sử dụng API trực quan, giúp loại bỏ đoạn mã lặp đi lặp lại thường cần thiết trong các kho lưu trữ nghiên cứu.

from ultralytics import RTDETR

# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for optimized inference on TensorRT
model.export(format="engine")

Ultralytics Các mô hình hỗ trợ nhiều tác vụ một cách tự nhiên, bao gồm phân đoạn đối tượngphân loại hình ảnh , cung cấp một bộ công cụ linh hoạt cho các nhu cầu đa dạng của ngành. Hơn nữa, việc loại bỏ hiện tượng mất tiêu điểm phân tán (DFL) trong các mô hình hiện đại Ultralytics Mô hình này đơn giản hóa đồ thị tính toán, đảm bảo việc xuất dữ liệu mượt mà hơn sang các NPU và TPU nhúng.

Để chú thích dữ liệu và quản lý mô hình liền mạch, Nền tảng Ultralytics cung cấp một môi trường đám mây toàn diện để giám sát toàn bộ vòng đời học máy, khẳng định vị thế là lựa chọn hàng đầu để triển khai các giải pháp thị giác máy tính mạnh mẽ trong môi trường sản xuất.


Bình luận