Chuyển đến nội dung

RTDETRv2 so với EfficientDet: So sánh kỹ thuật về detect đối tượng

Việc lựa chọn kiến ​​trúc tối ưu cho phát hiện đối tượng là một quyết định then chốt, ảnh hưởng đến mọi thứ từ chi phí huấn luyện đến độ trễ triển khai. Trong bài phân tích chuyên sâu này, chúng ta sẽ xem xét hai phương pháp khác nhau: RTDETRv2 , một mô hình dựa trên transformer tiên tiến được thiết kế cho các ứng dụng thời gian thực, và EfficientDet , một kiến ​​trúc CNN có khả năng mở rộng cao, đã giới thiệu khả năng mở rộng phức hợp vào lĩnh vực này.

Mặc dù EfficientDet đã thiết lập những chuẩn mực quan trọng vào năm 2019, nhưng bối cảnh đã thay đổi đáng kể với sự xuất hiện của các bộ chuyển đổi thời gian thực. Bài so sánh này sẽ khám phá kiến ​​trúc, các chỉ số hiệu suất và sự phù hợp của chúng đối với các tác vụ thị giác máy tính hiện đại.

So sánh Các chỉ số Hiệu suất

Bảng sau đây cung cấp sự so sánh trực tiếp các chỉ số chính. Lưu ý sự khác biệt về tốc độ và hiệu quả tham số, đặc biệt là cách các kiến ​​trúc hiện đại như RTDETRv2 tối ưu hóa độ trễ suy luận trên các bộ tăng tốc phần cứng như... TensorRT .

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

RTDETRv2: Biến áp thời gian thực được cải tiến

RTDETRv2 (Real-Time DEtection TRansformer v2) đại diện cho một bước tiến đáng kể trong việc ứng dụng kiến ​​trúc transformer vào các tác vụ thị giác thực tế. Trong khi các mô hình DETR ban đầu gặp phải vấn đề về tốc độ hội tụ chậm và chi phí tính toán cao, RTDETRv2 được thiết kế đặc biệt để vượt trội hơn CNN cả về tốc độ và độ chính xác.

Thông tin chi tiết về RTDETRv2:

  • Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
  • Tổ chức:Baidu
  • Ngày: 2023-04-17
  • Arxiv:2304.08069
  • GitHub:lyuwenyu/RT-DETR

Kiến trúc và các tính năng chính

RTDETRv2 sử dụng bộ mã hóa lai xử lý các đặc trưng đa tỷ lệ, giải quyết điểm yếu phổ biến trong các mô hình Transformer trước đây liên quan đến phát hiện vật thể nhỏ . Một cải tiến cốt lõi là khả năng lựa chọn truy vấn dựa IoU , giúp lọc bỏ các truy vấn chất lượng thấp trước khi chúng đến bộ giải mã, cho phép mô hình tập trung tài nguyên tính toán vào các phần quan trọng nhất của hình ảnh.

Đặc điểm nổi bật của RTDETRv2 là thiết kế không có NMS từ đầu đến cuối . Các máy dò truyền thống yêu cầu triệt tiêu cực đại không cần thiết (Non-Maximum Suppression - NMS). NMS (để loại bỏ các hộp giới hạn trùng lặp, một bước xử lý hậu kỳ gây ra sự biến đổi về độ trễ). RTDETRv2 dự đoán trực tiếp một tập hợp các đối tượng cố định, đảm bảo thời gian suy luận xác định, điều rất quan trọng đối với tự động hóa công nghiệp .

Tìm hiểu thêm về RT-DETR

EfficientDet: Di sản của khả năng mở rộng

EfficientDet được giới thiệu bởi Google Nghiên cứu này nhằm minh họa cho phương pháp "Mở rộng kép" (Compound Scaling), một phương pháp giúp tăng đồng thời chiều rộng, chiều sâu và độ phân giải của mạng. Nó được xây dựng dựa trên kiến ​​trúc EfficientNet và giới thiệu BiFPN (Mạng kim tự tháp đặc trưng hai chiều).

Chi tiết EfficientDet:

  • Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
  • Tổ chức: Google
  • Ngày: 2019-11-20
  • Arxiv:1911.09070
  • GitHub:google/automl

Kiến trúc và những hạn chế

Cốt lõi của EfficientDet là BiFPN, cho phép kết hợp các đặc trưng đa tỷ lệ một cách dễ dàng và nhanh chóng. Bằng cách sử dụng kết hợp đặc trưng có trọng số, mô hình học được tầm quan trọng của các đặc trưng đầu vào khác nhau. Mặc dù hiệu quả về mặt lý thuyết xét về FLOPs , EfficientDet thường gặp khó khăn với độ trễ thực tế trên GPU. Các mẫu truy cập bộ nhớ phức tạp/không đều của lớp BiFPN không dễ dàng được tối ưu hóa bởi các bộ tăng tốc phần cứng như TensorRT so với các phép tích chập tiêu chuẩn được tìm thấy trong YOLO kiến trúc.

Phân tích phê bình: Kiến trúc và cách sử dụng

1. Hiệu quả đào tạo và sự hội tụ

Một trong những khác biệt sâu sắc nhất nằm ở động lực huấn luyện. EfficientDet, dựa trên các mô hình CNN truyền thống, huấn luyện tương đối ổn định nhưng yêu cầu điều chỉnh cẩn thận các anchor box (mặc dù mục tiêu là tự động hóa việc này). RTDETRv2, là một transformer, được hưởng lợi từ trường tiếp nhận toàn cục ngay từ đầu nhưng trước đây yêu cầu thời gian huấn luyện dài hơn. Tuy nhiên, các tối ưu hóa hiện đại trong RTDETRv2 đã giảm đáng kể thời gian hội tụ này.

Các cân nhắc về bộ nhớ

Các mô hình dựa trên Transformer như RTDETRv2 thường tiêu tốn nhiều VRAM hơn trong quá trình huấn luyện so với các mạng CNN thuần túy do cơ chế tự chú ý. Nếu bạn đang huấn luyện trên phần cứng hạn chế (ví dụ: một thiết bị tiêu dùng duy nhất), bạn cần lưu ý điều này. GPU (Hãy cân nhắc sử dụng Ultralytics YOLO26 , phần mềm này yêu cầu bộ nhớ thấp hơn trong khi vẫn duy trì độ chính xác hàng đầu.)

2. Tốc độ suy luận và triển khai

Mặc dù EfficientDet-d0 có dung lượng nhỏ, nhưng các biến thể lớn hơn của nó (d4-d7) lại có tốc độ giảm đáng kể. Như bảng so sánh cho thấy, EfficientDet-d7 chạy ở tốc độ khoảng 128ms trên T4. GPU Trong khi đó, RTDETRv2-x đạt được mAP cao hơn là 54,3% chỉ trong 15ms. Lợi thế về tốc độ gần gấp 10 lần này khiến RTDETRv2 (và YOLO26) vượt trội hơn hẳn đối với phân tích video thời gian thực hoặc xe tự hành .

3. Cái Ultralytics Lợi thế hệ sinh thái

Việc triển khai các bài nghiên cứu thường liên quan đến việc xử lý các phụ thuộc bị lỗi và các tệp cấu hình phức tạp. Hệ sinh thái Ultralytics giải quyết vấn đề này bằng cách chuẩn hóa giao diện. Bạn có thể chuyển đổi giữa Transformer ( RT-DETR ) và một CNN ( YOLO ) chỉ với một dòng mã duy nhất, đơn giản hóa quy trình vận hành máy học (MLOps) .

from ultralytics import RTDETR, YOLO

# Load RTDETRv2 (Transformer)
model_transformer = RTDETR("rtdetr-l.pt")

# Load YOLO26 (The new standard)
model_yolo = YOLO("yolo26l.pt")

# Training is identical
model_yolo.train(data="coco8.yaml", epochs=100)

Sự lựa chọn hàng đầu: Ultralytics YOLO26

Mặc dù RTDETRv2 mang lại hiệu suất tuyệt vời, YOLO26 lại đại diện cho đỉnh cao về hiệu quả và độ chính xác. Được phát hành vào tháng 1 năm 2026, nó tổng hợp những tính năng tốt nhất của transformer và CNN vào một kiến ​​trúc thống nhất.

YOLO26 áp dụng thiết kế không cần hệ thống quản lý mạng NMS từ đầu đến cuối, một thiết kế tiên phong của... YOLOv10 và được tinh chỉnh trong RTDETRv2, nhưng tối ưu hóa hơn nữa cho việc triển khai ở biên. Các cải tiến chính bao gồm:

  • Loại bỏ DFL: Bằng cách loại bỏ Suy hao tiêu điểm phân phối (Distribution Focal Loss), cấu trúc mô hình được đơn giản hóa, giúp việc xuất sang ONNX và CoreML Tương thích liền mạch và cải thiện khả năng tương thích với các thiết bị biên công suất thấp.
  • MuSGD Optimizer: Một sự kết hợp của... SGD Và Muon (lấy cảm hứng từ quá trình huấn luyện LLM), trình tối ưu hóa này đảm bảo quá trình huấn luyện ổn định và hội tụ nhanh hơn, mang lại sự ổn định cho Mô hình Ngôn ngữ Lớn (LLM ) trong các tác vụ thị giác.
  • Tốc độ: YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , giải quyết một thiếu sót quan trọng đối với các thiết bị như Raspberry Pi, nơi không có GPU.
  • Chức năng giảm tổn thất nâng cao: Sự tích hợp giữa ProgLoss và STAL mang lại những cải tiến đáng kể trong việc nhận diện các vật thể nhỏ, điều rất quan trọng đối với các lĩnh vực như nông nghiệp và giám sát trên không.

Đối với các nhà phát triển đang tìm kiếm sự cân bằng tốt nhất giữa tính linh hoạt trong triển khai và sức mạnh xử lý vượt trội, YOLO26 là lựa chọn được khuyến nghị.

Tìm hiểu thêm về YOLO26

Đề xuất Trường hợp Sử dụng

Khi nào nên chọn RTDETRv2

  • Phần cứng với Tensor Cores: Nếu bạn chỉ triển khai trên... NVIDIA GPU (Máy chủ hoặc Jetson), RTDETRv2 sử dụng Tensor Xử lý lõi một cách hiệu quả.
  • Cảnh đông đúc: Cơ chế chú ý toàn cục hỗ trợ trong các cảnh có nhiều vật cản, chẳng hạn như phân tích đám đông hoặc giám sát bán lẻ.

Khi nào nên chọn EfficientDet

  • Bảo trì hệ thống cũ: Nếu cơ sở hạ tầng hiện tại của bạn được xây dựng chủ yếu dựa trên hệ thống cũ. TensorFlow 1.x/2.x và Google Hệ sinh thái AutoML của 's.
  • So sánh chuẩn mực học thuật: Hữu ích như một cơ sở để nghiên cứu các tác động cụ thể của việc mở rộng quy mô hợp chất một cách riêng biệt, không liên quan đến các thay đổi kiến ​​trúc khác.

Khi nào nên chọn YOLO26

  • Trí tuệ nhân tạo biên: Loại bỏ DFL và CPU Những tối ưu hóa đã biến nó trở thành ông vua không thể tranh cãi dành cho các thiết bị di động và IoT.
  • Các ràng buộc về thời gian thực: Dành cho các ứng dụng yêu cầu tốc độ khung hình cao (FPS) cùng với độ chính xác cao, chẳng hạn như phân tích thể thao .
  • Dễ sử dụng: Khi bạn cần một sản phẩm "đầy đủ tính năng" với hỗ trợ ước tính tư thếphân đoạn ngay từ khi cài đặt.

Kết luận

Cả RTDETRv2 và EfficientDet đều đóng góp đáng kể vào sự phát triển của thị giác máy tính. EfficientDet đã chứng minh rằng việc mở rộng quy mô có thể được thực hiện một cách khoa học và có cấu trúc, trong khi RTDETRv2 chứng minh rằng Transformer có thể hoạt động nhanh chóng. Tuy nhiên, đối với phần lớn các chuyên gia trong năm 2026, Ultralytics YOLO26 mang đến gói giải pháp hấp dẫn nhất: tốc độ của mạng CNN, NMS - Sự tiện lợi không tốn phí của Transformer, cùng với sự hỗ trợ mạnh mẽ từ Nền tảng Ultralytics .

Đọc thêm

  • Các mẫu: Khám phá YOLO11 để biết thêm các tùy chọn hiệu năng cao khác hoặc YOLOv10 để tìm hiểu về nguồn gốc của... NMS - Đào tạo miễn phí.
  • Bộ dữ liệu: Tìm bộ dữ liệu hoàn hảo cho dự án của bạn trong Trình khám phá bộ dữ liệu của chúng tôi.
  • Hướng dẫn: Tìm hiểu cách tối ưu hóa mô hình cho TensorRT để tận dụng tối đa phần cứng của bạn.

Bình luận