Chuyển đến nội dung

So sánh kỹ thuật giữa EfficientDet và RTDETRv2 cho công nghệ phát hiện đối tượng hiện đại.

Việc lựa chọn kiến ​​trúc tối ưu cho phát hiện đối tượng đòi hỏi phải cân bằng giữa độ phức tạp của kiến ​​trúc, độ trễ suy luận và độ chính xác phát hiện. Bài so sánh kỹ thuật này phân tích hai cách tiếp cận khác nhau: EfficientDet , một kiến ​​trúc CNN mở rộng phức hợp từ... Google và RTDETRv2 , một mô hình dựa trên Transformer thời gian thực từ Baidu.

Trong khi EfficientDet đã thiết lập các tiêu chuẩn về khả năng mở rộng vào năm 2019, RTDETRv2 thể hiện sự chuyển dịch sang các kiến ​​trúc biến áp loại bỏ hiện tượng triệt tiêu cực đại không cần thiết (non-maximum suppression) ( NMS Đối với các nhà phát triển đang tìm kiếm hiệu năng tối ưu vào năm 2026, chúng tôi cũng sẽ khám phá cách Ultralytics YOLO26 kết hợp những ưu điểm tốt nhất của các công nghệ này với thiết kế tích hợp từ đầu đến cuối.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

EfficientDet: Di sản của sự tăng trưởng theo cấp số nhân

Ra mắt vào cuối năm 2019, EfficientDet đã giới thiệu một phương pháp có hệ thống để mở rộng quy mô mạng nơ-ron tích chập (CNN) . Nó được thiết kế để tối ưu hóa hiệu quả trên nhiều phạm vi hạn chế về tài nguyên, từ thiết bị di động đến trung tâm dữ liệu.

Kiến trúc và các tính năng chính

EfficientDet sử dụng kiến ​​trúc xương sống EfficientNet kết hợp với Mạng Kim tự tháp Đặc trưng Hai chiều có trọng số (BiFPN). BiFPN cho phép kết hợp đặc trưng đa tỷ lệ dễ dàng và nhanh chóng, giúp mô hình học được tầm quan trọng của các đặc trưng đầu vào khác nhau một cách hiệu quả. Sự đổi mới cốt lõi là Compound Scaling , giúp đồng bộ hóa độ phân giải, độ sâu và độ rộng của kiến ​​trúc xương sống mạng, mạng đặc trưng và mạng dự đoán hộp/lớp.

Mặc dù đạt được thành công về mặt học thuật, EfficientDet vẫn dựa vào các hộp neo và các bước xử lý hậu kỳ phức tạp như Non-Maximum Suppression ( NMS ) , điều này có thể gây ra sự biến đổi về độ trễ và làm phức tạp việc triển khai trên phần cứng biên.

RTDETRv2: Transformer thời gian thực

RTDETRv2 (Real-Time Detection Transformer v2) được xây dựng dựa trên sự thành công của phiên bản gốc. RT-DETR Nhằm giải quyết vấn đề chi phí tính toán cao liên quan đến các mô hình dựa trên DETR trong khi vẫn duy trì độ chính xác vượt trội và khả năng nhận thức ngữ cảnh toàn cầu của chúng.

Kiến trúc và các tính năng chính

RTDETRv2 sử dụng bộ mã hóa lai xử lý các đặc trưng đa tỷ lệ hiệu quả hơn so với các Vision Transformer (ViT) tiêu chuẩn. Đặc điểm nổi bật của nó là thiết kế không sử dụng NMS . Bằng cách dự đoán trực tiếp các đối tượng dưới dạng một tập hợp, nó loại bỏ nhu cầu xử lý hậu kỳ theo kinh nghiệm, về mặt lý thuyết giúp ổn định tốc độ suy luận.

Tuy nhiên, các mô hình dựa trên transformer nổi tiếng là ngốn bộ nhớ. Việc huấn luyện RTDETRv2 thường yêu cầu lượng VRAM GPU đáng kể, thường đòi hỏi phần cứng cao cấp như... NVIDIA A100s giúp hội tụ hiệu quả, không giống như các mạng dựa trên CNN. YOLO các mô hình ít gây hại hơn cho phần cứng của người tiêu dùng.

Tìm hiểu thêm về RT-DETR

Lợi thế của Ultralytics: Giới thiệu YOLO26

Trong khi EfficientDet và RTDETRv2 đại diện cho những cột mốc quan trọng, Ultralytics YOLO26 (phát hành tháng 1 năm 2026) thiết lập một tiêu chuẩn mới bằng cách tích hợp những điểm mạnh của cả hai kiến ​​trúc vào một khung thống nhất, hiệu năng cao.

YOLO26 được thiết kế dành cho các nhà phát triển cần độ chính xác của một mô hình Transformer và tốc độ của một mạng CNN nhẹ.

  • Thiết kế không cần hệ thống quản lý mạng NMS từ đầu đến cuối: Giống như RTDETRv2, YOLO26 được thiết kế hoàn toàn từ đầu đến cuối. Nó loại bỏ... NMS Xử lý hậu kỳ, đảm bảo độ trễ xác định, điều này rất quan trọng đối với các ứng dụng an toàn cao như xe tự hành .
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện Mô hình Ngôn ngữ Lớn (LLM) của Moonshot AI, YOLO26 sử dụng bộ tối ưu hóa MuSGD. Sự kết hợp này của SGD Và Muon đảm bảo động lực huấn luyện ổn định và hội tụ nhanh hơn, giảm thiểu quá trình "thử và sai" thường cần thiết khi điều chỉnh siêu tham số cho các mô hình Transformer.
  • Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 đơn giản hóa đồ thị mô hình. Tối ưu hóa này rất quan trọng để xuất mô hình sang các định dạng như ONNX hoặc CoreML Trong đó, các lớp mất mát phức tạp có thể gây ra các vấn đề tương thích trên các thiết bị biên.
  • Cân bằng hiệu năng: YOLO26 mang lại khả năng suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, khiến nó phù hợp hơn nhiều cho việc triển khai ở biên so với EfficientDet-d7 vốn đòi hỏi nhiều tính toán hoặc RTDETRv2 tiêu tốn nhiều VRAM.

Tìm hiểu thêm về YOLO26

Phân tích kỹ thuật chuyên sâu

Hiệu quả huấn luyện và Bộ nhớ

Một điểm khác biệt quan trọng giữa các mô hình này là mức tiêu thụ tài nguyên của chúng trong quá trình huấn luyện.

  • EfficientDet: Mặc dù tiết kiệm tham số, phương pháp mở rộng phức hợp có thể dẫn đến các mạng nơ-ron sâu có tốc độ huấn luyện chậm. Các kết nối BiFPN phức tạp cũng làm tăng chi phí truy cập bộ nhớ (MAC), làm chậm thông lượng.
  • RTDETRv2: Transformer yêu cầu tính toán bản đồ chú ý, điều này có độ phức tạp tăng theo bình phương độ dài chuỗi. Điều này dẫn đến việc sử dụng VRAM cao, gây khó khăn cho việc huấn luyện với kích thước lô lớn trên các GPU tiêu chuẩn (ví dụ: RTX 3060/4070).
  • Các mô hình YOLO Ultralytics : Các mô hình như YOLO11 và YOLO26 được tối ưu hóa về hiệu quả bộ nhớ. Chúng cho phép xử lý theo lô lớn hơn trên phần cứng dành cho người tiêu dùng, giúp phổ biến rộng rãi hơn khả năng tiếp cận AI hiệu năng cao. Hơn nữa, Nền tảng Ultralytics (trước đây là HUB) còn đơn giản hóa quy trình này hơn nữa, cung cấp dịch vụ đào tạo trên đám mây được quản lý, tự động xử lý các vấn đề phức tạp về cơ sở hạ tầng.

Tính linh hoạt và Hệ sinh thái

EfficientDet chủ yếu là một kiến ​​trúc chỉ dùng để phát hiện. Ngược lại, Ultralytics Hệ sinh thái hỗ trợ rất nhiều tác vụ khác nhau trong cùng một mã nguồn.

Khả năng đa nhiệm

Ultralytics Các mô hình không chỉ giới hạn ở các hộp giới hạn. Cùng một API cho phép bạn huấn luyện các mô hình cho Phân đoạn đối tượng , Ước tính tư thếPhát hiện đối tượng định hướng (OBB) , cung cấp một bộ công cụ linh hoạt cho nhiều thách thức thị giác máy tính khác nhau.

YOLO26 đặc biệt bao gồm các cải tiến dành riêng cho từng tác vụ, chẳng hạn như ProgLoss và STAL (Soft Target Assignment Loss), mang lại những cải tiến đáng kể trong việc nhận dạng các vật thể nhỏ - một điểm yếu truyền thống của các mạng CNN và transformer trước đây.

Các trường hợp sử dụng thực tế

Khi nào nên sử dụng RTDETRv2

RTDETRv2 hoạt động xuất sắc trong môi trường có nguồn tài nguyên phần cứng dồi dào và bối cảnh toàn cục là tối quan trọng.

  • Hiểu bối cảnh phức tạp: Trong các bối cảnh có nhiều vật cản hoặc lộn xộn, cơ chế chú ý toàn cục có thể track Mối quan hệ giữa các đối tượng ở xa tốt hơn so với các phép tích chập cục bộ.
  • Triển khai GPU cao cấp: Nếu việc triển khai chỉ dành cho các GPU cấp máy chủ (ví dụ: T4, A10), RTDETRv2 sẽ cung cấp độ chính xác cạnh tranh.

Khi nào nên sử dụng EfficientDet

EfficientDet nhìn chung được coi là một kiến ​​trúc lỗi thời nhưng vẫn còn phù hợp trong một số lĩnh vực cụ thể.

  • Hệ sinh thái Google cũ: Dành cho các nhóm đã tích hợp sâu vào các hệ sinh thái cũ hơn. TensorFlow Đối với các pipeline AutoML, việc duy trì EfficientDet có thể ít gây gián đoạn hơn so với việc chuyển đổi các framework.
  • Các tiêu chuẩn nghiên cứu cơ bản: Đây vẫn là tiêu chuẩn cơ bản để so sánh hiệu quả của các mạng kết hợp đặc trưng.

Sự lựa chọn tối ưu: YOLO26

Đối với phần lớn các ứng dụng hiện đại, YOLO26 là lựa chọn được khuyến nghị nhờ tính linh hoạt và dễ triển khai.

  • Điện toán biên: Với việc loại bỏ DFL và CPU Với những tối ưu hóa này, YOLO26 lý tưởng cho các thiết bị IoT và ứng dụng di động, nơi thời lượng pin và các hạn chế về nhiệt độ là yếu tố quan trọng.
  • Robot học: NMS - Thiết kế không phụ thuộc vào bộ nhớ đảm bảo các vòng điều khiển robot nhận được dữ liệu cảm biến với tốc độ ổn định và có thể dự đoán được.
  • Ảnh chụp từ trên không: Chức năng ProgLoss cải thiện khả năng phát hiện các vật thể nhỏ như xe cộ hoặc gia súc trong ảnh chụp từ máy bay không người lái, vượt trội hơn so với các phương pháp EfficientDet tiêu chuẩn.

Kết luận

Trong khi EfficientDet đã mở đường cho việc mở rộng hiệu quả và RTDETRv2 đã chứng minh sức mạnh của các bộ chuyển đổi thời gian thực, thì bối cảnh đã phát triển. YOLO26 gói gọn thế hệ tiếp theo của thị giác máy tính: hoạt động trọn vẹn từ đầu đến cuối, được tối ưu hóa cao cho nhiều loại phần cứng khác nhau và được hỗ trợ bởi nền tảng mạnh mẽ. Ultralytics hệ sinh thái.

Đối với các nhà phát triển đang tìm cách tối ưu hóa quy trình ML của họ, việc chuyển đổi sang... Ultralytics Các mô hình này không chỉ mang lại những cải tiến về hiệu suất mà còn đơn giản hóa quy trình làm việc, từ khâu chú thích trên Nền tảng Ultralytics đến triển khai ở biên mạng.

Đọc thêm


Bình luận