Link to this sectionEfficientDet so với RTDETRv2#

Việc lựa chọn kiến trúc tối ưu cho các dự án thị giác máy tính đòi hỏi phải điều hướng qua một bối cảnh đa dạng của các mạng thần kinh. Hướng dẫn này khám phá sự so sánh kỹ thuật chi tiết giữa hai phương pháp khác biệt: EfficientDet, một họ Mạng thần kinh tích chập (CNN) có khả năng mở rộng cao và RTDETRv2, một mô hình Transformer thời gian thực tiên tiến. Chúng tôi đánh giá sự khác biệt về cấu trúc, phương pháp huấn luyện và khả năng triển khai của chúng trên các môi trường phần cứng khác nhau.

Bằng cách hiểu rõ các đánh đổi giữa hiệu quả kế thừa và khả năng của Transformer hiện đại, các nhà phát triển có thể đưa ra quyết định sáng suốt. Hơn nữa, chúng tôi sẽ khám phá cách các giải pháp thay thế hiện đại như Ultralytics YOLO26 mới thu hẹp khoảng cách này, mang lại tốc độ, độ chính xác và tính dễ sử dụng chưa từng có.

Link to this sectionTìm hiểu về EfficientDet#

EfficientDet đã tạo ra cuộc cách mạng trong lĩnh vực phát hiện đối tượng bằng cách giới thiệu một phương pháp tiếp cận có nguyên tắc đối với việc mở rộng quy mô mô hình.

Tác giả: Mingxing Tan, Ruoming Pang và Quoc V. Le
Tổ chức: Google
Ngày: 20 tháng 11, 2019
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: Kho lưu trữ Google AutoML
Tài liệu: Tài liệu về EfficientDet

Link to this sectionKiến trúc và các khái niệm cốt lõi#

Về cốt lõi, EfficientDet sử dụng EfficientNet làm backbone và giới thiệu Bi-directional Feature Pyramid Network (BiFPN). BiFPN cho phép hợp nhất các đặc trưng đa quy mô một cách dễ dàng và nhanh chóng bằng cách áp dụng các trọng số có thể học để tìm hiểu tầm quan trọng của các đặc trưng đầu vào khác nhau. Điều này được kết hợp với phương pháp mở rộng quy mô phức hợp giúp đồng nhất tỷ lệ độ phân giải, độ sâu và chiều rộng cho tất cả các mạng backbone, mạng đặc trưng và mạng dự đoán hộp/lớp cùng một lúc.

Link to this sectionĐiểm mạnh và hạn chế#

Điểm mạnh chính của EfficientDet nằm ở hiệu quả tham số. Tại thời điểm ra mắt, các mô hình như EfficientDet-D0 đã đạt độ chính xác cao hơn với ít tham số và FLOPs hơn so với các phiên bản YOLO trước đó. Điều này làm cho nó cực kỳ hấp dẫn đối với các môi trường có giới hạn tính toán nghiêm ngặt.

Tuy nhiên, EfficientDet dựa vào Non-maximum suppression (NMS) tiêu chuẩn trong quá trình hậu xử lý để lọc các hộp bao quanh chồng chéo, điều này có thể gây ra nút thắt về độ trễ trong các pipeline thời gian thực. Ngoài ra, mặc dù quy trình huấn luyện được ghi chép kỹ lưỡng, việc tinh chỉnh EfficientDet có thể trở nên cồng kềnh so với trải nghiệm nhà phát triển được tối ưu hóa cao độ trong các công cụ hiện đại.

Tìm hiểu thêm về EfficientDet

Hỗ trợ cho các phiên bản cũ

Mặc dù EfficientDet đã mở đường cho các mạng có khả năng mở rộng, việc triển khai các mô hình này trên các NPU hiện đại thường đòi hỏi sự tối ưu hóa thủ công rộng rãi. Để triển khai hợp lý hóa, các mô hình Ultralytics mới hơn cung cấp chức năng xuất 1-click.

Link to this sectionKhám phá RTDETRv2#

RTDETRv2 đại diện cho sự tiến hóa của các kiến trúc dựa trên Transformer, thay đổi mô hình khỏi các CNN dựa trên anchor truyền thống.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức: Baidu
Ngày: 24-07-2024
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: Kho lưu trữ RT-DETR
Tài liệu: Tài liệu RTDETRv2

Link to this sectionNhững tiến bộ trong Transformer#

RTDETRv2 được xây dựng dựa trên nền tảng Real-Time Detection Transformer (RT-DETR). Nó tận dụng các cơ chế chú ý toàn cầu, cho phép mô hình hiểu các ngữ cảnh hiện trường phức tạp mà không bị các ràng buộc cục bộ của các phép chập tiêu chuẩn. Lợi thế kiến trúc đáng kể nhất là thiết kế không cần NMS (NMS-free). Bằng cách dự đoán đối tượng trực tiếp từ hình ảnh đầu vào, nó đơn giản hóa pipeline suy luận, tránh được việc điều chỉnh heuristic cần thiết bởi hậu xử lý NMS.

Link to this sectionĐiểm mạnh và điểm yếu#

RTDETRv2 vượt trội trong các môi trường mật độ cao nơi các đối tượng chồng chéo gây nhầm lẫn cho các CNN truyền thống. Nó đạt độ chính xác cao trên các tập dữ liệu benchmark phức tạp như COCO.

Bất chấp độ chính xác, các mô hình Transformer vốn dĩ đòi hỏi bộ nhớ đáng kể. Hiệu quả huấn luyện thấp hơn đáng kể; nó yêu cầu nhiều epoch hơn và không gian bộ nhớ CUDA lớn hơn để hội tụ so với CNN. Điều này làm cho RTDETRv2 ít lý tưởng hơn cho các nhà phát triển vận hành với ngân sách đám mây hạn chế hoặc những người cần tạo mẫu nhanh.

Tìm hiểu thêm về RTDETRv2

Các ràng buộc về bộ nhớ của Transformer

Việc huấn luyện các mô hình Transformer như RTDETRv2 thường đòi hỏi GPU cao cấp. Nếu bạn gặp lỗi Out-Of-Memory (OOM), hãy cân nhắc sử dụng các mô hình có yêu cầu bộ nhớ thấp hơn trong quá trình huấn luyện, chẳng hạn như series Ultralytics YOLO.

Link to this sectionSo sánh benchmark hiệu suất#

Việc hiểu các chỉ số hiệu suất thô là rất quan trọng để lựa chọn mô hình. Bảng sau đây giới thiệu sự so sánh giữa EfficientDet và RTDETRv2 trên nhiều kích thước khác nhau.

Mô hình	kích thước ^(pixel)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa EfficientDet và RT-DETR phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn EfficientDet#

EfficientDet là một lựa chọn mạnh mẽ cho:

Google Cloud và các đường ống TPU: Các hệ thống được tích hợp sâu với API Google Cloud Vision hoặc hạ tầng TPU, nơi EfficientDet có sự tối ưu hóa gốc.
Nghiên cứu về Compound Scaling: Các nghiên cứu học thuật tập trung vào việc đánh giá tác động của độ sâu mạng, chiều rộng và khả năng mở rộng độ phân giải cân bằng.
Triển khai trên di động qua TFLite: Các dự án yêu cầu cụ thể việc xuất TensorFlow Lite cho Android hoặc các thiết bị Linux nhúng.

Link to this sectionKhi nào nên chọn RT-DETR#

RT-DETR được khuyên dùng cho:

Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer cho phát hiện vật thể end-to-end không cần NMS.
Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là có thể chấp nhận được.
Phát hiện vật thể lớn: Các cảnh chủ yếu có vật thể từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionLợi thế của Ultralytics: Giới thiệu YOLO26#

Trong khi EfficientDet và RTDETRv2 đã khẳng định vị thế của mình trong lịch sử thị giác máy tính, các môi trường sản xuất hiện đại đòi hỏi sự cân bằng hoàn hảo giữa tốc độ, độ chính xác và trải nghiệm nhà phát triển đặc biệt. Ultralytics YOLO26 mới ra mắt tổng hợp những khía cạnh tốt nhất của các kiến trúc khác biệt này.

YOLO26 nổi bật bằng cách kết hợp hệ sinh thái hợp lý hóa mà Ultralytics nổi tiếng cùng với các cơ chế nội bộ mang tính đột phá.

Link to this sectionTại sao chọn YOLO26 thay vì các đối thủ cạnh tranh?#

Thiết kế End-to-End không cần NMS: Lấy cảm hứng từ các Transformer như RTDETRv2, YOLO26 là end-to-end nguyên bản. Nó loại bỏ hậu xử lý NMS, đảm bảo các pipeline triển khai nhanh hơn, đơn giản hơn mà không gây ra tình trạng phình to tham số như các Transformer thuần túy.
Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những đổi mới trong huấn luyện mô hình ngôn ngữ lớn (như Kimi K2 của Moonshot AI), YOLO26 sử dụng sự kết hợp giữa SGD và Muon. Điều này mang lại sự ổn định huấn luyện chưa từng có và tốc độ hội tụ nhanh hơn đáng kể so với các lịch trình kéo dài cần thiết bởi RTDETRv2.
Tối ưu hóa cho Edge: Với hiệu suất suy luận CPU nhanh hơn tới 43%, YOLO26 được xây dựng cho AI tại biên. Nó dễ dàng vượt qua các mô hình Transformer nặng trên phần cứng hạn chế như điện thoại di động và camera thông minh.
Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss đơn giản hóa biểu đồ mô hình, tạo điều kiện thuận lợi cho việc xuất TensorRT và ONNX liền mạch.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng chú ý trong việc nhận dạng đối tượng nhỏ, giải quyết một nút thắt phổ biến trong hình ảnh trên không và robot.
Tính linh hoạt: Không giống như RTDETRv2, vốn chủ yếu tập trung vào phát hiện, YOLO26 hỗ trợ nguyên bản phân đoạn cá thể, ước tính tư thế, phân loại hình ảnh và hộp bao quanh định hướng (OBB) với các cải tiến cụ thể cho tác vụ như RLE cho tư thế và hàm mất mát góc chuyên dụng cho OBB.

Hệ sinh thái tích hợp

Tận dụng Ultralytics Platform, bạn có thể quản lý các tập dữ liệu, huấn luyện các mô hình như YOLO26 hoặc YOLO11 trên đám mây và triển khai chúng liền mạch thông qua các API linh hoạt.

Link to this sectionMã nguồn đơn giản với Ultralytics#

Ultralytics Python API được duy trì tốt giúp việc huấn luyện và suy luận mô hình trở nên tầm thường. Các nhà phát triển có thể dễ dàng benchmark các mô hình hoặc khởi chạy các script huấn luyện với code boilerplate tối thiểu.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on a test image
predictions = model.predict("image.jpg")

Đối với những người đang quản lý cơ sở hạ tầng cũ, Ultralytics YOLOv8 được đánh giá cao vẫn là một lựa chọn mạnh mẽ và ổn định, thể hiện độ tin cậy lâu dài của hệ sinh thái Ultralytics. Cho dù bạn đang chạy các thuật toán theo dõi thời gian thực phức tạp hay phát hiện lỗi đơn giản, việc nâng cấp lên YOLO26 đảm bảo hệ thống của bạn luôn sẵn sàng cho tương lai, có độ chính xác cao và tiết kiệm bộ nhớ.

Người đóng góp

GLglenn-jocher¹⁷ PDpderrenger¹

Đã tạo 27 thg 1, 2025Đã cập nhật 4 tuần trước