Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 so với EfficientDet: Phân tích các kiến trúc phát hiện thời gian thực#

Việc lựa chọn kiến trúc mạng thần kinh tối ưu là quyết định mang tính định hình cho bất kỳ dự án thị giác máy tính nào. Bài so sánh kỹ thuật toàn diện này phân tích hai mô hình phát hiện vật thể có tầm ảnh hưởng: RTDETRv2, một trình phát hiện dựa trên transformer hiện đại, và EfficientDet, một mạng thần kinh tích chập có khả năng mở rộng cao. Chúng tôi sẽ đánh giá kiến trúc riêng biệt, các chỉ số hiệu suất, phương pháp huấn luyện và các kịch bản triển khai lý tưởng của chúng để giúp bạn đưa ra các quyết định dựa trên dữ liệu cho các pipeline AI của mình.

Link to this sectionRTDETRv2: Transformer phát hiện thời gian thực#

Tiếp nối thành công của RT-DETR bản gốc, RTDETRv2 cải tiến mô hình phát hiện vật thể dựa trên transformer. Bằng cách tối ưu hóa các cấu trúc encoder và decoder, nó mang lại độ chính xác cao trong khi vẫn duy trì tốc độ suy luận thời gian thực, thu hẹp khoảng cách hiệu quả giữa CNN truyền thống và vision transformer.

Chi tiết mô hình Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức: Baidu Ngày: 2024-07-24 Liên kết: Arxiv, GitHub, Docs

Link to this sectionKiến trúc và các thế mạnh cốt lõi#

RTDETRv2 utilizes a hybrid architecture that pairs a potent CNN backbone (often ResNet or HGNet) with an efficient transformer decoder. The most defining characteristic of RTDETRv2 is its native ability to bypass non-maximum suppression (NMS). Traditional detectors require NMS to filter out duplicate bounding boxes, adding variable inference latency during post-processing. RTDETRv2 formulates detection as a direct set prediction problem, utilizing bipartite matching to output unique predictions.

Mô hình này xuất sắc trong các triển khai phía máy chủ (server-side) nơi bộ nhớ GPU dồi dào. Cơ chế chú ý toàn cầu của nó cung cấp nhận thức bối cảnh đặc biệt, giúp nó cực kỳ thành thạo trong việc tách biệt các đối tượng chồng chéo trong các môi trường đông đúc, lộn xộn như hệ thống báo động an ninh tự động hoặc giám sát đám đông mật độ cao.

Link to this sectionHạn chế#

While powerful, transformer architectures inherently require more CUDA memory during training compared to standard CNNs. Furthermore, fine-tuning RTDETRv2 can require extended training data convergence times, making rapid prototyping slightly more resource-intensive.

Tìm hiểu thêm về RTDETRv2

Link to this sectionEfficientDet: Các CNN có khả năng mở rộng và hiệu quả#

EfficientDet introduced a family of object detection models optimized for both accuracy and efficiency across a wide spectrum of resource constraints. It remains a classic example of scalable machine vision design.

Chi tiết mô hình Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
Tổ chức: Google
Ngày: 2019-11-20
Liên kết: Arxiv, GitHub, Docs

Link to this sectionKiến trúc và các thế mạnh cốt lõi#

The innovation behind EfficientDet lies in two key areas: the Bi-directional Feature Pyramid Network (BiFPN) and a compound scaling method. BiFPN allows for simple and fast multi-scale feature extraction by introducing learnable weights to learn the importance of different input features, while repeatedly applying top-down and bottom-up multi-scale feature fusion. The compound scaling method uniformly scales the resolution, depth, and width of the network simultaneously.

EfficientDet models range from the ultra-lightweight D0 to the massive D7. This makes them highly versatile for edge AI deployments where developers must balance tight computational budgets with accuracy requirements, such as early mobile augmented reality applications.

Link to this sectionHạn chế#

EfficientDet là một kiến trúc cũ hơn dựa nhiều vào anchor box và pipeline hậu xử lý NMS truyền thống. Quá trình tạo anchor yêu cầu tinh chỉnh siêu tham số cẩn thận, và bước NMS có thể trở thành nút thắt cổ chai khi triển khai trên phần cứng nhúng như Raspberry Pi. Nó cũng thiếu hỗ trợ bẩm sinh cho các tác vụ hiện đại như ước tính tư thế hoặc hộp bao định hướng (OBB).

Tìm hiểu thêm về EfficientDet

Link to this sectionSo sánh Hiệu năng và Chỉ số#

Việc hiểu rõ các đánh đổi chính xác giữa các mô hình này đòi hỏi phải phân tích thông lượng và hiệu quả tham số của chúng. Bảng dưới đây phác thảo cách dòng RTDETRv2 hiện đại so sánh với họ EfficientDet có khả năng mở rộng.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

As seen above, RTDETRv2 achieves significantly higher mean Average Precision (mAP) at comparable parameter counts to the mid-tier EfficientDet models, heavily utilizing its transformer architecture to boost accuracy.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa RT-DETR và EfficientDet phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn RT-DETR#

RT-DETR là lựa chọn mạnh mẽ cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer cho phát hiện vật thể end-to-end không cần NMS.
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là có thể chấp nhận được.
  • Phát hiện vật thể lớn: Các cảnh chủ yếu có vật thể từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Link to this sectionKhi nào nên chọn EfficientDet#

EfficientDet được khuyến nghị cho:

  • Google Cloud và các đường ống TPU: Các hệ thống được tích hợp sâu với API Google Cloud Vision hoặc hạ tầng TPU, nơi EfficientDet có sự tối ưu hóa gốc.
  • Nghiên cứu về Compound Scaling: Các nghiên cứu học thuật tập trung vào việc đánh giá tác động của độ sâu mạng, chiều rộng và khả năng mở rộng độ phân giải cân bằng.
  • Triển khai di động qua TFLite: Các dự án yêu cầu cụ thể việc xuất TensorFlow Lite cho các thiết bị Android hoặc Linux nhúng.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionGiải pháp thay thế từ Ultralytics: Thúc đẩy sự hiện đại#

Mặc dù cả RTDETRv2 và EfficientDet đều có những ưu điểm mạnh mẽ, việc phát triển AI hiện đại đòi hỏi các framework cung cấp trải nghiệm nhà phát triển liền mạch cùng với hiệu suất tiên tiến. Hệ sinh thái Ultralytics cung cấp phương pháp tiếp cận tinh gọn hơn đáng kể cho các tác vụ thị giác máy tính.

Nếu bạn đang khám phá các phương pháp phát hiện hiện đại nhất, Ultralytics YOLO26 mới ra mắt đã tổng hợp những khía cạnh tốt nhất của cả CNN và transformer.

Tại sao chọn YOLO26?

YOLO26 implements an End-to-End NMS-Free Design, bringing the deployment simplicity of RTDETRv2 to the ultra-efficient YOLO architecture. Furthermore, it introduces the MuSGD Optimizer—inspired by LLM training innovations—for superior training stability. With DFL Removal (Distribution Focal Loss removed for simplified export and better edge/low-power device compatibility), YOLO26 boasts up to 43% faster CPU inference than previous generations, making it an exceptional choice for edge computing over heavier models. Additionally, ProgLoss + STAL delivers improved loss functions with notable improvements in small-object recognition, critical for IoT, robotics, and aerial imagery.

Sự dễ sử dụng được cung cấp bởi gói Python của Ultralytics là vô đối. Các nhà phát triển có thể huấn luyện, xác thực và xuất mô hình bằng cách sử dụng một API trực quan giúp trừu tượng hóa các đoạn mã lặp lại thường thấy trong các kho lưu trữ nghiên cứu.

from ultralytics import RTDETR

# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for optimized inference on TensorRT
model.export(format="engine")

Các mô hình Ultralytics hỗ trợ bẩm sinh nhiều tác vụ, bao gồm phân đoạn cá thểphân loại ảnh, cung cấp một bộ công cụ linh hoạt cho các nhu cầu đa dạng của ngành. Hơn nữa, việc loại bỏ Distribution Focal Loss (DFL) trong các mô hình Ultralytics hiện đại giúp đơn giản hóa đồ thị tính toán, đảm bảo việc xuất sang các NPU và TPU nhúng diễn ra trơn tru hơn.

Để gán nhãn dữ liệu và quản lý mô hình liền mạch, Nền tảng Ultralytics cung cấp một môi trường đám mây toàn diện để giám sát toàn bộ vòng đời học máy, khẳng định vị thế là lựa chọn hàng đầu để triển khai các giải pháp thị giác máy tính mạnh mẽ trong môi trường sản xuất.

Người đóng góp

Bình luận