RTDETRv2 so với YOLOv5: Đánh giá Transformer phát hiện thời gian thực và CNN

Sự phát triển của thị giác máy tính phần lớn được định hình bởi nỗ lực không ngừng nghỉ trong việc cân bằng giữa độ chính xác và tốc độ suy luận thời gian thực. Khi so sánh RTDETRv2 và Ultralytics YOLOv5, các nhà phát triển về cơ bản đang cân nhắc khả năng bối cảnh toàn cầu tinh vi của kiến trúc Transformer so với hiệu suất được tối ưu hóa cao, đã được kiểm chứng thực tế của Mạng nơ-ron tích chập (CNN).

Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu về hai kiến trúc nổi bật này, chi tiết về các chỉ số hiệu suất, phương pháp huấn luyện, yêu cầu bộ nhớ và các kịch bản triển khai lý tưởng để giúp bạn chọn mô hình phát hiện đối tượng tốt nhất cho trường hợp sử dụng cụ thể của mình.

RTDETRv2: Cách tiếp cận Transformer cho nhận diện thời gian thực

Dựa trên nền tảng Real-Time Detection Transformer (RT-DETR) gốc, RTDETRv2 giới thiệu một loạt các "bag-of-freebies" để cải thiện kiến trúc cơ sở mà không làm ảnh hưởng đến độ trễ suy luận của nó.

  • Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
  • Tổ chức: Baidu
  • Ngày: 24-07-2024
  • Liên kết: Arxiv Paper, GitHub Repository

Kiến trúc và khả năng

RTDETRv2 tận dụng kiến trúc CNN-Transformer lai. CNN đóng vai trò là xương sống (backbone) để trích xuất các đặc trưng hình ảnh chi tiết, trong khi các lớp Transformer encoder-decoder xử lý toàn bộ bản đồ đặc trưng để hiểu ngữ cảnh toàn cầu. Một dấu ấn quan trọng của RTDETRv2 là tính chất end-to-end, loại bỏ hoàn toàn nhu cầu về hậu xử lý Non-Maximum Suppression (NMS).

Mặc dù RTDETRv2 đạt được độ chính xác ấn tượng—đặc biệt là trong các khung cảnh phức tạp, dày đặc nơi các đối tượng chồng lấp—nó đi kèm với những đánh đổi đáng chú ý. Cơ chế chú ý (attention mechanism) vốn có của Transformer đòi hỏi bộ nhớ CUDA cao hơn đáng kể trong quá trình huấn luyện so với các CNN tiêu chuẩn. Hơn nữa, mặc dù hoạt động tốt trên các GPU cao cấp như NVIDIA A100 hoặc T4, kiến trúc của nó chậm hơn đáng kể trên các CPU tiêu chuẩn và các thiết bị biên bị hạn chế nghiêm trọng.

Tìm hiểu thêm về RTDETRv2

Ultralytics YOLOv5: Tiêu chuẩn công nghiệp về hiệu suất

Ultralytics YOLOv5 đã thay đổi căn bản bối cảnh của học máy ứng dụng khi ra mắt, giúp các nhà phát triển trên toàn thế giới tiếp cận được thị giác máy tính hiệu suất cao thông qua một framework cực kỳ trực quan.

Hệ sinh thái và Cân bằng Hiệu suất

YOLOv5 được xây dựng hoàn toàn trên framework PyTorch và dựa vào kiến trúc CNN cực kỳ hiệu quả. Nó được thiết kế từ đầu để dễ sử dụng, có API được sắp xếp hợp lý và là một trong những tài liệu đầy đủ nhất trong ngành AI.

Lợi thế lớn nhất của YOLOv5 nằm ở tính linh hoạt vô song và yêu cầu bộ nhớ thấp. Việc huấn luyện mô hình YOLOv5 đòi hỏi ít VRAM hơn đáng kể so với các mô hình dựa trên Transformer, giúp các nhà nghiên cứu và kỹ sư có ngân sách phần cứng hạn chế có thể tiếp cận được. Hơn nữa, trong khi RTDETRv2 chỉ tập trung vào phát hiện hộp bao (bounding box), YOLOv5 đã phát triển thành một cường quốc đa năng hỗ trợ phân đoạn đối tượng (instance segmentation)phân loại hình ảnh (image classification).

Quản lý mô hình doanh nghiệp

Để trải nghiệm quy trình làm việc tối ưu nhất, bạn có thể huấn luyện, xác thực và triển khai YOLOv5 trực tiếp bằng cách sử dụng Ultralytics Platform. Nền tảng này cung cấp các khả năng huấn luyện trên đám mây và các đường ống triển khai không cần mã (zero-code).

Tìm hiểu thêm về YOLOv5

So sánh hiệu suất và các chỉ số

Khi phân tích hiệu suất thô trên tập dữ liệu COCO tiêu chuẩn, chúng ta có thể thấy những khác biệt rõ ràng về cách các mô hình này ưu tiên tài nguyên.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Phân tích sự đánh đổi

Dữ liệu cho thấy RTDETRv2-x đạt độ chính xác trung bình (mAP) đỉnh cao là 54,3%, vượt trội hơn một chút so với 50,7% của YOLOv5x. Tuy nhiên, mức tăng độ chính xác nhỏ này đi kèm với chi phí tính toán khổng lồ. YOLOv5x vận hành với độ trễ thấp hơn (11,89 ms so với 15,03 ms trên TensorRT) và yêu cầu một phần nhỏ dung lượng bộ nhớ. Đối với các triển khai biên công suất siêu thấp, YOLOv5n (Nano) vẫn không có đối thủ, hoàn thành suy luận chỉ trong 1,12ms với dung lượng tham số cực nhỏ 2,6M—một phân khúc mà RTDETRv2 thậm chí không cố gắng cạnh tranh.

Hiệu quả huấn luyện và sự đơn giản của mã

Một trong những thế mạnh chính của hệ sinh thái Ultralytics là API thống nhất. Ngay cả khi bạn quyết định sử dụng kiến trúc Transformer của RT-DETR cho một tác vụ tính toán nặng cụ thể, bạn vẫn có thể thực hiện hoàn toàn trong gói Python của Ultralytics, chuyển đổi mô hình liền mạch chỉ với một dòng mã.

from ultralytics import RTDETR, YOLO

# Load the Ultralytics YOLOv5 small model
model_yolo = YOLO("yolov5s.pt")

# Load the RT-DETR large model via Ultralytics
model_rtdetr = RTDETR("rtdetr-l.pt")

# Train YOLOv5 effortlessly on your custom data
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with both models seamlessly
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")

results_yolo[0].show()

Bằng cách tận dụng thư viện Ultralytics, các nhà phát triển tự động có quyền truy cập vào một hệ sinh thái được duy trì tốt với các tích hợp theo dõi thí nghiệm (như Weights & Biases và Comet ML) và xuất tệp bằng một cú nhấp chuột sang các định dạng triển khai như ONNXOpenVINO.

Ứng dụng thực tế và trường hợp sử dụng lý tưởng

RTDETRv2 tỏa sáng ở đâu

RTDETRv2 phù hợp nhất với các môi trường không có hạn chế về phần cứng và độ chính xác cao nhất có thể là mục tiêu duy nhất.

  • Hình ảnh y tế phía máy chủ: Phát hiện các bất thường siêu nhỏ trong X-quang độ phân giải cao.
  • Hình ảnh vệ tinh: Theo dõi các đối tượng dày đặc, chồng lấp trong các tác vụ giám sát trên không trên các cụm máy chủ đám mây mạnh mẽ.

YOLOv5 chiếm ưu thế ở đâu

YOLOv5 là nhà vô địch không thể bàn cãi cho việc triển khai thực tế trong thế giới thực trên nhiều loại phần cứng đa dạng.

  • Thiết bị Edge AI: Triển khai hệ thống báo động an ninh trên các thiết bị Raspberry Pi hoặc NVIDIA Jetson, nơi bộ nhớ bị hạn chế nghiêm ngặt.
  • Ứng dụng di động: Chạy suy luận phát hiện hộp bao và phân đoạn thời gian thực, nhanh chóng trực tiếp trên điện thoại thông minh thông qua CoreML hoặc TFLite.
  • Sản xuất công nghiệp tốc độ cao: Kiểm tra các bộ phận trên dây chuyền sản xuất nhanh, nơi độ trễ tính bằng mili giây là rất quan trọng đối với sự thành công của hoạt động.
Khám phá các mô hình Ultralytics khác

Trong khi YOLOv5 là một mô hình huyền thoại, hệ sinh thái Ultralytics liên tục vượt qua các ranh giới của AI. Nếu bạn đang so sánh các mô hình cho một dự án mới vào năm 2026, bạn nên cân nhắc khám phá Ultralytics YOLO26 tiên tiến nhất. YOLO26 kết hợp thiết kế End-to-End NMS-Free nguyên bản (tương tự như Transformer nhưng với tốc độ của CNN), có bộ tối ưu hóa MuSGD Optimizer mang tính cách mạng cho quá trình huấn luyện cực kỳ ổn định và mang lại hiệu suất suy luận CPU nhanh hơn tới 43%. Ngoài ra, YOLO11 vẫn là một lựa chọn tuyệt vời, được hỗ trợ mạnh mẽ cho các triển khai đa năng yêu cầu Ước tính tư thế (Pose Estimation)Phát hiện OBB.

Cuối cùng, trong khi RTDETRv2 đẩy giới hạn độ chính xác lên cao bằng cách sử dụng các lớp Transformer, framework Ultralytics YOLO cung cấp sự cân bằng vô song về tốc độ, yêu cầu bộ nhớ nhẹ và trải nghiệm nhà phát triển được thiết kế thông minh, giúp giảm đáng kể thời gian từ giai đoạn thử nghiệm đến sản xuất.

Bình luận