Link to this sectionRTDETRv2 so với YOLOv5#

Sự phát triển của computer vision phần lớn được định hình bởi nỗ lực không ngừng trong việc cân bằng giữa độ chính xác và tốc độ suy luận thời gian thực. Khi so sánh RTDETRv2 và Ultralytics YOLOv5, các nhà phát triển về cơ bản đang cân nhắc giữa khả năng xử lý ngữ cảnh toàn cục tinh vi của kiến trúc Transformer so với hiệu năng đã được kiểm chứng và tối ưu hóa cao độ của các mạng thần kinh tích chập (CNNs).

Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu về hai kiến trúc nổi bật này, nêu chi tiết các chỉ số hiệu năng, phương pháp huấn luyện, yêu cầu bộ nhớ và các kịch bản triển khai lý tưởng để giúp bạn chọn mô hình object detection tốt nhất cho trường hợp sử dụng cụ thể của mình.

Link to this sectionRTDETRv2: Cách tiếp cận Transformer cho phát hiện thời gian thực#

Được xây dựng dựa trên Real-Time Detection Transformer (RT-DETR) gốc, RTDETRv2 giới thiệu một loạt các "bag-of-freebies" để cải thiện kiến trúc cơ sở mà không làm ảnh hưởng đến độ trễ suy luận.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức: Baidu
Ngày: 24-07-2024
Liên kết: Bài báo Arxiv, Kho lưu trữ GitHub

Link to this sectionKiến trúc và năng lực#

RTDETRv2 tận dụng kiến trúc lai giữa CNN và Transformer. CNN đóng vai trò là backbone để trích xuất các đặc trưng hình ảnh chi tiết, trong khi các lớp encoder-decoder của Transformer xử lý toàn bộ bản đồ đặc trưng để hiểu ngữ cảnh toàn cục. Một đặc điểm chính của RTDETRv2 là bản chất end-to-end, loại bỏ hoàn toàn nhu cầu hậu xử lý Non-Maximum Suppression (NMS).

Mặc dù RTDETRv2 đạt được độ chính xác ấn tượng—đặc biệt là trong các cảnh quay phức tạp, dày đặc nơi các vật thể chồng lấp—nó đi kèm với những đánh đổi đáng chú ý. attention mechanism vốn có trong các mô hình Transformer đòi hỏi bộ nhớ CUDA cao hơn đáng kể trong quá trình huấn luyện so với các CNN tiêu chuẩn. Hơn nữa, trong khi nó hoạt động tốt trên các GPU cao cấp như NVIDIA A100 hoặc T4, kiến trúc của nó chậm hơn đáng kể trên các CPU tiêu chuẩn và các thiết bị edge bị hạn chế nghiêm ngặt.

Tìm hiểu thêm về RTDETRv2

Link to this sectionUltralytics YOLOv5: Tiêu chuẩn ngành về hiệu suất#

Ultralytics YOLOv5 đã thay đổi căn bản cục diện của machine learning ứng dụng khi ra mắt, giúp các nhà phát triển trên toàn thế giới tiếp cận được computer vision hiệu năng cao thông qua một framework cực kỳ trực quan.

Tác giả: Glenn Jocher
Tổ chức: Ultralytics
Ngày: 26 tháng 6, 2020
Liên kết: Tài liệu chính thức, Kho lưu trữ GitHub

Link to this sectionHệ sinh thái và Cân bằng hiệu năng#

YOLOv5 được xây dựng hoàn toàn trên framework PyTorch và dựa vào kiến trúc CNN cực kỳ hiệu quả. Nó được thiết kế ngay từ đầu để dễ sử dụng, với API hợp lý và một số tài liệu toàn diện nhất trong ngành AI.

Ưu điểm lớn nhất của YOLOv5 nằm ở tính linh hoạt chưa từng có và yêu cầu bộ nhớ thấp. Việc huấn luyện một mô hình YOLOv5 đòi hỏi ít VRAM hơn đáng kể so với các mô hình dựa trên Transformer, giúp các nhà nghiên cứu và kỹ sư có ngân sách phần cứng hạn hẹp có thể tiếp cận được. Hơn nữa, trong khi RTDETRv2 chỉ tập trung vào phát hiện bounding box, YOLOv5 đã phát triển thành một hệ thống mạnh mẽ hỗ trợ cả instance segmentation và image classification.

Quản lý mô hình doanh nghiệp

Để trải nghiệm quy trình làm việc tinh gọn nhất, bạn có thể huấn luyện, kiểm thử và triển khai YOLOv5 trực tiếp bằng Ultralytics Platform. Nền tảng này cung cấp các khả năng huấn luyện trên đám mây và các pipeline triển khai không cần mã (zero-code).

Tìm hiểu thêm về YOLOv5

Link to this sectionSo sánh Hiệu năng và Chỉ số#

Khi phân tích hiệu năng thô trên COCO dataset tiêu chuẩn, chúng ta có thể thấy rõ sự khác biệt trong cách các mô hình này ưu tiên tài nguyên.

Mô hình	kích thước ^(pixel)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Link to this sectionPhân tích các đánh đổi#

Dữ liệu cho thấy RTDETRv2-x đạt mean Average Precision (mAP) đỉnh cao là 54.3%, vượt trội hơn một chút so với 50.7% của YOLOv5x. Tuy nhiên, mức tăng độ chính xác nhỏ này đi kèm với chi phí tính toán khổng lồ. YOLOv5x hoạt động với độ trễ thấp hơn (11.89 ms so với 15.03 ms trên TensorRT) và yêu cầu dung lượng bộ nhớ nhỏ hơn rất nhiều. Đối với các triển khai edge công suất cực thấp, YOLOv5n (Nano) vẫn không có đối thủ, hoàn thành suy luận chỉ trong 1.12ms với dung lượng tham số tối thiểu 2.6M—một phân khúc mà RTDETRv2 thậm chí không cố gắng cạnh tranh.

Link to this sectionHiệu quả huấn luyện và Đơn giản hóa mã nguồn#

Một trong những thế mạnh chính của hệ sinh thái Ultralytics là API hợp nhất. Ngay cả khi bạn quyết định sử dụng kiến trúc Transformer của RT-DETR cho một tác vụ tính toán chuyên sâu cụ thể, bạn vẫn có thể thực hiện hoàn toàn trong gói Python của Ultralytics, hoán đổi các mô hình một cách liền mạch chỉ với một dòng mã.

from ultralytics import RTDETR, YOLO

# Load the Ultralytics YOLOv5 small model
model_yolo = YOLO("yolov5s.pt")

# Load the RT-DETR large model via Ultralytics
model_rtdetr = RTDETR("rtdetr-l.pt")

# Train YOLOv5 effortlessly on your custom data
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with both models seamlessly
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")

results_yolo[0].show()

Bằng cách tận dụng thư viện Ultralytics, các nhà phát triển tự động có quyền truy cập vào một hệ sinh thái được duy trì tốt với các tích hợp theo dõi thí nghiệm (như Weights & Biases và Comet ML) và xuất dữ liệu chỉ với một cú nhấp chuột sang các định dạng triển khai như ONNX và OpenVINO.

Link to this sectionCác ứng dụng thực tế và trường hợp sử dụng lý tưởng#

Link to this sectionNơi RTDETRv2 tỏa sáng#

RTDETRv2 phù hợp nhất cho các môi trường không có giới hạn về phần cứng và độ chính xác tối đa có thể đạt được là mục tiêu duy nhất.

Hình ảnh y tế phía máy chủ: Phát hiện các bất thường vi mô trong ảnh X-quang độ phân giải cao.
Hình ảnh vệ tinh: Theo dõi các vật thể dày đặc, chồng lấp trong các tác vụ giám sát trên không trên các cụm đám mây mạnh mẽ.

Link to this sectionNơi YOLOv5 chiếm ưu thế#

YOLOv5 là nhà vô địch không thể bàn cãi cho việc triển khai thực tế trong thế giới thực trên nhiều loại phần cứng khác nhau.

Thiết bị Edge AI: Triển khai hệ thống báo động an ninh trên các thiết bị Raspberry Pi hoặc NVIDIA Jetson nơi bộ nhớ bị hạn chế nghiêm ngặt.
Ứng dụng di động: Chạy suy luận nhanh, thời gian thực cho bounding box và phân đoạn ngay trên điện thoại thông minh thông qua CoreML hoặc TFLite.
Sản xuất công nghiệp tốc độ cao: Kiểm tra các bộ phận trên dây chuyền sản xuất nhanh nơi độ trễ tính bằng mili giây là yếu tố quyết định thành công trong vận hành.

Khám phá các mô hình Ultralytics khác

Mặc dù YOLOv5 là một mô hình huyền thoại, hệ sinh thái Ultralytics liên tục phá vỡ các giới hạn của AI. Nếu bạn đang so sánh các mô hình cho một dự án mới vào năm 2026, bạn nên cân nhắc khám phá Ultralytics YOLO26 tiên tiến. YOLO26 kết hợp thiết kế End-to-End NMS-Free gốc (tương tự như Transformer nhưng với tốc độ của CNN), có bộ tối ưu hóa MuSGD Optimizer mang tính cách mạng cho việc huấn luyện cực kỳ ổn định và mang lại khả năng suy luận CPU nhanh hơn tới 43%. Ngoài ra, YOLO11 vẫn là một lựa chọn tuyệt vời, được hỗ trợ mạnh mẽ cho các triển khai đa năng đòi hỏi Pose Estimation và OBB detection.

Cuối cùng, trong khi RTDETRv2 đẩy giới hạn độ chính xác lên cao bằng cách sử dụng các lớp Transformer, khung làm việc Ultralytics YOLO mang lại sự cân bằng chưa từng có giữa tốc độ, yêu cầu bộ nhớ nhẹ và trải nghiệm nhà phát triển được thiết kế xuất sắc, giúp giảm đáng kể thời gian từ khâu tạo mẫu đến sản xuất.

Người đóng góp

GLglenn-jocher¹³ PDpderrenger¹

Đã tạo 27 thg 1, 2025Đã cập nhật 3 tuần trước