RTDETRv2 so với YOLOv9: So sánh các Transformer phát hiện thời gian thực và CNN

Lĩnh vực thị giác máy tính đã chứng kiến sự phân kỳ thú vị trong các triết lý kiến trúc, chủ yếu giữa Mạng thần kinh tích chập (CNN) và các mô hình dựa trên Transformer. Khi so sánh RTDETRv2 và YOLOv9, các nhà phát triển về cơ bản đang đánh giá sự cân bằng giữa cơ chế chú ý toàn cục (global attention) và thông tin gradient có thể lập trình (programmable gradient information). Cả hai mô hình đều đại diện cho đỉnh cao của các mô hình tương ứng, phá vỡ các giới hạn của việc phát hiện đối tượng thời gian thực.

Giới thiệu về các model

RTDETRv2: Transformer phát hiện thời gian thực

Được phát triển bởi các nhà nghiên cứu tại Baidu, RTDETRv2 xây dựng dựa trên RT-DETR gốc bằng cách giới thiệu "Bag-of-Freebies" để tăng cường cho Real-Time Detection Transformer cơ bản. Nó giải quyết nút thắt truyền thống của Transformer—tốc độ suy luận (inference speed)—giúp chúng trở nên khả thi cho các ứng dụng thời gian thực.

  • Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
  • Tổ chức: Baidu
  • Ngày: 24-07-2024
  • Liên kết: Arxiv, GitHub

Một đặc điểm xác định của RTDETRv2 là thiết kế end-to-end không dùng NMS nguyên bản. Bằng cách loại bỏ hoàn toàn Non-Maximum Suppression (NMS) trong quá trình hậu xử lý, mô hình giúp ổn định độ trễ suy luận và đơn giản hóa quy trình triển khai. Cơ chế chú ý toàn cục cho phép mô hình vượt trội trong việc hiểu các cảnh phức tạp và đám đông dày đặc, vì nó đánh giá toàn bộ bối cảnh hình ảnh cùng một lúc.

Tìm hiểu thêm về RTDETRv2

YOLOv9: Thông tin Gradient có thể lập trình (Programmable Gradient Information)

YOLOv9, một kiến trúc dựa trên CNN hiệu quả cao, giải quyết vấn đề nút thắt thông tin vốn có trong các mạng thần kinh sâu. Nó giới thiệu Programmable Gradient Information (PGI) và Generalized Efficient Layer Aggregation Network (GELAN).

YOLOv9 dựa trên nền tảng convolutional neural network đã được kiểm chứng nhưng tối đa hóa hiệu quả tham số. Bằng cách giữ lại thông tin quan trọng trong quá trình truyền tiến (feed-forward), nó đảm bảo cập nhật trọng số đáng tin cậy, tạo ra một mô hình cực kỳ nhẹ nhưng có độ chính xác cao. Tuy nhiên, không giống như RTDETRv2, YOLOv9 vẫn dựa vào hậu xử lý NMS tiêu chuẩn.

Tìm hiểu thêm về YOLOv9

Hiệu suất và Hiệu quả tài nguyên

Khi đánh giá các mô hình này cho sản xuất, việc cân bằng giữa mAP (mean Average Precision) và chi phí tính toán là rất quan trọng. Bảng dưới đây minh họa hiệu suất của chúng trên bộ dữ liệu MS COCO.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Yêu cầu bộ nhớ và hiệu quả huấn luyện

Các Transformer như RTDETRv2 nổi tiếng là tốn bộ nhớ trong quá trình huấn luyện, thường yêu cầu bộ nhớ CUDA đáng kể và thời gian huấn luyện dài hơn để hội tụ hoàn toàn. Ngược lại, các kiến trúc CNN như YOLOv9 và các mô hình Ultralytics YOLO khác cung cấp mức sử dụng bộ nhớ thấp hơn đáng kể, cho phép nhà phát triển huấn luyện với kích thước lô (batch size) lớn hơn trên phần cứng tiêu dùng.

Huấn luyện hiệu quả

Để tối đa hóa việc sử dụng phần cứng, hãy cân nhắc sử dụng Nền tảng Ultralytics để huấn luyện trên đám mây một cách hợp lý. Nền tảng này tự động xử lý việc thiết lập môi trường và kích thước lô tối ưu.

Lợi thế từ Ultralytics: Hệ sinh thái và tính dễ sử dụng

Trong khi việc nghiên cứu các kho lưu trữ độc lập như trang GitHub chính thức của RTDETRv2 hoặc YOLOv9 có thể mang tính giáo dục cao, các môi trường sản xuất đòi hỏi sự ổn định, dễ sử dụng và một hệ sinh thái được bảo trì tốt. Việc tích hợp các mô hình này thông qua Ultralytics Python API mang lại trải nghiệm nhà phát triển liền mạch.

API thống nhất và Tính linh hoạt

Framework Ultralytics trừu tượng hóa các sự phức tạp của việc tải dữ liệu, tăng cường dữ liệu và huấn luyện phân tán. Hơn nữa, trong khi RTDETRv2 gốc tập trung nghiêm ngặt vào việc phát hiện, hệ sinh thái Ultralytics cho phép người dùng dễ dàng chuyển đổi giữa Object Detection, Instance SegmentationPose Estimation.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")

Với tài liệu mạnh mẽ, theo dõi thử nghiệm tự động và khả năng xuất liền mạch sang các định dạng như ONNX, TensorRT và OpenVINO, Ultralytics giảm đáng kể thời gian từ tạo mẫu đến sản xuất.

Các trường hợp sử dụng lý tưởng

Nơi RTDETRv2 vượt trội

Nhờ cơ chế chú ý toàn cục, RTDETRv2 là một cường quốc cho xử lý phía máy chủ và các môi trường mà bối cảnh toàn cục là tối quan trọng. Nó vượt trội trong:

  • Hình ảnh y tế: Xác định các bất thường tinh vi nơi bối cảnh xung quanh là rất quan trọng.
  • Giám sát trên không: Phát hiện các đối tượng nhỏ trong cảnh quay drone có độ phân giải cao mà không có sự thiên lệch về không gian của các tích chập CNN truyền thống.
  • Phân tích đám đông dày đặc: Theo dõi các cá nhân nơi sự che khuất nghiêm trọng thường gây nhầm lẫn cho các mô hình dựa trên neo (anchor-based).

Nơi YOLOv9 vượt trội

YOLOv9 là nhà vô địch về triển khai tại biên (edge) bị hạn chế về tài nguyên. Hiệu quả tính toán của nó làm cho nó trở nên lý tưởng cho:

  • Robot: Điều hướng thời gian thực và tránh chướng ngại vật nơi yêu cầu độ trễ tối thiểu.
  • IoT Thành phố thông minh: Triển khai trên các thiết bị biên như NVIDIA Jetson để giám sát giao thông.
  • Kiểm tra công nghiệp: Kiểm soát chất lượng dây chuyền lắp ráp tốc độ cao yêu cầu số khung hình trên giây (FPS) cao.

Tương lai: Bước vào Ultralytics YOLO26

Trong khi YOLOv9 và RTDETRv2 đại diện cho những bước nhảy vọt lớn, bối cảnh đã phát triển nhanh chóng. Đối với các triển khai hiện đại, Ultralytics YOLO26 mới được phát hành đại diện cho sự kết hợp tối ưu của cả hai triết lý kiến trúc.

Bằng cách lấy những khía cạnh tốt nhất của Transformer và CNN, YOLO26 thiết lập một tiêu chuẩn mới:

  • Thiết kế End-to-End không dùng NMS: Giống như RTDETRv2, YOLO26 là end-to-end nguyên bản, loại bỏ hoàn toàn hậu xử lý NMS để có các quy trình triển khai nhanh hơn, đơn giản hơn và có khả năng dự đoán cao.
  • Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện Large Language Model (LLM) (chẳng hạn như Kimi K2 của Moonshot AI), YOLO26 sử dụng sự kết hợp giữa SGD và Muon. Điều này mang lại sự ổn định huấn luyện chưa từng có và hội tụ nhanh chóng cho thị giác máy tính.
  • Suy luận trên CPU nhanh hơn tới 43%: Không giống như các Transformer nặng, YOLO26 được tối ưu hóa mạnh mẽ cho tính toán biên và các thiết bị không có GPU.
  • Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss làm đơn giản hóa đáng kể đồ thị mô hình, đảm bảo xuất hoàn hảo sang các thiết bị biên công suất thấp và các Neural Processing Unit (NPU) nhúng.
  • ProgLoss + STAL: Các hàm mất mát cải tiến này nâng cao đáng kể khả năng nhận dạng đối tượng nhỏ, một tính năng quan trọng cho IoT và các tập dữ liệu trên không.

Đối với các nhóm muốn bắt đầu một dự án thị giác máy tính mới, chúng tôi đặc biệt khuyến nghị đánh giá YOLO26. Nó cung cấp sự tinh tế không dùng NMS của một Transformer với tốc độ rực rỡ và hiệu quả huấn luyện của một kiến trúc YOLO được tối ưu hóa cao.

Tìm hiểu thêm về YOLO26

Tóm tắt

Việc lựa chọn giữa RTDETRv2 và YOLOv9 phần lớn phụ thuộc vào phần cứng triển khai và nhu cầu độ chính xác cụ thể của bạn. RTDETRv2 cung cấp độ chính xác và nhận thức bối cảnh tiên tiến nhất cho các ứng dụng hỗ trợ máy chủ, trong khi YOLOv9 cung cấp hiệu quả vượt trội cho các thiết bị biên.

Tuy nhiên, bằng cách tận dụng hệ sinh thái Ultralytics trưởng thành, các nhà phát triển có thể dễ dàng thử nghiệm với cả hai. Hơn nữa, với sự ra đời của các mô hình mới hơn như YOLO11YOLO26 end-to-end nguyên bản, việc tìm kiếm sự cân bằng hoàn hảo giữa suy luận tốc độ cao, hỗ trợ tác vụ linh hoạt và tiêu thụ bộ nhớ thấp chưa bao giờ dễ dàng hơn thế.

Bình luận