RTDETRv2 so với... YOLOv6 -3.0: Đánh giá các mô hình Transformer thời gian thực so với các mạng CNN công nghiệp

Lĩnh vực thị giác máy tính liên tục phát triển, mang đến cho các nhà phát triển vô số lựa chọn kiến trúc cho việc phát hiện đối tượng. Hai mô hình nổi bật đại diện cho các phương pháp tiếp cận khác nhau là RTDETRv2 , một bộ chuyển đổi thị giác tiên tiến, và YOLOv6 , một mạng nơ-ron tích chập (CNN) được tối ưu hóa cao, chuyên dụng cho các ứng dụng công nghiệp.

Bài so sánh kỹ thuật toàn diện này sẽ khám phá kiến trúc, các chỉ số hiệu năng và kịch bản triển khai lý tưởng của từng sản phẩm. Chúng ta cũng sẽ xem xét hệ sinh thái Ultralytics rộng lớn hơn mang lại trải nghiệm phát triển vượt trội như thế nào, và cuối cùng hướng đến các khả năng thế hệ tiếp theo của Ultralytics YOLO26 .

RTDETRv2: Phương pháp chuyển đổi tầm nhìn

Được phát triển bởi các nhà nghiên cứu tại Baidu, RTDETRv2 xây dựng dựa trên nền tảng của RT-DETR gốc, đại diện cho một bước tiến đáng kể trong phát hiện đối tượng dựa trên transformer.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức: Baidu
Ngày: 24-07-2024
Arxiv: 2407.17140
GitHub: lyuwenyu/ RT-DETR
Tài liệu: README RTDETRv2 trên GitHub

Điểm nổi bật về kiến trúc

RTDETRv2 sử dụng kiến trúc lai kết hợp bộ trích xuất đặc trưng CNN với bộ giải mã Transformer mạnh mẽ. Đặc điểm nổi bật nhất của mô hình này là khả năng xử lý dữ liệu gốc. NMS - thiết kế không cần bảo vệ. Bằng cách loại bỏ hiện tượng triệt tiêu không tối đa ( NMS Trong quá trình xử lý hậu kỳ, mô hình dự đoán trực tiếp các hộp giới hạn, giúp đơn giản hóa việc triển khai và ổn định độ trễ suy luận.

"Túi quà tặng" được tích hợp vào RTDETRv2 giúp tăng cường khả năng xử lý các cảnh phức tạp và các đối tượng chồng chéo, vì cơ chế chú ý toàn cục vốn dĩ hiểu rõ các mối quan hệ không gian hơn so với các phép tích chập cục bộ.

Mức sử dụng bộ nhớ của Transformer

Mặc dù các bộ chuyển đổi hình ảnh (transformers) rất giỏi trong việc hiểu các cảnh phức tạp, nhưng chúng thường yêu cầu hiệu năng cao hơn đáng kể. CUDA Bộ nhớ trong quá trình huấn luyện so với mạng CNN. Điều này có thể hạn chế kích thước batch trên các GPU tiêu chuẩn dành cho người dùng thông thường và làm tăng thời gian huấn luyện tổng thể.

Tìm hiểu thêm về RTDETR

YOLOv6 -3.0: Tối đa hóa năng suất công nghiệp

Xuất phát từ bộ phận Trí tuệ Nhân tạo Thị giác tại Meituan, YOLOv6 -3.0 được thiết kế đặc biệt để phục vụ như một thiết bị dò thế hệ tiếp theo cho các đường ống công nghiệp, nơi mà GPU Hiệu suất là yếu tố tối quan trọng.

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức: Meituan
Ngày: 13-01-2023
Arxiv: 2301.05586
GitHub: meituan/ YOLOv6

Trọng tâm kiến trúc

YOLOv6 -3.0 dựa trên nền tảng EfficientRep , được thiết kế tỉ mỉ để giảm thiểu chi phí truy cập bộ nhớ trên các bộ tăng tốc phần cứng như... NVIDIA GPU. Kiến trúc phần cổ tích hợp mô-đun Ghép nối hai chiều (Bi-directional Concatenation - BiC) để cải thiện khả năng kết hợp các đặc trưng trên các quy mô khác nhau.

Trong quá trình huấn luyện, nó sử dụng chiến lược Huấn luyện có hỗ trợ neo (AAT) để tận dụng các mô hình dựa trên neo, đồng thời duy trì chế độ suy luận không neo để thực thi nhanh hơn. Mặc dù nó đạt được thông lượng vượt trội trên các GPU cấp máy chủ (ví dụ: T4, A100), kiến trúc chuyên biệt của nó có thể dẫn đến độ trễ không tối ưu khi triển khai trên các thiết bị biên chỉ có CPU.

Tìm hiểu thêm về YOLOv6

So sánh hiệu suất

Khi đánh giá các mô hình để sản xuất, cần cân bằng độ chính xác ( mAP Việc so sánh tốc độ suy luận và chi phí tính toán (FLOPs) là rất quan trọng. Bảng dưới đây minh họa cách các mô hình này so sánh với nhau.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

Trong khi YOLOv6 -3.0 vượt trội về tốc độ xử lý tuyệt đối trên TensorRT RTDETRv2 thu được nhiều dữ liệu hơn mAP Điểm số, đặc biệt là khả năng mở rộng tốt hơn với các biến thể mô hình lớn hơn. Tuy nhiên, cả hai mô hình đều thiếu tính linh hoạt rộng rãi được tìm thấy trong các khung thống nhất hiện đại. YOLOv6 - Phiên bản 3.0 chủ yếu là một công cụ chuyên về phát hiện đối tượng, thiếu hỗ trợ gốc cho các tác vụ như phân đoạn đối tượng và ước tính tư thế .

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa RT-DETR và YOLOv6 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên lựa chọn RT-DETR

RT-DETR là một lựa chọn tốt cho:

Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer để phát hiện đối tượng đầu cuối mà không cần NMS.
Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác detect là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút có thể chấp nhận được.
Phát hiện đối tượng lớn: Các cảnh với chủ yếu các đối tượng từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Khi nào nên chọn YOLOv6

YOLOv6 được khuyến nghị cho:

Triển khai công nghiệp nhận biết phần cứng: Các kịch bản mà thiết kế nhận biết phần cứng và tái tham số hóa hiệu quả của mô hình mang lại hiệu suất tối ưu trên phần cứng mục tiêu cụ thể.
Phát hiện một giai đoạn nhanh: Các ứng dụng ưu tiên tốc độ suy luận thô trên GPU để xử lý video thời gian thực trong môi trường được kiểm soát.
Tích hợp hệ sinh thái Meituan: Các nhóm đã làm việc trong ngăn xếp công nghệ và cơ sở hạ tầng triển khai của Meituan.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Lợi thế của Ultralytics

Việc lựa chọn mô hình phù hợp không chỉ dựa vào các con số hiệu suất thô trên benchmark; trải nghiệm của nhà phát triển, tính linh hoạt trong triển khai và sự hỗ trợ của hệ sinh thái cũng quan trọng không kém. Bằng cách sử dụng các mô hình được tích hợp trong nền tảng Ultralytics, người dùng sẽ có được những lợi thế đáng kể so với các kho lưu trữ nghiên cứu tĩnh.

Dễ sử dụng: Hàm ultralytics Python Gói này cung cấp API liền mạch. Việc huấn luyện, xác thực và xuất mô hình chỉ mất vài dòng mã.
Hệ sinh thái được duy trì tốt: Không giống như các kho lưu trữ học thuật riêng lẻ, Nền tảng Ultralytics được cập nhật tích cực. Nó tự hào có các tích hợp mạnh mẽ cho các công cụ như ONNX, OpenVINO và CoreML.
Hiệu quả huấn luyện: Các mô hình Ultralytics thường tiêu thụ VRAM thấp hơn đáng kể trong quá trình huấn luyện so với các kiến trúc transformer như RTDETRv2, cho phép sử dụng kích thước lô lớn hơn trên phần cứng phổ thông.
Tính linh hoạt: Không giống như phạm vi tập trung của YOLOv6-3.0, các mô hình Ultralytics là đa phương thức, hỗ trợ tự nhiên phân loại ảnh, hộp giới hạn định hướng (OBB) và phân đoạn trong một framework thống nhất duy nhất.

Triển khai tinh gọn

Sử dụng Ultralytics CLI Việc xuất mô hình đã được huấn luyện để triển khai trên thiết bị biên rất đơn giản, chỉ cần chạy lệnh sau: yolo export model=yolo11n.pt format=tensorrt.

Hãy cùng khám phá YOLO26: Giải pháp tối ưu

Trong khi RTDETRv2 và YOLOv6 -3.0 mang lại những lợi ích cụ thể, lĩnh vực này phát triển nhanh chóng. Đối với các nhóm bắt đầu các dự án thị giác máy tính mới, chúng tôi đặc biệt khuyên dùng YOLO26 , được phát hành bởi Ultralytics vào tháng 1 năm 2026.

YOLO26 kết hợp những ưu điểm của mạng CNN công nghiệp và các mô hình Transformer hiện đại đồng thời loại bỏ những nhược điểm tương ứng của chúng:

Thiết kế không NMS đầu cuối: Kế thừa đột phá lần đầu tiên được giới thiệu trong YOLOv10, YOLO26 loại bỏ xử lý hậu kỳ NMS một cách tự nhiên, đảm bảo triển khai ổn định, dễ dự đoán tương tự như RTDETRv2 nhưng với chi phí thấp hơn nhiều.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM tiên tiến (như Kimi K2 của Moonshot AI), trình tối ưu hóa lai này đảm bảo huấn luyện ổn định và hội tụ nhanh hơn, khắc phục sự bất ổn nổi tiếng của các bộ biến đổi thị giác truyền thống.
Tối ưu hóa cho thiết bị biên: Với tốc độ suy luận CPU nhanh hơn tới 43% so với các thế hệ trước và việc loại bỏ chiến lược Distribution Focal Loss (DFL), YOLO26 hoàn toàn phù hợp cho các thiết bị di động và IoT nơi không có khả năng tăng tốc GPU.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, một thách thức lịch sử đối với các mạng CNN, khiến YOLO26 trở nên lý tưởng cho ảnh chụp từ trên không và robot học.

Ví dụ huấn luyện

Trực giác Ultralytics API cho phép bạn huấn luyện các mô hình tiên tiến một cách liền mạch. Dưới đây là một ví dụ có thể chạy được, minh họa cách huấn luyện mô hình YOLO26 Nano trên tập dữ liệu COCO8 :

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

Tóm tắt

Khi so sánh RTDETRv2 và YOLOv6 -3.0, quyết định phần lớn phụ thuộc vào phần cứng cụ thể và các ràng buộc về độ trễ của bạn. RTDETRv2 thể hiện xuất sắc trong môi trường nghiên cứu và xử lý phía máy chủ, nơi việc xử lý các đối tượng chồng chéo phức tạp là rất quan trọng. YOLOv6 -3.0 vẫn là lựa chọn mạnh mẽ cho các dây chuyền sản xuất năng suất cao được trang bị hệ thống mạnh mẽ. NVIDIA GPU.

Tuy nhiên, đối với các nhà phát triển đang tìm kiếm những điều tốt nhất của cả hai thế giới—kết hợp NMS Với sự thanh lịch vượt trội của các mô hình Transformer kết hợp với tốc độ xử lý cực nhanh và dung lượng bộ nhớ thấp của mạng CNN, YOLO26 thực sự không có đối thủ. Được hỗ trợ bởi tài liệu toàn diện và cộng đồng năng động của hệ sinh thái Ultralytics , YOLO26 đảm bảo các dự án AI xử lý hình ảnh của bạn mạnh mẽ, có khả năng mở rộng và bền vững trong tương lai.