RTDETRv2 so với YOLOv6-3.0: Đánh giá các Transformer thời gian thực so với CNN công nghiệp

Bối cảnh thị giác máy tính đang không ngừng phát triển, mang đến cho các lập trình viên vô số lựa chọn về kiến trúc cho bài toán phát hiện đối tượng. Hai model nổi bật đại diện cho các cách tiếp cận khác biệt là RTDETRv2, một vision transformer tiên tiến, và YOLOv6-3.0, một mạng thần kinh tích chập (CNN) được tối ưu hóa cao dành riêng cho các ứng dụng công nghiệp.

Bài so sánh kỹ thuật toàn diện này khám phá kiến trúc, chỉ số hiệu năng và các kịch bản triển khai lý tưởng của từng model. Chúng ta cũng sẽ xem xét cách hệ sinh thái Ultralytics mang đến trải nghiệm vượt trội cho lập trình viên, đồng thời hướng tới các khả năng thế hệ mới của Ultralytics YOLO26.

RTDETRv2: Cách tiếp cận Vision Transformer

Được phát triển bởi các nhà nghiên cứu tại Baidu, RTDETRv2 được xây dựng trên nền tảng của RT-DETR gốc, đại diện cho một bước tiến đáng kể trong phát hiện đối tượng dựa trên transformer.

Các điểm nổi bật về kiến trúc

RTDETRv2 sử dụng kiến trúc lai kết hợp bộ trích xuất đặc trưng CNN với bộ giải mã transformer mạnh mẽ. Đặc điểm xác định nhất của model này là thiết kế loại bỏ hoàn toàn NMS. Bằng cách loại bỏ Non-Maximum Suppression (NMS) trong quá trình hậu xử lý, model dự đoán các bounding box trực tiếp, giúp đơn giản hóa việc triển khai và ổn định độ trễ suy luận.

Bộ "Bag-of-Freebies" được tích hợp trong RTDETRv2 tăng cường khả năng xử lý các cảnh phức tạp và các đối tượng chồng chéo, vì cơ chế chú ý toàn cục hiểu các mối quan hệ không gian tốt hơn so với các phép tích chập cục bộ.

Mức sử dụng bộ nhớ Transformer

Mặc dù các transformer vượt trội trong việc hiểu các cảnh phức tạp, chúng thường yêu cầu bộ nhớ CUDA cao hơn đáng kể trong quá trình huấn luyện so với CNN. Điều này có thể giới hạn kích thước batch trên các GPU tiêu dùng phổ thông và làm tăng tổng thời gian huấn luyện.

Tìm hiểu thêm về RTDETR

YOLOv6-3.0: Tối đa hóa lưu lượng công nghiệp

Bắt nguồn từ Bộ phận AI thị giác tại Meituan, YOLOv6-3.0 được thiết kế rõ ràng để phục vụ như một bộ phát hiện thế hệ tiếp theo cho các đường ống công nghiệp, nơi lưu lượng GPU là ưu tiên hàng đầu.

  • Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
  • Tổ chức: Meituan
  • Ngày: 2023-01-13
  • Arxiv: 2301.05586
  • GitHub: meituan/YOLOv6

Trọng tâm kiến trúc

YOLOv6-3.0 dựa trên backbone EfficientRep, được thiết kế tỉ mỉ để giảm thiểu chi phí truy cập bộ nhớ trên các bộ tăng tốc phần cứng như GPU NVIDIA. Kiến trúc neck có mô-đun Bi-directional Concatenation (BiC) để cải thiện sự hợp nhất đặc trưng qua các quy mô khác nhau.

Trong quá trình huấn luyện, nó sử dụng chiến lược Anchor-Aided Training (AAT) để hưởng lợi từ các mô hình dựa trên anchor trong khi vẫn duy trì chế độ suy luận không cần anchor để thực thi nhanh hơn. Mặc dù đạt được lưu lượng vượt trội trên các GPU cấp máy chủ (ví dụ: T4, A100), kiến trúc chuyên dụng của nó có thể dẫn đến độ trễ không tối ưu khi triển khai trên các thiết bị biên chỉ dùng CPU.

Tìm hiểu thêm về YOLOv6

So sánh hiệu năng

Khi đánh giá các model cho môi trường sản xuất, việc cân bằng giữa độ chính xác (mAP) với tốc độ suy luận và chi phí tính toán (FLOPs) là rất quan trọng. Bảng dưới đây minh họa cách các model này so sánh với nhau.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Trong khi YOLOv6-3.0 chiếm ưu thế về tốc độ xử lý thuần túy trên TensorRT, RTDETRv2 đạt được điểm mAP cao hơn, đặc biệt là khả năng mở rộng tốt hơn với các biến thể model lớn hơn. Tuy nhiên, cả hai model đều thiếu sự linh hoạt rộng rãi có trong các framework thống nhất hiện đại. YOLOv6-3.0 chủ yếu là một chuyên gia về phát hiện, thiếu hỗ trợ gốc cho các tác vụ như phân đoạn cá thểước tính tư thế ngay khi cài đặt.

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa RT-DETR và YOLOv6 phụ thuộc vào yêu cầu dự án cụ thể, hạn chế triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn RT-DETR

RT-DETR là lựa chọn mạnh mẽ cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá các cơ chế chú ý và kiến trúc transformer cho việc phát hiện đối tượng end-to-end mà không cần NMS.
  • Các tình huống có độ chính xác cao với độ trễ linh hoạt: Các ứng dụng nơi độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là điều có thể chấp nhận được.
  • Phát hiện đối tượng lớn: Các cảnh có các đối tượng từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Khi nào nên chọn YOLOv6

YOLOv6 được khuyến nghị cho:

  • Triển khai hướng đến phần cứng công nghiệp: Các kịch bản mà thiết kế hướng phần cứng và khả năng tái tham số hóa hiệu quả của mô hình mang lại hiệu suất tối ưu trên phần cứng mục tiêu cụ thể.
  • Phát hiện một giai đoạn nhanh: Các ứng dụng ưu tiên tốc độ suy luận thô trên GPU cho xử lý video thời gian thực trong môi trường được kiểm soát.
  • Tích hợp hệ sinh thái Meituan: Các đội ngũ đã và đang làm việc trong hệ thống công nghệ và cơ sở hạ tầng triển khai của Meituan.

Khi nào nên chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu suất và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Ưu thế của Ultralytics

Việc chọn model phù hợp không chỉ nằm ở những con số benchmark thô; trải nghiệm của lập trình viên, sự linh hoạt trong triển khai và hỗ trợ hệ sinh thái cũng quan trọng không kém. Bằng cách sử dụng các model được tích hợp trong nền tảng Ultralytics, người dùng có được những lợi thế đáng kể so với các kho lưu trữ nghiên cứu tĩnh.

  • Dễ sử dụng: Gói Python ultralytics cung cấp một API liền mạch. Việc huấn luyện, xác thực và xuất model chỉ mất vài dòng code.
  • Hệ sinh thái được bảo trì tốt: Không giống như các repo học thuật cô lập, Nền tảng Ultralytics được cập nhật liên tục. Nó tự hào với các tích hợp mạnh mẽ cho các công cụ như ONNX, OpenVINO và CoreML.
  • Hiệu quả huấn luyện: Các model Ultralytics thường tiêu thụ VRAM thấp hơn đáng kể trong quá trình huấn luyện so với các kiến trúc transformer như RTDETRv2, cho phép kích thước batch lớn hơn trên phần cứng tiêu dùng.
  • Tính linh hoạt: Không giống như phạm vi tập trung của YOLOv6-3.0, các model Ultralytics là đa phương thức, hỗ trợ gốc phân loại hình ảnh, oriented bounding boxes (OBB) và phân đoạn trong một framework thống nhất duy nhất.
Triển khai tinh gọn

Sử dụng CLI của Ultralytics, việc xuất một model đã huấn luyện để triển khai ở biên đơn giản như chạy lệnh: yolo export model=yolo11n.pt format=tensorrt.

Giới thiệu YOLO26: Giải pháp tối ưu

Trong khi RTDETRv2 và YOLOv6-3.0 mang lại những lợi ích cụ thể, lĩnh vực này di chuyển rất nhanh. Đối với các đội ngũ bắt đầu các dự án thị giác máy tính mới, chúng tôi đặc biệt khuyến nghị YOLO26, được Ultralytics phát hành vào tháng 1 năm 2026.

YOLO26 tổng hợp các thế mạnh của CNN công nghiệp và các transformer hiện đại, đồng thời loại bỏ những điểm yếu tương ứng của chúng:

  • Thiết kế End-to-End không cần NMS: Áp dụng bước đột phá được giới thiệu lần đầu trong YOLOv10, YOLO26 loại bỏ hậu xử lý NMS một cách nguyên bản, đảm bảo việc triển khai ổn định, có thể dự đoán được tương tự như RTDETRv2 nhưng với chi phí quản lý thấp hơn nhiều.
  • Trình tối ưu hóa MuSGD: Được lấy cảm hứng từ các kỹ thuật huấn luyện LLM tiên tiến (như Kimi K2 của Moonshot AI), trình tối ưu hóa lai này đảm bảo quá trình huấn luyện ổn định và hội tụ nhanh hơn, khắc phục sự bất ổn khét tiếng của các vision transformer truyền thống.
  • Tối ưu hóa cho thiết bị biên: Với tốc độ suy luận CPU nhanh hơn tới 43% so với các thế hệ trước và việc loại bỏ chiến lược Distribution Focal Loss (DFL), YOLO26 hoàn toàn phù hợp cho các thiết bị di động và IoT nơi không có khả năng tăng tốc GPU.
  • ProgLoss + STAL: Các hàm loss tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện đối tượng nhỏ, một thách thức lịch sử đối với CNN, làm cho YOLO26 trở nên lý tưởng cho hình ảnh trên không và robot.

Ví dụ về huấn luyện

API trực quan của Ultralytics cho phép bạn huấn luyện các model tiên tiến một cách liền mạch. Dưới đây là một ví dụ có thể chạy được minh họa cách huấn luyện model YOLO26 Nano trên tập dữ liệu COCO8:

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

Tóm tắt

Khi so sánh RTDETRv2 và YOLOv6-3.0, quyết định phần lớn phụ thuộc vào phần cứng và các hạn chế về độ trễ cụ thể của bạn. RTDETRv2 tỏa sáng trong các môi trường nghiên cứu và xử lý phía máy chủ, nơi việc xử lý các đối tượng chồng chéo phức tạp là rất quan trọng. YOLOv6-3.0 vẫn là một lựa chọn mạnh mẽ cho các dây chuyền sản xuất có lưu lượng cao được trang bị GPU NVIDIA mạnh mẽ.

Tuy nhiên, đối với các lập trình viên tìm kiếm sự kết hợp tốt nhất của cả hai thế giới—kết hợp sự tinh tế không cần NMS của transformer với tốc độ cực nhanh và dung lượng bộ nhớ thấp của CNN—YOLO26 là vô đối. Được hỗ trợ bởi tài liệu toàn diện và cộng đồng tích cực của hệ sinh thái Ultralytics, YOLO26 đảm bảo các dự án AI thị giác của bạn mạnh mẽ, có khả năng mở rộng và sẵn sàng cho tương lai.

Bình luận