Chuyển đến nội dung

RTDETRv2 so với... YOLOv6 -3.0: Đánh giá các mô hình Transformer thời gian thực so với các mạng CNN công nghiệp

Lĩnh vực thị giác máy tính liên tục phát triển, mang đến cho các nhà phát triển vô số lựa chọn kiến ​​trúc cho việc phát hiện đối tượng. Hai mô hình nổi bật đại diện cho các phương pháp tiếp cận khác nhau là RTDETRv2 , một bộ chuyển đổi thị giác tiên tiến, và YOLOv6 , một mạng nơ-ron tích chập (CNN) được tối ưu hóa cao, chuyên dụng cho các ứng dụng công nghiệp.

Bài so sánh kỹ thuật toàn diện này sẽ khám phá kiến ​​trúc, các chỉ số hiệu năng và kịch bản triển khai lý tưởng của từng sản phẩm. Chúng ta cũng sẽ xem xét hệ sinh thái Ultralytics rộng lớn hơn mang lại trải nghiệm phát triển vượt trội như thế nào, và cuối cùng hướng đến các khả năng thế hệ tiếp theo của Ultralytics YOLO26 .

RTDETRv2: Phương pháp chuyển đổi tầm nhìn

Được phát triển bởi các nhà nghiên cứu tại Baidu, RTDETRv2 được xây dựng dựa trên nền tảng của phiên bản gốc. RT-DETR Điều này đánh dấu một bước tiến đáng kể trong việc phát hiện đối tượng dựa trên mô hình Transformer.

Điểm nổi bật về kiến trúc

RTDETRv2 sử dụng kiến ​​trúc lai kết hợp bộ trích xuất đặc trưng CNN với bộ giải mã Transformer mạnh mẽ. Đặc điểm nổi bật nhất của mô hình này là khả năng xử lý dữ liệu gốc. NMS - thiết kế không cần bảo vệ. Bằng cách loại bỏ hiện tượng triệt tiêu không tối đa ( NMS Trong quá trình xử lý hậu kỳ, mô hình dự đoán trực tiếp các hộp giới hạn, giúp đơn giản hóa việc triển khai và ổn định độ trễ suy luận.

"Túi quà tặng" được tích hợp vào RTDETRv2 giúp tăng cường khả năng xử lý các cảnh phức tạp và các đối tượng chồng chéo, vì cơ chế chú ý toàn cục vốn dĩ hiểu rõ các mối quan hệ không gian hơn so với các phép tích chập cục bộ.

Mức sử dụng bộ nhớ của Transformer

Mặc dù các bộ chuyển đổi hình ảnh (transformers) rất giỏi trong việc hiểu các cảnh phức tạp, nhưng chúng thường yêu cầu hiệu năng cao hơn đáng kể. CUDA Bộ nhớ trong quá trình huấn luyện so với mạng CNN. Điều này có thể hạn chế kích thước batch trên các GPU tiêu chuẩn dành cho người dùng thông thường và làm tăng thời gian huấn luyện tổng thể.

Tìm hiểu thêm về RTDETR

YOLOv6 -3.0: Tối đa hóa năng suất công nghiệp

Xuất phát từ bộ phận Trí tuệ Nhân tạo Thị giác tại Meituan, YOLOv6 -3.0 được thiết kế đặc biệt để phục vụ như một thiết bị dò thế hệ tiếp theo cho các đường ống công nghiệp, nơi mà GPU Hiệu suất là yếu tố tối quan trọng.

  • Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
  • Tổ chức: Meituan
  • Ngày: 13/01/2023
  • Arxiv: 2301.05586
  • GitHub: meituan/ YOLOv6

Trọng tâm kiến ​​trúc

YOLOv6 -3.0 dựa trên nền tảng EfficientRep , được thiết kế tỉ mỉ để giảm thiểu chi phí truy cập bộ nhớ trên các bộ tăng tốc phần cứng như... NVIDIA GPU. Kiến trúc phần cổ tích hợp mô-đun Ghép nối hai chiều (Bi-directional Concatenation - BiC) để cải thiện khả năng kết hợp các đặc trưng trên các quy mô khác nhau.

Trong quá trình huấn luyện, nó sử dụng chiến lược Huấn luyện Hỗ trợ Neo (Anchor-Aided Training - AAT) để tận dụng các mô hình dựa trên neo trong khi vẫn duy trì chế độ suy luận không có neo nhằm tăng tốc độ thực thi. Mặc dù đạt được thông lượng vượt trội trên các GPU cấp máy chủ (ví dụ: T4, A100), kiến ​​trúc chuyên biệt của nó có thể dẫn đến độ trễ không tối ưu khi triển khai trên các hệ thống khác. CPU -Chỉ dành cho các thiết bị biên.

Tìm hiểu thêm về YOLOv6

So sánh hiệu suất

Khi đánh giá các mô hình để sản xuất, cần cân bằng độ chính xác ( mAP Việc so sánh tốc độ suy luận và chi phí tính toán (FLOPs) là rất quan trọng. Bảng dưới đây minh họa cách các mô hình này so sánh với nhau.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Trong khi YOLOv6 -3.0 vượt trội về tốc độ xử lý tuyệt đối trên TensorRT RTDETRv2 thu được nhiều dữ liệu hơn mAP Điểm số, đặc biệt là khả năng mở rộng tốt hơn với các biến thể mô hình lớn hơn. Tuy nhiên, cả hai mô hình đều thiếu tính linh hoạt rộng rãi được tìm thấy trong các khung thống nhất hiện đại. YOLOv6 - Phiên bản 3.0 chủ yếu là một công cụ chuyên về phát hiện đối tượng, thiếu hỗ trợ gốc cho các tác vụ như phân đoạn đối tượngước tính tư thế .

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa RT-DETR Và YOLOv6 Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên lựa chọn RT-DETR

RT-DETR là một lựa chọn tốt cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến ​​trúc Transformer để phát hiện đối tượng từ đầu đến cuối mà không cần NMS .
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là chấp nhận được.
  • Phát hiện vật thể lớn: Các cảnh chủ yếu chứa các vật thể có kích thước trung bình đến lớn, nơi cơ chế chú ý toàn cục của Transformer mang lại lợi thế tự nhiên.

Khi nào nên chọn YOLOv6

YOLOv6 được khuyến nghị cho:

  • Triển khai có nhận thức về phần cứng công nghiệp: Các kịch bản trong đó thiết kế có nhận thức về phần cứng của mô hình và việc tái tham số hiệu quả cung cấp hiệu suất tối ưu trên phần cứng mục tiêu cụ thể.
  • Phát hiện nhanh chóng trong một giai đoạn duy nhất: Các ứng dụng ưu tiên tốc độ suy luận thô trên GPU Dùng để xử lý video thời gian thực trong môi trường được kiểm soát.
  • Tích hợp hệ sinh thái Meituan: Các nhóm hiện đang làm việc trong hệ sinh thái công nghệ và cơ sở hạ tầng triển khai của Meituan .

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Lợi thế của Ultralytics

Việc lựa chọn mô hình phù hợp không chỉ dựa vào các con số hiệu năng thô; trải nghiệm của nhà phát triển, tính linh hoạt trong triển khai và sự hỗ trợ của hệ sinh thái cũng quan trọng không kém. Bằng cách sử dụng các mô hình được tích hợp trong... Ultralytics Với nền tảng này, người dùng có được những lợi thế đáng kể so với các kho lưu trữ nghiên cứu tĩnh.

  • Dễ sử dụng: Hàm ultralytics Python Gói này cung cấp API liền mạch. Việc huấn luyện, xác thực và xuất mô hình chỉ mất vài dòng mã.
  • Hệ sinh thái được duy trì tốt: Không giống như các kho lưu trữ học thuật biệt lập, Nền tảng Ultralytics được cập nhật thường xuyên. Nó tự hào có khả năng tích hợp mạnh mẽ với các công cụ như ONNX , OpenVINO và... CoreML .
  • Hiệu quả đào tạo: Ultralytics Các mô hình này thường tiêu thụ lượng VRAM thấp hơn đáng kể trong quá trình huấn luyện so với các kiến ​​trúc Transformer như RTDETRv2, cho phép sử dụng kích thước batch lớn hơn trên phần cứng cấp người tiêu dùng.
  • Tính linh hoạt: Không giống như phạm vi tập trung của... YOLOv6 -3.0, Ultralytics Các mô hình này đa phương thức, hỗ trợ phân loại hình ảnh , hộp giới hạn định hướng (OBB) và phân đoạn trong một khuôn khổ thống nhất duy nhất.

Triển khai tinh gọn

Sử dụng Ultralytics CLI Việc xuất mô hình đã được huấn luyện để triển khai trên thiết bị biên rất đơn giản, chỉ cần chạy lệnh sau: yolo export model=yolo11n.pt format=tensorrt.

Hãy cùng khám phá YOLO26: Giải pháp tối ưu

Trong khi RTDETRv2 và YOLOv6 -3.0 mang lại những lợi ích cụ thể, lĩnh vực này phát triển nhanh chóng. Đối với các nhóm bắt đầu các dự án thị giác máy tính mới, chúng tôi đặc biệt khuyên dùng YOLO26 , được phát hành bởi Ultralytics vào tháng 1 năm 2026.

YOLO26 kết hợp những ưu điểm của mạng CNN công nghiệp và các mô hình Transformer hiện đại đồng thời loại bỏ những nhược điểm tương ứng của chúng:

  • Thiết kế không cần NMS từ đầu đến cuối: Áp dụng bước đột phá lần đầu tiên được giới thiệu trong YOLOv10 , YOLO26 loại bỏ NMS Xử lý hậu kỳ trực tiếp, đảm bảo triển khai ổn định, dễ dự đoán tương tự như RTDETRv2 nhưng với chi phí vận hành thấp hơn nhiều.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM tiên tiến (như Kimi K2 của Moonshot AI), bộ tối ưu hóa lai này đảm bảo quá trình huấn luyện ổn định và hội tụ nhanh hơn, khắc phục được sự không ổn định nổi tiếng của các bộ chuyển đổi thị giác truyền thống.
  • Tối ưu hóa cho thiết bị biên: Với khả năng suy luận CPU nhanh hơn tới 43% so với các thế hệ trước và việc loại bỏ chiến lược hiện tượng suy hao tiêu điểm phân tán (DFL), YOLO26 hoàn toàn phù hợp với các thiết bị di động và IoT, nơi mà... GPU Chức năng tăng tốc không khả dụng.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong nhận dạng vật thể nhỏ, một thách thức lâu đời đối với mạng CNN, khiến YOLO26 trở nên lý tưởng cho ảnh chụp từ trên không và robot.

Ví dụ huấn luyện

Trực giác Ultralytics API cho phép bạn huấn luyện các mô hình tiên tiến một cách liền mạch. Dưới đây là một ví dụ có thể chạy được, minh họa cách huấn luyện mô hình YOLO26 Nano trên tập dữ liệu COCO8 :

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

Tóm tắt

Khi so sánh RTDETRv2 và YOLOv6 -3.0, quyết định phần lớn phụ thuộc vào phần cứng cụ thể và các ràng buộc về độ trễ của bạn. RTDETRv2 thể hiện xuất sắc trong môi trường nghiên cứu và xử lý phía máy chủ, nơi việc xử lý các đối tượng chồng chéo phức tạp là rất quan trọng. YOLOv6 -3.0 vẫn là lựa chọn mạnh mẽ cho các dây chuyền sản xuất năng suất cao được trang bị hệ thống mạnh mẽ. NVIDIA GPU.

Tuy nhiên, đối với các nhà phát triển đang tìm kiếm những điều tốt nhất của cả hai thế giới—kết hợp NMS Với sự thanh lịch vượt trội của các mô hình Transformer kết hợp với tốc độ xử lý cực nhanh và dung lượng bộ nhớ thấp của mạng CNN, YOLO26 thực sự không có đối thủ. Được hỗ trợ bởi tài liệu toàn diện và cộng đồng năng động của hệ sinh thái Ultralytics , YOLO26 đảm bảo các dự án AI xử lý hình ảnh của bạn mạnh mẽ, có khả năng mở rộng và bền vững trong tương lai.


Bình luận