Link to this sectionRTDETRv2 so với YOLOv6-3.0#

Bối cảnh thị giác máy tính không ngừng phát triển, mang đến cho các nhà phát triển vô vàn lựa chọn về kiến trúc cho việc phát hiện đối tượng. Hai mô hình nổi bật đại diện cho các cách tiếp cận khác biệt là RTDETRv2, một vision transformer tiên tiến, và YOLOv6-3.0, một mạng thần kinh tích chập (CNN) được tối ưu hóa cao dành riêng cho các ứng dụng công nghiệp.

Bài so sánh kỹ thuật toàn diện này khám phá kiến trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng của từng mô hình. Chúng ta cũng sẽ xem xét cách hệ sinh thái Ultralytics cung cấp trải nghiệm vượt trội cho nhà phát triển, cuối cùng hướng tới các khả năng thế hệ tiếp theo của Ultralytics YOLO26.

Link to this sectionRTDETRv2: Cách tiếp cận Vision Transformer#

Được phát triển bởi các nhà nghiên cứu tại Baidu, RTDETRv2 được xây dựng dựa trên nền tảng của RT-DETR gốc, đại diện cho một bước nhảy vọt đáng kể trong lĩnh vực phát hiện đối tượng dựa trên transformer.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu
Ngày: 24-07-2024
Arxiv: 2407.17140
GitHub: lyuwenyu/RT-DETR
Tài liệu: RTDETRv2 GitHub README

Link to this sectionĐiểm nổi bật về kiến trúc#

RTDETRv2 sử dụng kiến trúc lai kết hợp bộ trích xuất đặc trưng CNN với bộ giải mã transformer mạnh mẽ. Đặc điểm xác định nhất của mô hình này là thiết kế không sử dụng NMS. Bằng cách loại bỏ Non-Maximum Suppression (NMS) trong quá trình xử lý hậu kỳ, mô hình dự đoán trực tiếp các bounding box, điều này giúp đơn giản hóa việc triển khai và ổn định độ trễ suy luận.

"Bag-of-Freebies" được tích hợp trong RTDETRv2 giúp nâng cao khả năng xử lý các cảnh phức tạp và các đối tượng chồng lấp, vì các cơ chế chú ý toàn cục hiểu rõ các mối quan hệ không gian tốt hơn các phép tích chập cục bộ.

Sử dụng bộ nhớ Transformer

Mặc dù transformer vượt trội trong việc hiểu các cảnh phức tạp, chúng thường yêu cầu bộ nhớ CUDA cao hơn đáng kể trong quá trình huấn luyện so với CNN. Điều này có thể hạn chế kích thước batch trên các GPU tiêu dùng thông thường và làm tăng thời gian huấn luyện tổng thể.

Tìm hiểu thêm về RTDETR

Link to this sectionYOLOv6-3.0: Tối đa hóa thông lượng công nghiệp#

Xuất phát từ Bộ phận AI Thị giác tại Meituan, YOLOv6-3.0 được kỹ sư thiết kế rõ ràng để phục vụ như một bộ phát hiện thế hệ tiếp theo cho các đường ống công nghiệp, nơi thông lượng GPU là ưu tiên hàng đầu.

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức: Meituan
Ngày: 2023-01-13
Arxiv: 2301.05586
GitHub: meituan/YOLOv6

Link to this sectionTrọng tâm kiến trúc#

YOLOv6-3.0 dựa trên backbone EfficientRep, được thiết kế tỉ mỉ để giảm thiểu chi phí truy cập bộ nhớ trên các bộ tăng tốc phần cứng như GPU NVIDIA. Kiến trúc cổ của nó có mô-đun Bi-directional Concatenation (BiC) để cải thiện việc kết hợp đặc trưng trên các quy mô khác nhau.

Trong quá trình huấn luyện, nó sử dụng chiến lược Anchor-Aided Training (AAT) để hưởng lợi từ các mô hình dựa trên anchor trong khi vẫn duy trì chế độ suy luận không cần anchor để thực thi nhanh hơn. Mặc dù đạt được thông lượng vượt trội trên các GPU cấp máy chủ (ví dụ: T4, A100), kiến trúc chuyên biệt của nó có thể dẫn đến độ trễ không tối ưu khi triển khai trên các thiết bị biên chỉ dùng CPU.

Tìm hiểu thêm về YOLOv6

Link to this sectionSo sánh hiệu năng#

Khi đánh giá các mô hình cho sản xuất, việc cân bằng độ chính xác (mAP) với tốc độ suy luận và chi phí tính toán (FLOPs) là rất quan trọng. Bảng dưới đây minh họa cách các mô hình này so sánh với nhau.

Mô hình	kích thước ^(pixel)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

Trong khi YOLOv6-3.0 chiếm ưu thế về tốc độ xử lý thuần túy trên TensorRT, RTDETRv2 đạt được điểm mAP cao hơn, đặc biệt là khi mở rộng quy mô với các biến thể mô hình lớn hơn. Tuy nhiên, cả hai mô hình đều thiếu sự linh hoạt rộng rãi có trong các framework thống nhất hiện đại. YOLOv6-3.0 chủ yếu là một chuyên gia phát hiện, thiếu hỗ trợ gốc cho các tác vụ như phân đoạn đối tượng và ước tính tư thế ngay từ đầu.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa RT-DETR và YOLOv6 phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn RT-DETR#

RT-DETR là lựa chọn mạnh mẽ cho:

Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer cho phát hiện vật thể end-to-end không cần NMS.
Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là có thể chấp nhận được.
Phát hiện vật thể lớn: Các cảnh chủ yếu có vật thể từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Link to this sectionKhi nào nên chọn YOLOv6#

YOLOv6 được khuyến nghị cho:

Triển khai chú trọng phần cứng công nghiệp: Các kịch bản mà thiết kế chú trọng phần cứng của mô hình và khả năng tái tham số hóa hiệu quả mang lại hiệu năng tối ưu trên phần cứng mục tiêu cụ thể.
Phát hiện single-stage nhanh: Các ứng dụng ưu tiên tốc độ inference thô trên GPU để xử lý video thời gian thực trong các môi trường được kiểm soát.
Tích hợp hệ sinh thái Meituan: Các đội ngũ đã và đang làm việc trong hệ sinh thái công nghệ và hạ tầng triển khai của Meituan.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionLợi thế từ Ultralytics#

Việc chọn mô hình phù hợp không chỉ bao gồm các con số chuẩn thuần túy; trải nghiệm nhà phát triển, sự linh hoạt trong triển khai và hỗ trợ hệ sinh thái cũng quan trọng không kém. Bằng cách sử dụng các mô hình được tích hợp trong nền tảng Ultralytics, người dùng đạt được những lợi thế đáng kể so với các kho lưu trữ nghiên cứu tĩnh.

Dễ sử dụng: Gói Python ultralytics cung cấp một API liền mạch. Việc huấn luyện, xác thực và xuất mô hình chỉ mất vài dòng code.
Hệ sinh thái được bảo trì tốt: Không giống như các repo học thuật cô lập, Nền tảng Ultralytics được cập nhật tích cực. Nó tự hào có các tích hợp mạnh mẽ cho các công cụ như ONNX, OpenVINO và CoreML.
Hiệu quả huấn luyện: Các mô hình Ultralytics thường tiêu thụ VRAM thấp hơn đáng kể trong quá trình huấn luyện so với các kiến trúc transformer như RTDETRv2, cho phép kích thước batch lớn hơn trên phần cứng cấp tiêu dùng.
Sự linh hoạt: Không giống như phạm vi tập trung của YOLOv6-3.0, các mô hình Ultralytics là đa phương thức, hỗ trợ gốc phân loại hình ảnh, oriented bounding boxes (OBB) và phân đoạn trong một framework thống nhất duy nhất.

Triển khai hợp lý

Sử dụng CLI của Ultralytics, việc xuất một mô hình đã huấn luyện cho triển khai biên đơn giản như chạy lệnh: yolo export model=yolo11n.pt format=tensorrt.

Link to this sectionGiới thiệu YOLO26: Giải pháp tối ưu#

Trong khi RTDETRv2 và YOLOv6-3.0 cung cấp những lợi ích cụ thể, lĩnh vực này di chuyển rất nhanh. Đối với các nhóm bắt đầu các dự án thị giác máy tính mới, chúng tôi đặc biệt đề xuất YOLO26, được Ultralytics phát hành vào tháng 1 năm 2026.

YOLO26 tổng hợp các thế mạnh của CNN công nghiệp và transformer hiện đại trong khi loại bỏ các điểm yếu tương ứng của chúng:

Thiết kế không NMS từ đầu đến cuối: Áp dụng bước đột phá lần đầu được giới thiệu trong YOLOv10, YOLO26 loại bỏ xử lý hậu kỳ NMS một cách tự nhiên, đảm bảo việc triển khai ổn định, có thể dự đoán được tương tự như RTDETRv2 nhưng với chi phí quản lý thấp hơn nhiều.
Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM tiên tiến (như Kimi K2 của Moonshot AI), bộ tối ưu hóa lai này đảm bảo việc huấn luyện ổn định và hội tụ nhanh hơn, vượt qua sự bất ổn khét tiếng của các vision transformer truyền thống.
Tối ưu hóa cho thiết bị biên: Với khả năng suy luận CPU nhanh hơn tới 43% so với các thế hệ trước và việc loại bỏ chiến lược Distribution Focal Loss (DFL), YOLO26 hoàn toàn phù hợp cho các thiết bị di động và IoT nơi không có tăng tốc GPU.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng chú ý trong việc nhận dạng đối tượng nhỏ, một thách thức lịch sử đối với CNN, làm cho YOLO26 trở nên lý tưởng cho hình ảnh từ trên không và robot.

Link to this sectionVí dụ về huấn luyện#

API trực quan của Ultralytics cho phép bạn huấn luyện các mô hình tiên tiến một cách liền mạch. Dưới đây là một ví dụ có thể chạy được minh họa cách huấn luyện mô hình YOLO26 Nano trên tập dữ liệu COCO8:

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

Link to this sectionTóm tắt#

Khi so sánh RTDETRv2 và YOLOv6-3.0, quyết định phần lớn phụ thuộc vào phần cứng và các ràng buộc độ trễ cụ thể của bạn. RTDETRv2 tỏa sáng trong các môi trường nghiên cứu và xử lý phía máy chủ, nơi việc xử lý các đối tượng chồng lấp phức tạp là rất quan trọng. YOLOv6-3.0 vẫn là một lựa chọn mạnh mẽ cho các dây chuyền sản xuất có thông lượng cao được trang bị các GPU NVIDIA mạnh mẽ.

Tuy nhiên, đối với các nhà phát triển tìm kiếm sự kết hợp tốt nhất của cả hai thế giới—kết hợp sự thanh lịch không NMS của transformer với tốc độ chóng mặt và dấu chân bộ nhớ thấp của CNN—YOLO26 là không đối thủ. Được hỗ trợ bởi tài liệu toàn diện và cộng đồng tích cực của hệ sinh thái Ultralytics, YOLO26 đảm bảo các dự án AI thị giác của bạn mạnh mẽ, có khả năng mở rộng và sẵn sàng cho tương lai.

Người đóng góp

GLglenn-jocher¹⁴ PDpderrenger¹

Đã tạo 27 thg 1, 2025Đã cập nhật 3 tuần trước