RTDETRv2 so với DAMO- YOLO Cuộc chiến giành độ chính xác thời gian thực

Việc tìm kiếm kiến trúc phát hiện đối tượng tối ưu thường liên quan đến sự đánh đổi giữa mô hình ngữ cảnh toàn cục của Transformer và tốc độ của Mạng nơ-ron tích chập (CNN). Hai ứng cử viên hàng đầu trong lĩnh vực này là RTDETRv2 và DAMO- YOLO . RTDETRv2, phiên bản thứ hai của Transformer phát hiện thời gian thực của Baidu, tận dụng cơ chế chú ý để loại bỏ nhu cầu về loại bỏ cực đại không cần thiết (Non-Maximum Suppression). NMS Ngược lại, DAMO- YOLO Từ tập đoàn Alibaba, chúng tôi tập trung vào Tìm kiếm Kiến trúc Mạng nơ-ron (NAS) và tái tham số hóa hiệu quả để khai thác tối đa hiệu năng từ các cấu trúc CNN truyền thống.

Hướng dẫn này cung cấp phân tích chuyên sâu về kiến trúc, hiệu năng và các kịch bản triển khai lý tưởng của chúng, giúp các nhà phát triển có được những hiểu biết cần thiết để lựa chọn công cụ phù hợp cho các dự án thị giác máy tính của họ.

Tóm tắt điều hành

RTDETRv2 là lựa chọn tuyệt vời cho các ứng dụng yêu cầu độ chính xác cao trong môi trường phức tạp, nơi các đối tượng có thể chồng chéo đáng kể. Thiết kế dựa trên Transformer của nó xử lý ngữ cảnh toàn cục một cách tự nhiên, giúp nó mạnh mẽ chống lại sự che khuất. Tuy nhiên, điều này đi kèm với chi phí là yêu cầu tính toán cao hơn, đặc biệt là trên các thiết bị biên.

DAMO- YOLO vượt trội trong các kịch bản công nghiệp ưu tiên độ trễ thấp trên phần cứng tiêu chuẩn. Việc sử dụng NAS và thiết kế đường trục hiệu quả giúp nó hoạt động hiệu quả cao trong các tác vụ sản xuất và kiểm tra thời gian thực. Mặc dù nhanh, nó dựa trên các phương pháp dựa trên điểm neo truyền thống, có thể nhạy cảm với việc điều chỉnh siêu tham số so với bản chất đầu cuối của các bộ chuyển đổi.

Dành cho những ai tìm kiếm sự kết hợp hoàn hảo giữa tốc độ vượt trội và khả năng xử lý toàn diện. NMS - Không cần suy luận phức tạp và dễ sử dụng - mô hình Ultralytics YOLO26 cung cấp một giải pháp thay thế vượt trội, kết hợp những tối ưu hóa mới nhất trong hàm mất mát và cải tiến được nâng cao. CPU hiệu suất.

RTDETRv2: Tinh chỉnh Transformer Thời gian Thực

RTDETRv2 (Real-Time Detection Transformer v2) được xây dựng dựa trên thành công của RT-DETR phiên bản gốc, tiếp tục tinh chỉnh bộ mã hóa lai và lựa chọn truy vấn có tính đến sự không chắc chắn. Mục tiêu của nó là giải quyết nút thắt cổ chai về độ trễ thường thấy ở các mô hình transformer trong khi vẫn duy trì độ chính xác vượt trội của chúng.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu
Ngày: 17 tháng 4 năm 2023
Arxiv: Bài báo RTDETRv2
GitHub: lyuwenyu/ RT-DETR

Tìm hiểu thêm về RT-DETR

Các Đổi Mới Kiến Trúc Chính

Bộ mã hóa lai: Xử lý hiệu quả các đặc trưng đa tỷ lệ bằng cách tách rời tương tác nội tỷ lệ và hợp nhất liên tỷ lệ, giảm đáng kể chi phí tính toán so với các bộ mã hóa DETR biến dạng tiêu chuẩn.
Lựa chọn truy vấn giảm thiểu sự không chắc chắn: Cải thiện quá trình khởi tạo truy vấn đối tượng bằng cách chọn các đặc trưng có điểm phân loại cao nhất, dẫn đến sự hội tụ nhanh hơn và phát hiện ban đầu tốt hơn.
Suy luận không cần NMS : Là một mô hình dựa trên Transformer, RTDETRv2 dự đoán trực tiếp một tập hợp các đối tượng cố định, loại bỏ nhu cầu sử dụng Non-Maximum Suppression ( NMS ) . Điều này đơn giản hóa quy trình triển khai và loại bỏ sự biến động độ trễ liên quan đến việc xử lý hậu kỳ các dự đoán dày đặc.
Hỗ trợ kiến trúc mạng xương sống linh hoạt: Kiến trúc này hỗ trợ nhiều kiến trúc mạng xương sống khác nhau, bao gồm ResNet và HGNetv2, cho phép người dùng mở rộng quy mô mô hình dựa trên tài nguyên tính toán sẵn có.

Ưu điểm của Transformer

Không giống như các mạng CNN xử lý các vùng lân cận cục bộ của pixel, cơ chế tự chú ý trong RTDETRv2 cho phép mọi phần của hình ảnh chú ý đến mọi phần khác. "Trường tiếp nhận toàn cục" này đặc biệt hữu ích để phát hiện các vật thể lớn hoặc hiểu mối quan hệ giữa các phần xa nhau của một cảnh.

DAMO- YOLO Hiệu suất cấp công nghiệp

DAMO- YOLO Tập trung vào việc tối đa hóa hiệu quả của mô hình "Bạn Chỉ Nhìn Một Lần" thông qua tìm kiếm kiến trúc mạng nơ-ron (NAS) nghiêm ngặt và các kỹ thuật kết hợp đặc trưng mới. Nó được thiết kế để trở thành một bộ phát hiện mạnh mẽ, đa năng, cân bằng giữa tốc độ và độ chính xác cho các ứng dụng công nghiệp.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 23 tháng 11 năm 2022
Arxiv: Bài báo DAMO- YOLO
GitHub: tinyvision/DAMO- YOLO

Các tính năng kiến trúc chính

Kiến trúc mạng MAE-NAS: Sử dụng phương pháp giá trị riêng phụ trợ để tìm kiếm kiến trúc mạng nơ-ron nhằm khám phá các kiến trúc mạng được tối ưu hóa đặc biệt cho các nhiệm vụ phát hiện, thay vì các kiến trúc mạng đại diện cho phân loại.
RepGFPN hiệu quả: Một mạng lưới kim tự tháp đặc trưng tổng quát (GFPN) được tối ưu hóa bằng kỹ thuật tái tham số hóa (Rep). Điều này cho phép kết hợp các đặc trưng phức tạp trong quá trình huấn luyện, sau đó thu gọn chúng thành một cấu trúc đơn giản và nhanh chóng trong quá trình suy luận.
ZeroHead: Một đầu dò nhẹ giúp giảm đáng kể số lượng tham số và FLOPs mà không làm giảm độ chính xác trung bình ( mAP ) .
AlignedOTA: Một chiến lược gán nhãn được cải tiến giúp giải quyết sự không đồng bộ giữa các nhiệm vụ phân loại và hồi quy, đảm bảo lựa chọn các anchor chất lượng cao trong quá trình huấn luyện.

So sánh hiệu suất kỹ thuật

Khi so sánh các kiến trúc này, điều quan trọng là phải xem xét sự đánh đổi giữa tốc độ suy luận thuần túy và độ chính xác phát hiện ( mAP Bảng dưới đây cho thấy rằng mặc dù RTDETRv2 thường đạt độ chính xác cao hơn, đặc biệt là trên các trường hợp khó khăn. COCO bộ dữ liệu, DAMO- YOLO Cung cấp hiệu năng cạnh tranh với độ trễ thấp hơn trên các cấu hình phần cứng cụ thể.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Triển Khai và Các Trường Hợp Sử Dụng

Các kịch bản lý tưởng cho RTDETRv2

Cảnh quan đô thị phức tạp: Cơ chế chú ý toàn cầu hoạt động xuất sắc trong việc xử lý hiện tượng che khuất tầm nhìn trên các đường phố đông đúc, lý tưởng cho việc lái xe tự động hoặc giám sát giao thông .
Chẩn đoán hình ảnh y tế: Trong những trường hợp cần độ chính xác cao và sai sót âm tính gây tốn kém, chẳng hạn như phát hiện khối u , độ chính xác cao của RTDETRv2 rất có lợi.
Đếm đám đông: Khả năng phân biệt các cá nhân chồng chéo lên nhau mà không cần NMS Các tính năng này làm cho nó trở nên vượt trội trong các ứng dụng quản lý đám đông .

Các kịch bản lý tưởng cho DAMO-YOLO

Sản xuất tốc độ cao: Trong các dây chuyền lắp ráp yêu cầu độ trễ mili giây để phát hiện lỗi , DAMO- YOLO Độ trễ thấp của nó đảm bảo thông lượng không bị tắc nghẽn.
IoT nhúng: Đối với các thiết bị có khả năng tính toán hạn chế, nơi các phép toán biến áp quá nặng nề, hiệu quả dựa trên mạng nơ-ron tích chập (CNN) của DAMO- YOLO Điều đó có lợi.
Phân tích dữ liệu bán lẻ: Dùng để theo dõi các mặt hàng trên kệ hoặc quản lý tồn kho , trong đó độ chính xác vừa phải là chấp nhận được để xử lý nhanh hơn đáng kể.

Lợi thế của Ultralytics: YOLO26

Trong khi cả RTDETRv2 và DAMO- YOLO Với những tính năng mạnh mẽ, mẫu Ultralytics YOLO26 đại diện cho đỉnh cao về hiệu quả và tính dễ sử dụng. Được phát hành vào tháng 1 năm 2026, YOLO26 thu hẹp khoảng cách giữa hai triết lý này bằng cách tích hợp... NMS - Thiết kế máy biến áp miễn phí thành một kiến trúc tối ưu hóa cao, thân thiện với thiết bị biên.

Tìm hiểu thêm về YOLO26

Lý do các nhà phát triển chọn Ultralytics

Nền tảng thống nhất: Không giống như các kho lưu trữ nghiên cứu thường thiếu sự bảo trì, Ultralytics Cung cấp một nền tảng toàn diện để đào tạo, triển khai và quản lý các mô hình. Cho dù bạn cần ước tính tư thế , phân đoạn hay OBB , tất cả đều có sẵn trong một thư viện duy nhất.
Dễ sử dụng: Việc huấn luyện một mô hình hiện đại đòi hỏi lượng mã lệnh tối thiểu. Tính dễ sử dụng này cho phép các nhà nghiên cứu tập trung vào dữ liệu thay vì gỡ lỗi các vòng lặp huấn luyện phức tạp.
```
from ultralytics import YOLO

# Load the latest YOLO26 model (NMS-free by design)
model = YOLO("yolo26n.pt")

# Train on a custom dataset with MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
```
Hiệu quả toàn diện: YOLO26 giới thiệu thiết kế không cần hệ thống quản lý mạng NMS từ đầu đến cuối , một sáng kiến tiên phong trong lĩnh vực này. YOLOv10 nhưng được tinh chỉnh cho sản xuất. Điều này loại bỏ chi phí xử lý hậu kỳ phát sinh trong DAMO-. YOLO đồng thời tránh được chi phí tính toán lớn của các lớp chú ý đầy đủ của RTDETRv2.
Tối ưu hóa cạnh: Với việc loại bỏ tổn hao tiêu điểm phân bố (DFL) và các tối ưu hóa cụ thể cho CPU Nhờ đó, YOLO26 nhanh hơn tới 43% trên các thiết bị biên so với các thế hệ trước, trở thành lựa chọn vượt trội cho việc triển khai trên thiết bị di động .
Huấn luyện nâng cao: Các tính năng như MuSGD Optimizer (lấy cảm hứng từ huấn luyện LLM) và ProgLoss đảm bảo quá trình huấn luyện ổn định và hội tụ nhanh hơn, giảm thời gian và chi phí liên quan đến phát triển mô hình.

Kết luận

Đối với các nghiên cứu thuần túy hoặc các kịch bản đòi hỏi độ chính xác lý thuyết tối đa trên GPU cao cấp, RTDETRv2 là một ứng cử viên sáng giá. Đối với các hệ thống cũ bị hạn chế nghiêm ngặt yêu cầu kích thước mạng CNN nhỏ nhất tuyệt đối, DAMO- YOLO vẫn phù hợp. Tuy nhiên, đối với phần lớn các ứng dụng thực tế yêu cầu sự cân bằng giữa tốc độ, độ chính xác, tính linh hoạt và dễ triển khai, Ultralytics YOLO26 là giải pháp được khuyến nghị.

Hãy khám phá các so sánh khác để xem cách thức như thế nào. Ultralytics Các mô hình này có thể so sánh với YOLOv8 và EfficientDet .