RTDETRv2 so với... YOLO11 Khám phá chuyên sâu về các kiến trúc phát hiện đối tượng trong thời gian thực

Lĩnh vực thị giác máy tính liên tục phát triển, với các kiến trúc mới liên tục mở rộng giới hạn của những gì có thể thực hiện được trên các thiết bị biên và máy chủ đám mây. Hai trong số những ứng cử viên nổi bật nhất trong lĩnh vực phát hiện đối tượng thời gian thực hiện nay là RTDETRv2 và YOLO11 . Mặc dù cả hai mô hình đều mang lại hiệu suất vượt trội, nhưng chúng đại diện cho những triết lý kiến trúc khác biệt về cơ bản: phương pháp dựa trên Transformer so với Mạng nơron tích chập (CNN) được tối ưu hóa cao.

Trong bài so sánh kỹ thuật toàn diện này, chúng ta sẽ cùng tìm hiểu về kiến trúc, các chỉ số hiệu suất, phương pháp huấn luyện và các trường hợp sử dụng lý tưởng cho cả hai mô hình, giúp bạn đưa ra quyết định sáng suốt cho ứng dụng trí tuệ nhân tạo tiếp theo của mình.

RTDETRv2: Kẻ thách thức dựa trên công nghệ Transformer

Được giới thiệu như một sự phát triển của Real-Time Detection Transformer ban đầu, RTDETRv2 tận dụng các cơ chế chú ý để xử lý dữ liệu hình ảnh. Bằng cách coi các mảng ảnh như các chuỗi, nó đạt được sự hiểu biết toàn cục về ngữ cảnh hình ảnh, điều này rất có lợi cho việc phát hiện các đối tượng chồng chéo nhiều trong các cảnh phức tạp.

Thông tin chi tiết về mẫu sản phẩm:

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức:Baidu
Ngày: 2024-07-24
Arxiv:2407.17140
GitHub:Kho lưu trữ RT-DETR
Tài liệu:Tài liệu RTDETRv2

Điểm mạnh và Điểm yếu kiến trúc

Điểm đột phá chính của RTDETRv2 là khả năng vận hành toàn diện từ đầu đến cuối. NMS - kiến trúc không có. Bằng cách loại bỏ Non-Maximum Suppression ( NMS Điều này giúp đơn giản hóa quy trình xử lý hậu kỳ. Hơn nữa, khả năng trích xuất đặc trưng đa tỷ lệ của nó đã được cải thiện so với mô hình RT-DETR gốc, cho phép nó nhận diện tốt hơn các đối tượng có kích thước khác nhau.

Tuy nhiên, do dựa trên kiến trúc Transformer, RTDETRv2 thường có yêu cầu bộ nhớ cao hơn đáng kể trong quá trình huấn luyện. Transformer thường hội tụ chậm hơn và đòi hỏi nhiều tài nguyên hơn đáng kể. CUDA So với các mạng CNN truyền thống, chúng có bộ nhớ lớn hơn, khiến chúng khó tiếp cận hơn đối với các nhà nghiên cứu sử dụng phần cứng cấp người tiêu dùng hoặc triển khai trong môi trường AI biên có hạn chế về bộ nhớ.

Tìm hiểu thêm về RTDETR

Ultralytics YOLO11 Đỉnh cao về hiệu quả của CNN

Dựa trên nhiều năm nghiên cứu nền tảng, Ultralytics đã phát hành YOLO11 như một bước nhảy vọt lớn trong dòng họ YOLO. Nó tinh chỉnh kiến trúc CNN để đạt được tốc độ và độ chính xác chưa từng có, đồng thời duy trì tính linh hoạt và hệ sinh thái thân thiện với nhà phát triển mà cộng đồng đã mong đợi.

Thông tin chi tiết về mẫu sản phẩm:

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 27 tháng 9 năm 2024
GitHub:Kho lưu trữ Ultralytics

Lợi thế của Ultralytics

YOLO11 Nó nổi bật ở khả năng cân bằng hiệu năng . Nó đạt được sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, khiến nó trở nên cực kỳ linh hoạt cho nhiều kịch bản triển khai thực tế khác nhau, từ các cụm điện toán đám mây khổng lồ đến các thiết bị di động nhẹ.

Hơn thế nữa, Ultralytics YOLO Các mô hình này nổi tiếng với việc sử dụng ít bộ nhớ hơn trong quá trình huấn luyện và suy luận. Không giống như các mô hình Transformer có thể dễ dàng làm cạn kiệt VRAM, YOLO11 Cho phép xử lý theo lô lớn hơn trên các GPU tiêu chuẩn. Hơn nữa, YOLO11 Không chỉ giới hạn ở việc phát hiện đối tượng đơn thuần; nó còn sở hữu tính linh hoạt đáng kinh ngạc, với hỗ trợ gốc cho Phân đoạn đối tượng , Phân loại hình ảnh , Ước tính tư thế và Hộp giới hạn định hướng (OBB) .

Tìm hiểu thêm về YOLO11

So sánh hiệu năng và số liệu

Khi so sánh các số liệu thô, rõ ràng là mặc dù RTDETRv2 đạt được độ chính xác ấn tượng, YOLO11 Cung cấp nhiều lựa chọn kích thước mô hình chi tiết hơn với tốc độ suy luận vượt trội, đặc biệt là trên... TensorRT .

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Như đã thấy trong bảng, mô hình YOLO11x đạt mAP^val vượt trội 54.7% trong khi sử dụng ít FLOPs hơn (194.9B so với 259B) và mang lại suy luận nhanh hơn trên TensorRT (11.3ms so với 15.03ms) so với biến thể RTDETRv2-x. Các biến thể YOLO11 nano và small cung cấp các tùy chọn nhẹ vô song cho các thiết bị hạn chế như Raspberry Pi.

Hệ sinh thái, tính dễ sử dụng và đào tạo

Đặc điểm xác định của Ultralytics Mô hình này mang lại trải nghiệm người dùng được tối ưu hóa. ultralytics Python Gói này cung cấp một API thống nhất, trực quan, giúp xử lý các tác vụ phức tạp. tăng cường dữ liệu, huấn luyện phân tán và xuất mô hình. Mặc dù kho lưu trữ nghiên cứu của RTDETRv2 yêu cầu nhiều mã mẫu và cấu hình, Ultralytics cung cấp một quy trình "từ số 0 đến chuyên gia".

Điều thú vị là, Ultralytics Hệ sinh thái mạnh mẽ đến mức nó hỗ trợ chạy một cách tự nhiên. RT-DETR các mô hình cùng với YOLO các mô hình! Điều này cho phép bạn tận dụng Hệ sinh thái được duy trì tốt của Ultralytics —bao gồm cả việc tích hợp với Weights & Biases và Comet ML —để theo dõi các thử nghiệm một cách dễ dàng.

from ultralytics import RTDETR, YOLO

# Load an RTDETR model seamlessly through the Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a highly optimized YOLO11 model
model_yolo = YOLO("yolo11n.pt")

# Train YOLO11 with highly efficient memory usage
results = model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained YOLO model to ONNX format
model_yolo.export(format="onnx")

Tối ưu hóa quy trình làm việc của bạn

Hiệu quả huấn luyện là yếu tố tối quan trọng trong học máy. Ultralytics Các mô hình sử dụng trọng số được huấn luyện trước, hội tụ nhanh chóng. Để quản lý tập dữ liệu, các lần chạy huấn luyện và điểm cuối triển khai mà không cần viết mã, hãy khám phá Nền tảng Ultralytics để có trải nghiệm MLOps tích hợp.

Các ứng dụng thực tế

Việc lựa chọn giữa các kiến trúc này thường phụ thuộc vào các ràng buộc triển khai cụ thể của dự án của bạn.

RTDETRv2 vượt trội ở đâu: Kiến trúc backbone Transformer của RTDETRv2 rất hiệu quả trong các kịch bản có đối tượng dày đặc, bị che khuất nhiều, nơi cần ngữ cảnh toàn cục. Nó thường được đánh giá trong nghiên cứu học thuật và các ứng dụng mà ngân sách tính toán ít được quan tâm hơn so với việc ánh xạ mối quan hệ dựa trên sự chú ý thô.

YOLO11 thống trị ở đâu: YOLO11 là nhà vô địch không thể tranh cãi trong việc triển khai thực tế, ngoài đời thực. Dấu chân bộ nhớ tối thiểu và tốc độ suy luận cực nhanh của nó làm cho nó lý tưởng cho:

Smart Manufacturing: Chạy detect lỗi thời gian thực trên dây chuyền sản xuất bằng PC công nghiệp.
Nông nghiệp: Triển khai trên máy bay không người lái để giám sát sức khỏe cây trồng theo thời gian thực và robot thu hoạch tự động.
Retail Analytics: Xử lý đồng thời nhiều luồng camera để quản lý hàng đợi và track hàng tồn kho mà không cần đến các trang trại máy chủ lớn.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa RT-DETR và YOLO11 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên lựa chọn RT-DETR

RT-DETR là một lựa chọn tốt cho:

Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer để phát hiện đối tượng đầu cuối mà không cần NMS.
Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác detect là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút có thể chấp nhận được.
Phát hiện đối tượng lớn: Các cảnh với chủ yếu các đối tượng từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Khi nào nên chọn YOLO11

YOLO11 Được khuyến nghị cho:

Triển khai biên sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson, nơi độ tin cậy và việc bảo trì tích cực là tối quan trọng.
Ứng dụng thị giác đa nhiệm: Các dự án yêu cầu detect, segmentation, ước tính tư thế, và OBB trong một framework thống nhất duy nhất.
Tạo mẫu và triển khai nhanh: Các nhóm cần chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng API Python của Ultralytics được tối ưu hóa.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Hướng tới tương lai: Sự ra mắt của YOLO26

Nếu bạn đang bắt đầu một dự án mới, bạn cũng nên xem xét thế hệ AI thị giác tiếp theo: Ultralytics YOLO26 . Được phát hành vào tháng 1 năm 2026, YOLO26 kết hợp những ưu điểm tốt nhất của cả hai thế giới. Nó giới thiệu thiết kế không cần NMS từ đầu đến cuối (lần đầu tiên được tiên phong trong YOLOv10 ), loại bỏ hoàn toàn độ trễ xử lý hậu kỳ giống như RTDETRv2, nhưng với tốc độ vượt trội của mạng nơ-ron tích chập (CNN).

YOLO26 tích hợp bộ tối ưu hóa MuSGD —lấy cảm hứng từ những cải tiến trong huấn luyện LLM—giúp hội tụ cực kỳ ổn định và nhanh chóng, đồng thời mang lại khả năng suy luận CPU nhanh hơn tới 43% nhờ loại bỏ hàm mất mát Distribution Focal Loss (DFL). Với các hàm mất mát chuyên dụng ProgLoss + STAL giúp cải thiện đáng kể khả năng nhận dạng vật thể nhỏ, YOLO26 là sự lựa chọn tối ưu cho bất kỳ quy trình xử lý hình ảnh máy tính hiện đại nào.

Cho dù bạn lựa chọn YOLO11 Với tính linh hoạt đã được chứng minh, RTDETRv2 với cơ chế chú ý, hoặc YOLO26 tiên tiến cho hiệu năng tối ưu trên thiết bị biên, tài liệu Ultralytics cung cấp tất cả các nguồn lực cần thiết để thành công trong hành trình thị giác máy tính của bạn.

RTDETRv2 so với... YOLO11 Khám phá chuyên sâu về các kiến ​​trúc phát hiện đối tượng trong thời gian thực