RTDETRv2 so với YOLOv10 Những tiến bộ trong NMS - Phát hiện đối tượng thời gian thực miễn phí

Sự phát triển của thị giác máy tính phần lớn được thúc đẩy bởi sự theo đuổi không ngừng nghỉ nhằm cân bằng giữa tốc độ và độ chính xác. Theo truyền thống, các quy trình phát hiện đối tượng thời gian thực dựa vào phương pháp loại bỏ cực đại không đồng nhất (Non-Maximum Suppression) ( NMS ) như một bước xử lý hậu kỳ để lọc ra các hộp giới hạn chồng chéo. Tuy nhiên, NMS Điều này dẫn đến tắc nghẽn độ trễ và việc điều chỉnh siêu tham số phức tạp. Gần đây, hai phương pháp kiến trúc khác biệt đã xuất hiện để giải quyết vấn đề này một cách tự nhiên: các mô hình dựa trên Transformer như RTDETRv2 và các mô hình dựa trên CNN như... YOLOv10 .

Hướng dẫn này cung cấp sự so sánh kỹ thuật toàn diện giữa hai mô hình này, phân tích kiến trúc, các chỉ số hiệu suất và các trường hợp sử dụng lý tưởng của chúng, đồng thời nêu bật cách các cải tiến mới nhất trong hệ sinh thái Ultralytics mang đến giải pháp tối ưu cho việc triển khai hiện đại.

RTDETRv2: Bộ chuyển đổi phát hiện thời gian thực

RTDETRv2 được xây dựng dựa trên kiến trúc RT-DETR ban đầu, nhằm mục đích kết hợp khả năng hiểu ngữ cảnh toàn cục của Vision Transformers với các yêu cầu về tốc độ thời gian thực vốn thường bị chi phối bởi các công nghệ khác. YOLO mô hình.

Các đặc điểm chính:

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức: Baidu
Ngày: 24-07-2024
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/ RT-DETR /tree/main/rtdetrv2_pytorch

Kiến trúc và Phương pháp đào tạo

RTDETRv2 sử dụng kiến trúc biến áp đầu cuối, giúp tránh được các vấn đề phát sinh. NMS Nó cải tiến so với phiên bản tiền nhiệm bằng cách giới thiệu phương pháp "Túi quà tặng miễn phí", tối ưu hóa chiến lược huấn luyện và tích hợp khả năng phát hiện đa tỷ lệ. Mô hình sử dụng mạng nơ-ron tích chập (CNN) để trích xuất các bản đồ đặc trưng (các chi tiết hình ảnh như cạnh và kết cấu), sau đó được xử lý bởi cấu trúc mã hóa-giải mã Transformer. Điều này cho phép mô hình phân tích toàn bộ ngữ cảnh hình ảnh cùng một lúc, giúp nó rất hiệu quả trong việc hiểu các cảnh phức tạp, nơi các đối tượng được sắp xếp dày đặc hoặc chồng chéo lên nhau.

Điểm mạnh và Điểm yếu

Điểm mạnh:

Ngữ cảnh toàn cục: Cơ chế chú ý cho phép mô hình hoạt động xuất sắc trong các môi trường phức tạp, lộn xộn.
Không NMS: Trực tiếp dự đoán tọa độ vật thể, đơn giản hóa quy trình triển khai.
Độ chính xác cao: Đạt được độ chính xác trung bình (mAP) xuất sắc trên tập dữ liệu COCO.

Điểm yếu:

Tiêu tốn tài nguyên: Các kiến trúc Transformer thường yêu cầu nhiều bộ nhớ CUDA hơn đáng kể trong quá trình huấn luyện so với CNN, khiến chúng tốn kém để tinh chỉnh trên phần cứng tiêu chuẩn.
Biến động tốc độ suy luận: Mặc dù nhanh, các phép tính attention nặng có thể dẫn đến FPS thấp hơn trong thị giác máy tính trên các thiết bị biên thiếu bộ tăng tốc AI chuyên dụng.

Tìm hiểu thêm về RTDETRv2

YOLOv10: Phát hiện đối tượng đầu cuối theo thời gian thực

YOLOv10 Điều này đánh dấu một sự thay đổi lớn trong dòng sản phẩm phát hiện đối tượng YOLO bằng cách giải quyết vấn đề tồn tại lâu nay. NMS Điểm nghẽn trực tiếp nằm trong khuôn khổ mạng CNN.

Các đặc điểm chính:

Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức: Đại học Thanh Hoa
Ngày: 23-05-2024
Arxiv: https://arxiv.org/abs/2405.14458
GitHub: https://github.com/THU-MIG/yolov10

Kiến trúc và Phương pháp đào tạo

Sự đổi mới cốt lõi của YOLOv10 là nhiệm vụ kép nhất quán của nó cho NMS - huấn luyện miễn phí. Nó sử dụng hai đầu dò trong quá trình huấn luyện: một đầu dò với cấu hình một-nhiều (giống như YOLO truyền thống) để cung cấp tín hiệu giám sát phong phú, và một đầu dò khác với cấu hình một-một để loại bỏ nhu cầu về... NMS Trong quá trình suy luận, chỉ có đầu nối một-một được sử dụng, dẫn đến một quy trình khép kín từ đầu đến cuối. Hơn nữa, các tác giả đã áp dụng chiến lược thiết kế mô hình toàn diện hướng đến hiệu quả và độ chính xác, tối ưu hóa toàn diện các thành phần khác nhau để giảm thiểu sự dư thừa tính toán.

Điểm mạnh và Điểm yếu

Điểm mạnh:

Tốc độ cực cao: Bằng cách loại bỏ NMS và tối ưu hóa kiến trúc, YOLOv10 đạt được độ trễ suy luận cực thấp.
Hiệu quả: Yêu cầu ít tham số và FLOPs hơn để đạt được độ chính xác tương đương với các mô hình khác, làm cho nó rất phù hợp cho các môi trường bị hạn chế.
Triển khai không NMS: Hợp lý hóa việc tích hợp vào các ứng dụng biên như giám sát thông minh.

Điểm yếu:

Khái niệm thế hệ đầu tiên: Là YOLO đầu tiên triển khai kiến trúc không NMS cụ thể này, nó đã đặt nền móng nhưng vẫn còn chỗ cho tính linh hoạt đa tác vụ và tối ưu hóa được thấy ở các mô hình tiếp theo như YOLO11 và YOLO26.

Tìm hiểu thêm về YOLOv10

So sánh hiệu suất

Khi đánh giá các mô hình để sản xuất, việc cân bằng giữa độ chính xác và chi phí tính toán là rất quan trọng. Bảng dưới đây nêu bật sự đánh đổi về hiệu năng giữa các kích thước khác nhau của RTDETRv2 và YOLOv10 .

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

Mặc dù RTDETRv2 cung cấp độ chính xác cao, YOLOv10 Nó thể hiện ưu thế vượt trội về độ trễ và hiệu quả tham số, đặc biệt là ở các biến thể nhỏ hơn (Nano và Small), khiến nó trở nên rất hấp dẫn cho các ứng dụng điện toán biên và AIoT .

Lựa chọn tỷ lệ phù hợp

Nếu bạn đang triển khai trên GPU cấp máy chủ, trong trường hợp đó kích thước lô và VRAM ít bị hạn chế hơn, các mô hình lớn hơn (như -x hoặc -l) tối đa hóa độ chính xác. Đối với các thiết bị biên như Raspberry Pi hoặc điện thoại di động, hãy ưu tiên nano (-n) hoặc nhỏ (-s) biến thể để duy trì tốc độ khung hình thời gian thực.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa RT-DETR và YOLOv10 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên lựa chọn RT-DETR

RT-DETR là một lựa chọn tốt cho:

Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer để phát hiện đối tượng đầu cuối mà không cần NMS.
Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác detect là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút có thể chấp nhận được.
Phát hiện đối tượng lớn: Các cảnh với chủ yếu các đối tượng từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Khi nào nên chọn YOLOv10

YOLOv10 được khuyến nghị cho:

detect thời gian thực không NMS: Các ứng dụng hưởng lợi từ detect end-to-end mà không cần Non-Maximum Suppression, giảm độ phức tạp khi triển khai.
Đánh đổi cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác detect trên các quy mô mô hình khác nhau.
Ứng dụng có độ trễ nhất quán: Các kịch bản triển khai mà thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như trong robot học hoặc các hệ thống tự hành.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Cái Ultralytics Ưu điểm: Giới thiệu YOLO26

Trong khi cả RTDETRv2 và YOLOv10 Mặc dù các công nghệ tiên tiến mang lại những tiến bộ học thuật đầy thuyết phục, việc triển khai chúng trong các tình huống thực tế đòi hỏi một hệ sinh thái phần mềm mạnh mẽ và được bảo trì tốt. Nền tảng Ultralytics cung cấp trải nghiệm phát triển vượt trội, kết hợp giữa tính dễ sử dụng, tài liệu đầy đủ và các công cụ mạnh mẽ để chú thích và triển khai dữ liệu .

Đối với các nhà phát triển đang tìm kiếm công nghệ tiên tiến nhất vào năm 2026, Ultralytics YOLO26 là sự lựa chọn tối ưu. Nó tổng hợp những ý tưởng tốt nhất từ cả hai kiến trúc đồng thời mang đến những cải tiến đột phá:

Thiết kế đầu cuối không NMS: Dựa trên khái niệm tiên phong của YOLOv10, YOLO26 loại bỏ tự nhiên hậu xử lý NMS, dẫn đến logic triển khai nhanh hơn, đơn giản hơn và không có sự biến động độ trễ.
Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 đơn giản hóa việc xuất mô hình và cải thiện đáng kể khả năng tương thích với các thiết bị biên và thiết bị tiêu thụ ít điện năng.
Trình tối ưu hóa MuSGD: Một sự kết hợp lai giữa SGD và Muon (lấy cảm hứng từ những đổi mới trong huấn luyện LLM), trình tối ưu hóa mới này mang lại quá trình huấn luyện ổn định hơn và hội tụ nhanh hơn đáng kể so với các phương pháp truyền thống.
Tăng tốc suy luận trên CPU lên đến 43%: Được tối ưu hóa cẩn thận cho các môi trường không có GPU chuyên dụng, dân chủ hóa AI thị giác hiệu suất cao.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, điều này rất quan trọng cho các ứng dụng sử dụng drone và cảm biến IoT.
Tính linh hoạt vượt trội: Không giống như các mô hình chỉ giới hạn ở hộp giới hạn, YOLO26 hỗ trợ đầy đủ các tác vụ bao gồm phân đoạn đối tượng, ước tính tư thế, phân loại ảnh và phát hiện OBB, hoàn chỉnh với các cải tiến dành riêng cho tác vụ như Ước tính Log-Likelihood dư (RLE) cho Tư thế.

Tìm hiểu thêm về YOLO26

Triển khai liền mạch với Python

Việc huấn luyện và triển khai các mô hình này bằng API Python Ultralytics được thiết kế để diễn ra suôn sẻ. Yêu cầu về bộ nhớ trong quá trình huấn luyện thấp hơn đáng kể so với các kiến trúc nặng về Transformer, cho phép bạn huấn luyện các mô hình mạnh mẽ trên phần cứng tiêu chuẩn.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 model (recommended)
# Alternatively, load a YOLOv10 model using YOLO('yolov10n.pt')
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Easily export to various formats for edge deployment
model.export(format="onnx", simplify=True)

Cho dù bạn đang triển khai hệ thống báo động an ninh hay tiến hành phân tích hình ảnh y tế , việc lựa chọn một mô hình được hỗ trợ bởi công nghệ tiên tiến là điều cần thiết. Ultralytics Cộng đồng đảm bảo bạn có các công cụ, hướng dẫn tinh chỉnh siêu tham số và các bản cập nhật liên tục cần thiết để thành công. Trong khi đó, YOLOv10 và RTDETRv2 đã mở đường cho NMS Với các kiến trúc không ràng buộc, YOLO26 hoàn thiện công thức, mang đến sự cân bằng tốt nhất giữa hiệu năng, tính linh hoạt và khả năng sẵn sàng cho sản xuất.

RTDETRv2 so với YOLOv10 Những tiến bộ trong NMS - Phát hiện đối tượng thời gian thực miễn phí

RTDETRv2: Bộ chuyển đổi phát hiện thời gian thực

Kiến trúc và Phương pháp đào tạo

Điểm mạnh và Điểm yếu

YOLOv10: Phát hiện đối tượng đầu cuối theo thời gian thực

Kiến trúc và Phương pháp đào tạo

Điểm mạnh và Điểm yếu

So sánh hiệu suất

Các trường hợp sử dụng và Khuyến nghị

Khi nào nên lựa chọn RT-DETR

Khi nào nên chọn YOLOv10

Khi nào nên lựa chọn Ultralytics (YOLO26)

Cái Ultralytics Ưu điểm: Giới thiệu YOLO26

Triển khai liền mạch với Python

Bình luận