RTDETRv2 so với YOLOv10 Những tiến bộ trong NMS - Phát hiện đối tượng thời gian thực miễn phí
Sự phát triển của thị giác máy tính phần lớn được thúc đẩy bởi sự theo đuổi không ngừng nghỉ nhằm cân bằng giữa tốc độ và độ chính xác. Theo truyền thống, các quy trình phát hiện đối tượng thời gian thực dựa vào phương pháp loại bỏ cực đại không đồng nhất (Non-Maximum Suppression) ( NMS ) như một bước xử lý hậu kỳ để lọc ra các hộp giới hạn chồng chéo. Tuy nhiên, NMS Điều này dẫn đến tắc nghẽn độ trễ và việc điều chỉnh siêu tham số phức tạp. Gần đây, hai phương pháp kiến trúc khác biệt đã xuất hiện để giải quyết vấn đề này một cách tự nhiên: các mô hình dựa trên Transformer như RTDETRv2 và các mô hình dựa trên CNN như... YOLOv10 .
Hướng dẫn này cung cấp sự so sánh kỹ thuật toàn diện giữa hai mô hình này, phân tích kiến trúc, các chỉ số hiệu suất và các trường hợp sử dụng lý tưởng của chúng, đồng thời nêu bật cách các cải tiến mới nhất trong hệ sinh thái Ultralytics mang đến giải pháp tối ưu cho việc triển khai hiện đại.
RTDETRv2: Bộ chuyển đổi phát hiện thời gian thực
RTDETRv2 được xây dựng dựa trên kiến trúc RT-DETR ban đầu, nhằm mục đích kết hợp khả năng hiểu ngữ cảnh toàn cục của Vision Transformers với các yêu cầu về tốc độ thời gian thực vốn thường bị chi phối bởi các công nghệ khác. YOLO mô hình.
Các đặc điểm chính:
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
- Tổ chức: Baidu
- Ngày: 24/07/2024
- Arxiv: https://arxiv.org/abs/2407.17140
- GitHub: https://github.com/lyuwenyu/ RT-DETR /tree/main/rtdetrv2_pytorch
Kiến trúc và Phương pháp đào tạo
RTDETRv2 sử dụng kiến trúc biến áp đầu cuối, giúp tránh được các vấn đề phát sinh. NMS Nó cải tiến so với phiên bản tiền nhiệm bằng cách giới thiệu phương pháp "Túi quà tặng miễn phí", tối ưu hóa chiến lược huấn luyện và tích hợp khả năng phát hiện đa tỷ lệ. Mô hình sử dụng mạng nơ-ron tích chập (CNN) để trích xuất các bản đồ đặc trưng (các chi tiết hình ảnh như cạnh và kết cấu), sau đó được xử lý bởi cấu trúc mã hóa-giải mã Transformer. Điều này cho phép mô hình phân tích toàn bộ ngữ cảnh hình ảnh cùng một lúc, giúp nó rất hiệu quả trong việc hiểu các cảnh phức tạp, nơi các đối tượng được sắp xếp dày đặc hoặc chồng chéo lên nhau.
Điểm mạnh và Điểm yếu
Điểm mạnh:
- Bối cảnh toàn cầu: Cơ chế chú ý cho phép mô hình hoạt động xuất sắc trong môi trường phức tạp và nhiều vật cản.
- NMS - Miễn phí: Dự đoán trực tiếp tọa độ đối tượng, đơn giản hóa quy trình triển khai.
- Độ chính xác cao: Đạt được độ chính xác trung bình ( mAP ) xuất sắc trên COCO tập dữ liệu.
Điểm yếu:
- Tốn nhiều tài nguyên: Kiến trúc Transformer thường yêu cầu nhiều tài nguyên hơn đáng kể. CUDA So với mạng CNN, mạng CNN có bộ nhớ dùng để huấn luyện nhiều mạng hơn, khiến việc tinh chỉnh chúng trên phần cứng tiêu chuẩn trở nên tốn kém.
- Tính biến thiên về tốc độ suy luận: Mặc dù nhanh, nhưng các phép tính chú ý phức tạp có thể dẫn đến FPS thấp hơn trong thị giác máy tính trên các thiết bị biên thiếu bộ tăng tốc AI chuyên dụng.
YOLOv10: Phát hiện đối tượng đầu cuối theo thời gian thực
YOLOv10 Điều này đánh dấu một sự thay đổi lớn trong dòng sản phẩm phát hiện đối tượng YOLO bằng cách giải quyết vấn đề tồn tại lâu nay. NMS Điểm nghẽn trực tiếp nằm trong khuôn khổ mạng CNN.
Các đặc điểm chính:
- Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
- Tổ chức: Đại học Thanh Hoa
- Ngày: 23-05-2024
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
Kiến trúc và Phương pháp đào tạo
Sự đổi mới cốt lõi của YOLOv10 là nhiệm vụ kép nhất quán của nó cho NMS - huấn luyện miễn phí. Nó sử dụng hai đầu dò trong quá trình huấn luyện: một đầu dò với cấu hình một-nhiều (giống như YOLO truyền thống) để cung cấp tín hiệu giám sát phong phú, và một đầu dò khác với cấu hình một-một để loại bỏ nhu cầu về... NMS Trong quá trình suy luận, chỉ có đầu nối một-một được sử dụng, dẫn đến một quy trình khép kín từ đầu đến cuối. Hơn nữa, các tác giả đã áp dụng chiến lược thiết kế mô hình toàn diện hướng đến hiệu quả và độ chính xác, tối ưu hóa toàn diện các thành phần khác nhau để giảm thiểu sự dư thừa tính toán.
Điểm mạnh và Điểm yếu
Điểm mạnh:
- Tốc độ cực nhanh: Bằng cách loại bỏ NMS và tối ưu hóa kiến trúc, YOLOv10 Đạt được độ trễ suy luận cực thấp.
- Hiệu quả: Yêu cầu ít tham số và phép tính FLOP hơn để đạt được độ chính xác tương đương với các mô hình khác, do đó rất phù hợp với môi trường có hạn chế về tài nguyên.
- Triển khai không cần NMS : Giúp đơn giản hóa việc tích hợp vào các ứng dụng biên như hệ thống giám sát thông minh .
Điểm yếu:
- Khái niệm thế hệ đầu tiên: Là thế hệ đầu tiên YOLO để thực hiện điều cụ thể này NMS Với kiến trúc không ràng buộc, nó đã đặt nền tảng nhưng vẫn chừa chỗ cho tính linh hoạt đa nhiệm và khả năng tối ưu hóa được thấy trong các mẫu sau này như YOLO11 và YOLO26.
So sánh hiệu suất
Khi đánh giá các mô hình để sản xuất, việc cân bằng giữa độ chính xác và chi phí tính toán là rất quan trọng. Bảng dưới đây nêu bật sự đánh đổi về hiệu năng giữa các kích thước khác nhau của RTDETRv2 và YOLOv10 .
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Mặc dù RTDETRv2 cung cấp độ chính xác cao, YOLOv10 Nó thể hiện ưu thế vượt trội về độ trễ và hiệu quả tham số, đặc biệt là ở các biến thể nhỏ hơn (Nano và Small), khiến nó trở nên rất hấp dẫn cho các ứng dụng điện toán biên và AIoT .
Lựa chọn tỷ lệ phù hợp
Nếu bạn đang triển khai trên GPU cấp máy chủ, trong trường hợp đó kích thước lô và VRAM ít bị hạn chế hơn, các mô hình lớn hơn (như -x hoặc -l) tối đa hóa độ chính xác. Đối với các thiết bị biên như Raspberry Pi hoặc điện thoại di động, hãy ưu tiên nano (-n) hoặc nhỏ (-scác biến thể ) để duy trì tốc độ khung hình thời gian thực.
Các trường hợp sử dụng và Khuyến nghị
Lựa chọn giữa RT-DETR Và YOLOv10 Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên lựa chọn RT-DETR
RT-DETR là một lựa chọn tốt cho:
- Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc Transformer để phát hiện đối tượng từ đầu đến cuối mà không cần NMS .
- Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là chấp nhận được.
- Phát hiện vật thể lớn: Các cảnh chủ yếu chứa các vật thể có kích thước trung bình đến lớn, nơi cơ chế chú ý toàn cục của Transformer mang lại lợi thế tự nhiên.
Khi nào nên chọn YOLOv10
YOLOv10 được khuyến nghị cho:
- NMS - Phát hiện thời gian thực không cần hệ thống quản lý truy cập (NMS): Các ứng dụng được hưởng lợi từ khả năng phát hiện toàn diện mà không cần hệ thống loại bỏ truy cập không tối đa (Non-Maximum Suppression), giúp giảm độ phức tạp khi triển khai.
- Cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng tốt giữa tốc độ suy luận và độ chính xác phát hiện trên nhiều quy mô mô hình khác nhau.
- Ứng dụng độ trễ ổn định: Các kịch bản triển khai mà thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như robot hoặc hệ thống tự hành.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Cái Ultralytics Ưu điểm: Giới thiệu YOLO26
Trong khi cả RTDETRv2 và YOLOv10 Mặc dù các công nghệ tiên tiến mang lại những tiến bộ học thuật đầy thuyết phục, việc triển khai chúng trong các tình huống thực tế đòi hỏi một hệ sinh thái phần mềm mạnh mẽ và được bảo trì tốt. Nền tảng Ultralytics cung cấp trải nghiệm phát triển vượt trội, kết hợp giữa tính dễ sử dụng, tài liệu đầy đủ và các công cụ mạnh mẽ để chú thích và triển khai dữ liệu .
Đối với các nhà phát triển đang tìm kiếm công nghệ tiên tiến nhất vào năm 2026, Ultralytics YOLO26 là sự lựa chọn tối ưu. Nó tổng hợp những ý tưởng tốt nhất từ cả hai kiến trúc đồng thời mang đến những cải tiến đột phá:
- Hệ NMS từ đầu đến cuối - Thiết kế miễn phí: Phát triển dựa trên ý tưởng tiên phong của YOLOv10 YOLO26 loại bỏ một cách tự nhiên NMS xử lý hậu kỳ, giúp triển khai logic nhanh hơn, đơn giản hơn và không có sự biến đổi độ trễ.
- Loại bỏ DFL: Bằng cách loại bỏ hiện tượng suy hao tiêu điểm phân bố (Distribution Focal Loss - DFL), YOLO26 đơn giản hóa việc xuất mô hình và cải thiện đáng kể khả năng tương thích với các thiết bị biên và thiết bị công suất thấp.
- MuSGD Optimizer: Một sự kết hợp của... SGD Và Muon (lấy cảm hứng từ những cải tiến trong huấn luyện LLM), thuật toán tối ưu hóa mới này cung cấp quá trình huấn luyện ổn định hơn và tốc độ hội tụ nhanh hơn đáng kể so với các phương pháp truyền thống.
- Tốc độ suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa cẩn thận cho các môi trường không có GPU chuyên dụng, giúp phổ biến trí tuệ nhân tạo thị giác hiệu năng cao.
- ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận dạng vật thể nhỏ, điều rất quan trọng đối với các ứng dụng sử dụng máy bay không người lái và cảm biến IoT.
- Tính linh hoạt vượt trội: Không giống như các mô hình chỉ giới hạn ở hộp giới hạn, YOLO26 hỗ trợ đầy đủ các tác vụ bao gồm phân đoạn đối tượng , ước lượng tư thế , phân loại hình ảnh và phát hiện OBB , cùng với các cải tiến dành riêng cho từng tác vụ như Ước lượng logarit xác suất dư (RLE) cho tư thế.
Triển khai liền mạch với Python
Việc huấn luyện và triển khai các mô hình này bằng API Python Ultralytics được thiết kế để diễn ra suôn sẻ. Yêu cầu về bộ nhớ trong quá trình huấn luyện thấp hơn đáng kể so với các kiến trúc nặng về Transformer, cho phép bạn huấn luyện các mô hình mạnh mẽ trên phần cứng tiêu chuẩn.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 model (recommended)
# Alternatively, load a YOLOv10 model using YOLO('yolov10n.pt')
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Easily export to various formats for edge deployment
model.export(format="onnx", simplify=True)
Cho dù bạn đang triển khai hệ thống báo động an ninh hay tiến hành phân tích hình ảnh y tế , việc lựa chọn một mô hình được hỗ trợ bởi công nghệ tiên tiến là điều cần thiết. Ultralytics Cộng đồng đảm bảo bạn có các công cụ, hướng dẫn tinh chỉnh siêu tham số và các bản cập nhật liên tục cần thiết để thành công. Trong khi đó, YOLOv10 và RTDETRv2 đã mở đường cho NMS Với các kiến trúc không ràng buộc, YOLO26 hoàn thiện công thức, mang đến sự cân bằng tốt nhất giữa hiệu năng, tính linh hoạt và khả năng sẵn sàng cho sản xuất.