RTDETRv2 so với YOLOX: So sánh kỹ thuật chuyên sâu giữa hai loại máy dò vật thể hiện đại
Lĩnh vực thị giác máy tính đã phát triển nhanh chóng, mang đến cho các nhà phát triển và nhà nghiên cứu nhiều kiến trúc khác nhau để lựa chọn khi xây dựng các hệ thống dựa trên thị giác. Hai cột mốc đáng chú ý trong hành trình này là RTDETRv2 dựa trên Transformer và YOLOX dựa trên mạng nơ-ron tích chập (CNN). Mặc dù cả hai mô hình đều đóng góp đáng kể cho lĩnh vực phát hiện đối tượng thời gian thực, nhưng chúng đại diện cho những cách tiếp cận khác nhau về cơ bản để giải quyết các vấn đề nhận dạng hình ảnh.
Hướng dẫn toàn diện này sẽ khám phá những điểm khác biệt về kiến trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng cho cả hai mô hình. Hơn nữa, chúng ta sẽ xem xét cách các giải pháp thay thế hiện đại như Ultralytics YOLO26 tiên tiến xây dựng dựa trên những nền tảng này để mang lại độ chính xác, hiệu quả và tính dễ sử dụng vượt trội.
RTDETRv2: Bộ chuyển đổi phát hiện thời gian thực
Được giới thiệu như một phiên bản kế nhiệm của phiên bản gốc. RT-DETR RTDETRv2 tận dụng kiến trúc Transformer để đạt được khả năng phát hiện đối tượng thời gian thực hiệu suất cao. Bằng cách loại bỏ nhu cầu về Non-Maximum Suppression ( ) NMS ), nó đơn giản hóa quy trình suy luận.
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
- Tổ chức:Baidu
- Ngày: 2024-07-24
- Liên kết: Bài báo trên Arxiv , GitHub chính thức , Tài liệu
Kiến trúc và Thiết kế
RTDETRv2 dựa rất nhiều vào cơ chế tự chú ý vốn có của các mô hình Transformer, cho phép mô hình nắm bắt ngữ cảnh toàn cục trên toàn bộ hình ảnh. Sự hiểu biết toàn diện này cho phép nó dự đoán trực tiếp các hộp giới hạn và xác suất lớp. Nó giới thiệu các tính năng phát hiện đa tỷ lệ giúp tăng cường khả năng nhận dạng các vật thể nhỏ trong môi trường lộn xộn.
Nút thắt cổ chai của máy biến áp
Mặc dù Transformer rất giỏi trong việc nắm bắt ngữ cảnh toàn cục, nhưng cơ chế tự chú ý của chúng lại tăng theo cấp số nhân với độ dài chuỗi, thường dẫn đến chi phí cao hơn đáng kể. CUDA Mức tiêu hao bộ nhớ trong quá trình huấn luyện so với các mạng CNN truyền thống.
Điểm mạnh và Điểm yếu
Ưu điểm chính của RTDETRv2 nằm ở thiết kế đầu cuối hoàn chỉnh của nó. Bằng cách bỏ qua... NMS Nó tránh được hiện tượng tăng đột biến độ trễ thường gặp khi dự đoán chồng chéo dày đặc. Tuy nhiên, khối chuyển đổi (transformer) của nó đòi hỏi lượng tài nguyên tính toán đáng kể. GPU Nguồn lực dành cho cả đào tạo và triển khai. Điều này khiến nó kém lý tưởng hơn đối với các thiết bị biên có nguồn lực hạn chế hoặc phần cứng di động cũ.
YOLOX: Phát triển các kênh CNN không cần người dẫn chương trình
Được phát triển để thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp, YOLOX đã giới thiệu đầu tách rời và thiết kế không cần neo cho dòng sản phẩm phổ biến này. YOLO dòng mô hình.
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
- Tổ chức: Megvii
- Ngày: 18 tháng 7 năm 2021
- Liên kết: Bài báo trên Arxiv , GitHub chính thức , Tài liệu
Kiến trúc và Thiết kế
YOLOX đánh dấu một bước đột phá so với các bộ dò dựa trên neo truyền thống bằng cách dự đoán trực tiếp vị trí của các đối tượng mà không cần các hộp neo được xác định trước. Điều này đơn giản hóa thiết kế mạng và giảm số lượng tham số điều chỉnh theo kinh nghiệm cần thiết để đạt hiệu suất tối ưu. Ngoài ra, YOLOX sử dụng một đầu xử lý tách rời, phân biệt nhiệm vụ phân loại và hồi quy, giúp cải thiện tốc độ hội tụ trong quá trình huấn luyện.
Điểm mạnh và Điểm yếu
Tính chất không cần neo của YOLOX giúp nó có khả năng thích ứng cao với nhiều tác vụ thị giác máy tính khác nhau và dễ dàng huấn luyện trên các tập dữ liệu tùy chỉnh. Các biến thể nhẹ hơn của nó, chẳng hạn như YOLOX-Nano, rất phù hợp để triển khai trên bộ vi điều khiển và các thiết bị IoT công suất thấp. Tuy nhiên, vì YOLOX ra đời trước... NMS -Mặc dù là một cuộc cách mạng không cần tiếp xúc với công nghệ hiện đại, nó vẫn dựa vào quy trình xử lý hậu kỳ truyền thống, điều này có thể gây ra khó khăn trong quá trình triển khai và làm tăng độ trễ trong các cảnh quay phức tạp.
So sánh hiệu năng và số liệu
Khi so sánh các mô hình này, việc đánh giá tốc độ, độ chính xác và hiệu quả tham số là rất quan trọng để xác định mô hình phù hợp nhất với trường hợp sử dụng cụ thể của bạn. Bảng dưới đây trình bày hiệu suất của các kích thước mô hình khác nhau trên tiêu chuẩn. COCO tập dữ liệu.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Như dữ liệu cho thấy, RTDETRv2 đạt độ chính xác tối đa cao hơn (54,3%). mAP ) trên biến thể lớn nhất của nó so với YOLOXx. Tuy nhiên, YOLOX cung cấp các biến thể nhỏ hơn và nhanh hơn đáng kể, chẳng hạn như YOLOXs, tự hào có số lượng tham số thấp hơn và tốc độ suy luận nhanh hơn. NVIDIA GPU T4.
Lợi thế của Ultralytics: Giới thiệu YOLO26
Mặc dù cả RTDETRv2 và YOLOX đều mang lại những lợi ích riêng biệt, nhưng các nhà phát triển hiện đại thường cần một giải pháp thống nhất kết hợp những ưu điểm tốt nhất của cả hai – độ chính xác cao, tốc độ suy luận cực nhanh và hệ sinh thái dễ tiếp cận. Ultralytics YOLO26 mới ra mắt chính là đỉnh cao của sự phát triển này.
Những cải tiến chính của YOLO26
- Thiết kế hoàn chỉnh từ đầu đến cuối - Không cần hệ quản lý mạng NMS : Dựa trên các khái niệm được tiên phong lần đầu tiên trong YOLOv10 , YOLO26 hoạt động nguyên bản mà không cần... NMS Điều này mang lại khả năng suy luận liền mạch của RTDETRv2 mà không cần đến dung lượng bộ nhớ khổng lồ như các bộ chuyển đổi.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện mô hình ngôn ngữ quy mô lớn, bộ tối ưu hóa MuSGD lai (kết hợp) SGD và Muon) giúp ổn định quá trình huấn luyện và đẩy nhanh đáng kể sự hội tụ.
- Suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ mô-đun Distribution Focal Loss (DFL) một cách chiến lược, YOLO26 được tối ưu hóa đặc biệt cho điện toán biên và các thiết bị tiêu thụ điện năng thấp, giúp nó hoạt động nhanh hơn đáng kể trên CPU so với các phiên bản trước đó như YOLO11 .
- ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong nhận dạng vật thể nhỏ, giải quyết một vấn đề thường gặp trong ảnh chụp từ trên không và các ứng dụng robot .
Tính linh hoạt và hệ sinh thái vượt trội
Ngoài hiệu năng thô, Nền tảng Ultralytics còn cung cấp một hệ sinh thái toàn diện, từ đầu đến khi đưa vào sản xuất. Không giống như các kho lưu trữ học thuật tĩnh, Ultralytics Các mô hình được duy trì tích cực và hỗ trợ liền mạch nhiều tác vụ từ một API duy nhất, trực quan. Cho dù bạn đang thực hiện Phân đoạn đối tượng , theo dõi tư thế thông qua Ước tính tư thế hay xử lý các đối tượng xoay bằng Hộp giới hạn định hướng (OBB) , quy trình làm việc vẫn giống nhau.
Hơn nữa, Ultralytics Các mô hình này nổi tiếng với yêu cầu bộ nhớ thấp trong cả quá trình huấn luyện và suy luận, cho phép các nhà nghiên cứu chạy các lô dữ liệu lớn hơn trên phần cứng cấp người tiêu dùng — một sự tương phản rõ rệt với dung lượng bộ nhớ lớn của các kiến trúc dựa trên Transformer.
Ví dụ mã huấn luyện
Sức mạnh của Ultralytics Tính đơn giản của hệ sinh thái này được thể hiện rõ nhất. Việc huấn luyện một mô hình YOLO26 hiện đại chỉ cần một vài dòng mã, hoàn toàn loại bỏ sự phức tạp của việc tải dữ liệu và cấu hình siêu tham số.
from ultralytics import YOLO
# Initialize the natively NMS-free YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16)
# Validate the model's performance seamlessly
metrics = model.val()
print(f"Validation mAP: {metrics.box.map}")
# Export to ONNX or TensorRT for rapid deployment
model.export(format="engine", device=0)
Ứng dụng thực tế và các trường hợp sử dụng lý tưởng
Việc lựa chọn kiến trúc phù hợp hoàn toàn phụ thuộc vào các ràng buộc triển khai và khả năng cung cấp phần cứng của bạn.
Xử lý đám mây độ chính xác cao
Nếu ứng dụng của bạn chạy trên GPU máy chủ cao cấp và ưu tiên độ chính xác tối đa—chẳng hạn như phân tích các cảnh đám đông dày đặc hoặc xử lý hình ảnh y tế độ phân giải cao—thì cơ chế chú ý mạnh mẽ của RTDETRv2 có thể rất hiệu quả.
Triển khai Edge cũ
Đối với việc triển khai trên các điện thoại di động đời cũ hoặc các bộ vi điều khiển bị hạn chế nghiêm ngặt, nơi yêu cầu số phép tính FLOP tối thiểu, YOLOX-Nano siêu nhẹ vẫn là một giải pháp thay thế khả thi nhờ kiến trúc mạng nơ-ron tích chập (CNN) đơn giản của nó.
Tiêu chuẩn hiện đại: AIoT và Robot
Đối với phần lớn các trường hợp sử dụng hiện đại—bao gồm cơ sở hạ tầng thành phố thông minh , phân tích bán lẻ và điều hướng tự động— Ultralytics YOLO26 là sự lựa chọn tối ưu. Nó nhanh hơn 43%. CPU Khả năng suy luận của nó khiến nó trở nên vô song đối với điện toán biên, trong khi đó... NMS Thiết kế không phụ thuộc vào phần mềm đảm bảo độ trễ thấp và ổn định. Khi kết hợp với tài liệu hướng dẫn toàn diện và sự hỗ trợ tích cực từ cộng đồng, Ultralytics Hệ sinh thái này giúp các nhóm chuyển từ việc chú thích dữ liệu sang triển khai toàn cầu nhanh hơn bao giờ hết.
Tối ưu hóa quy trình làm việc của bạn
Bạn đã sẵn sàng nâng tầm các dự án thị giác máy tính của mình chưa? Khám phá các khả năng toàn diện của Nền tảng Ultralytics để dễ dàng quản lý dữ liệu, huấn luyện mô hình trên đám mây và triển khai các ứng dụng thông minh trên quy mô lớn.
Dành cho các nhà phát triển muốn khám phá các kiến trúc khác trong phạm vi này. Ultralytics Trong hệ sinh thái này, bạn cũng có thể cân nhắc sử dụng YOLOv8 để có sự tích hợp cộng đồng vững chắc hoặc YOLOv5 để có độ ổn định vượt trội trong các hệ thống cũ. Tuy nhiên, để vượt qua giới hạn của những gì có thể thực hiện được vào năm 2026, YOLO26 vẫn là tiêu chuẩn của ngành.