RTDETRv2 so với YOLOX: Phân tích chuyên sâu về sự tiến hóa của phát hiện đối tượng thời gian thực
Lĩnh vực phát hiện đối tượng đã phát triển nhanh chóng trong vài năm qua, chuyển từ các kiến trúc dựa trên anchor sang các thiết kế không anchor và gần đây hơn là các mô hình lai dựa trên transformer. Hai cột mốc quan trọng trong hành trình này là RTDETRv2 và YOLOX . Trong khi YOLOX đã định nghĩa lại khả năng của... YOLO gia đình vào năm 2021 bằng cách loại bỏ các mỏ neo và NMS Để khắc phục các điểm nghẽn, RTDETRv2 (ra mắt năm 2024) đã đẩy mạnh giới hạn hơn nữa bằng cách tích hợp Vision Transformers (ViT) để đạt độ chính xác vượt trội trong các cảnh phức tạp.
Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện về hai mô hình có ảnh hưởng này, phân tích kiến trúc, các chỉ số hiệu suất và các trường hợp sử dụng lý tưởng để giúp bạn chọn công cụ phù hợp cho các dự án thị giác máy tính của mình.
RTDETRv2: Ứng cử viên dựa trên công nghệ biến áp
RTDETRv2 (Real-Time Detection Transformer phiên bản 2) đại diện cho một bước tiến đáng kể trong việc ứng dụng kiến trúc transformer vào các kịch bản thời gian thực. Trong khi các transformer truyền thống mạnh mẽ nhưng chậm, RTDETRv2 tối ưu hóa sự đánh đổi này để mang lại độ chính xác hàng đầu với tốc độ cạnh tranh.
Các tính năng kiến trúc chính
RTDETRv2 được xây dựng dựa trên phiên bản gốc. RT-DETR Nó sử dụng cấu trúc mã hóa-giải mã lai. Cấu trúc này sử dụng mạng nơ-ron tích chập (CNN) (thường là ResNet hoặc HGNetv2) để trích xuất đặc trưng một cách hiệu quả, tiếp theo là bộ mã hóa Transformer để nắm bắt các mối quan hệ phụ thuộc tầm xa trên toàn bộ hình ảnh.
- Tích hợp Vision Transformer: Không giống như các mô hình chỉ dựa trên CNN, RTDETRv2 sử dụng cơ chế tự chú ý để hiểu mối quan hệ giữa các phần xa nhau của hình ảnh, giúp nó xử lý hiệu quả các cảnh bị che khuất và đông đúc.
- Dự đoán từ đầu đến cuối: Phương pháp này nhằm mục đích tối ưu hóa quy trình phát hiện, mặc dù một số cách triển khai vẫn cần được tối ưu hóa thêm.
- Điều chỉnh tỷ lệ động: Kiến trúc này được thiết kế để xử lý các tính năng đa tỷ lệ hiệu quả hơn so với các thế hệ trước.
Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu
Ngày: 17 tháng 4 năm 2023 (phiên bản 1), tháng 7 năm 2024 (phiên bản 2)
Liên kết: Arxiv | GitHub
YOLOX: Người tiên phong không neo
Ra mắt năm 2021, YOLOX là một sản phẩm đột phá, khác biệt hoàn toàn so với các ứng dụng hẹn hò truyền thống. YOLO đường dẫn (YOLOv3, v4, v5) bằng cách áp dụng cơ chế không cần neo và đầu tách rời.
Các tính năng kiến trúc chính
YOLOX đã đơn giản hóa quy trình phát hiện bằng cách loại bỏ nhu cầu về các hộp neo được xác định trước, điều này thường đòi hỏi phải điều chỉnh theo kinh nghiệm cho các tập dữ liệu cụ thể.
- Cơ chế không cần neo: Bằng cách dự đoán trực tiếp tâm và kích thước của đối tượng, YOLOX đã giảm độ phức tạp của thiết kế và cải thiện khả năng khái quát hóa trên các tập dữ liệu đa dạng.
- Phân tách đầu mạng: Việc tách biệt các nhiệm vụ phân loại và hồi quy thành các nhánh khác nhau của đầu mạng cho phép hội tụ và độ chính xác tốt hơn.
- Phân bổ nhãn SimOTA: Chiến lược phân bổ nhãn tiên tiến này coi quá trình huấn luyện như một bài toán vận chuyển tối ưu, dẫn đến sự hội tụ nhanh hơn và phân bổ nhãn động tốt hơn.
Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức: Megvii
Ngày: 18 tháng 7 năm 2021
Liên kết: Arxiv | GitHub
So sánh hiệu suất kỹ thuật
Khi lựa chọn mô hình để sản xuất, các chỉ số thô rất quan trọng. Dưới đây là bảng so sánh chi tiết hiệu năng trên các mô hình sau: COCO tập dữ liệu.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Phân tích các chỉ số
Dữ liệu cho thấy một khoảng cách thế hệ rõ rệt. RTDETRv2 luôn vượt trội hơn YOLOX về độ chính xác ( mAP ) đối với các mô hình có kích thước tương tự. Ví dụ, RTDETRv2-l đạt được mAP 53,4% , cao hơn đáng kể so với 49,7% của YOLOX-l, đồng thời duy trì tốc độ suy luận tương đương trên GPU phần cứng.
Tuy nhiên, YOLOX vẫn giữ lợi thế trong phân khúc siêu nhẹ. Các phiên bản YOLOX-Nano và Tiny có kích thước cực kỳ nhỏ (bắt đầu từ 0,91 triệu tham số), khiến chúng trở nên khả thi đối với phần cứng điện toán biên thế hệ cũ, nơi mà mỗi kilobyte bộ nhớ đều rất quan trọng.
Mức sử dụng bộ nhớ của Transformer
Mặc dù RTDETRv2 mang lại độ chính xác cao hơn, các mô hình dựa trên Transformer thường tiêu tốn nhiều VRAM hơn đáng kể trong quá trình huấn luyện và suy luận so với các kiến trúc CNN thuần túy như YOLOX. Yêu cầu bộ nhớ cao này có thể là một trở ngại khi huấn luyện trên các GPU cấp người tiêu dùng với bộ nhớ hạn chế. CUDA ký ức.
Lợi thế của Ultralytics
Mặc dù việc phân tích các mô hình lịch sử như YOLOX và RTDETRv2 rất có giá trị cho nghiên cứu, nhưng quá trình phát triển hiện đại đòi hỏi các công cụ dễ sử dụng , có hệ sinh thái được duy trì tốt và hiệu quả vượt trội.
Ultralytics Các mô hình, bao gồm YOLOv8 và YOLO26 tiên tiến nhất, được thiết kế để thu hẹp khoảng cách giữa hiệu năng cao và trải nghiệm của nhà phát triển.
- API được tối giản: Việc chuyển đổi giữa các mô hình chỉ cần một dòng mã duy nhất.
- Tính linh hoạt: Không giống như YOLOX chỉ tập trung vào khả năng phát hiện, Ultralytics Hỗ trợ phân đoạn , ước lượng tư thế và phát hiện hộp giới hạn định hướng (OBB) một cách tự nhiên.
- Hiệu quả đào tạo: Ultralytics Các mô hình được tối ưu hóa để huấn luyện nhanh hơn với mức tiêu hao bộ nhớ thấp hơn, giúp cho trí tuệ nhân tạo cao cấp trở nên dễ tiếp cận mà không cần phần cứng cấp công nghiệp.
Hiệu suất thế hệ tiếp theo: YOLO26
Đối với các nhà phát triển đang tìm kiếm hiệu năng tốt nhất tuyệt đối vào năm 2026, chúng tôi khuyên dùng YOLO26 . Nó kết hợp những tính năng tốt nhất của cả mạng nơ-ron tích chập (CNN) và Transformer đồng thời loại bỏ những điểm yếu của chúng.
- Hệ thống quản lý mạng đầu cuối NMS - Miễn phí: YOLO26 hỗ trợ hệ thống quản lý mạng đầu cuối một cách tự nhiên, loại bỏ nhu cầu sử dụng Non-Maximum Suppression (NSMS). NMS Điều này giúp đơn giản hóa đáng kể quy trình triển khai so với YOLOX.
- Bộ tối ưu hóa MuSGD: Tận dụng những cải tiến từ quá trình huấn luyện LLM (lấy cảm hứng từ Moonshot AI), YOLO26 sử dụng bộ tối ưu hóa MuSGD để đạt được sự hội tụ ổn định và nhanh chóng.
- Tối ưu hóa cho thiết bị biên: Với việc loại bỏ tổn hao tiêu điểm phân tán (DFL), YOLO26 nhanh hơn tới 43% khi xử lý suy luận trên CPU , vượt trội hơn hẳn so với RTDETRv2 đối với các thiết bị biên thiếu GPU mạnh mẽ.
Các trường hợp sử dụng thực tế
Việc lựa chọn giữa các kiến trúc này phụ thuộc rất nhiều vào môi trường triển khai cụ thể của bạn.
Phù hợp nhất với RTDETRv2
- Giám sát đám đông: Cơ chế chú ý của bộ chuyển đổi hoạt động hiệu quả trong các tình huống quản lý đám đông, nơi các đối tượng (người) chồng chéo nhau rất nhiều.
- Hiểu bối cảnh phức tạp: Các ứng dụng yêu cầu nhận thức ngữ cảnh, chẳng hạn như điều hướng xe tự hành , được hưởng lợi từ trường tiếp nhận toàn cục của bộ chuyển đổi.
Lý tưởng cho YOLOX
- Các thiết bị biên thế hệ cũ: Đối với các thiết bị có tài nguyên cực kỳ hạn chế như Raspberry Pi đời cũ hoặc bộ vi điều khiển, YOLOX-Nano là một lựa chọn gọn nhẹ phù hợp với những nơi mà bộ chuyển đổi nguồn không thể đáp ứng.
- Các tiêu chuẩn nghiên cứu: Nhờ thiết kế đầu tách rời và không cần neo, YOLOX vẫn là một tiêu chuẩn phổ biến để nghiên cứu cơ chế phát hiện vật thể cơ bản trong nghiên cứu.
Ví dụ mã: Ultralytics Sự đơn giản
Một trong những lập luận mạnh mẽ nhất ủng hộ việc sử dụng Ultralytics Hệ sinh thái là giao diện thống nhất. Cho dù bạn đang sử dụng mô hình dựa trên transformer như RT-DETR hoặc dựa trên CNN YOLO Mã nguồn vẫn giữ nguyên tính nhất quán.
Đây là cách bạn có thể tải và chạy suy luận bằng cách sử dụng... Ultralytics Python bưu kiện:
from ultralytics import RTDETR, YOLO
# Load an RT-DETR model (Transformer-based)
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a YOLO26 model (State-of-the-art CNN)
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image
# The API is identical, simplifying A/B testing
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display results
results_yolo[0].show()
Theo dõi thí nghiệm
Ultralytics Tích hợp liền mạch với các công cụ như MLflow và Weights & Biases , cho phép bạn track So sánh số liệu từ các mô hình khác nhau cạnh nhau mà không cần thay đổi kịch bản huấn luyện.
Kết luận
Cả RTDETRv2 và YOLOX đều đã đóng góp đáng kể cho lĩnh vực thị giác máy tính. YOLOX đã chứng minh rằng các thiết kế không cần neo có thể rất hiệu quả, trong khi RTDETRv2 cho thấy các mô hình Transformer có thể hoạt động trong thời gian thực.
Tuy nhiên, đối với hầu hết các ứng dụng thực tế vào năm 2026, mô hình Ultralytics YOLO26 cung cấp giải pháp cân bằng nhất. Thiết kế không cần NMS , chức năng ProgLoss cho các đối tượng nhỏ và tối ưu hóa CPU mang lại kịch bản "tốt nhất của cả hai thế giới" - độ chính xác cao mà không cần chi phí tính toán khổng lồ của các bộ chuyển đổi. Cho dù bạn đang xây dựng cho sản xuất thông minh hay giám sát nông nghiệp , hệ thống được bảo trì tốt này vẫn đáp ứng được nhu cầu. Ultralytics Hệ sinh thái đảm bảo dự án của bạn luôn phù hợp với tương lai.
Để tìm hiểu sâu hơn, bạn cũng có thể quan tâm đến việc so sánh RT-DETR với YOLO11 hoặc đi sâu vào những ưu điểm cụ thể của YOLO26 so với YOLOv10 .