YOLOX so với... RT-DETRv2 Cân bằng giữa kiến trúc kế thừa và sự đổi mới trong công nghệ chuyển đổi.
Việc lựa chọn kiến trúc phát hiện đối tượng tối ưu là một quyết định quan trọng, ảnh hưởng đến độ trễ, độ chính xác và khả năng mở rộng của các dự án thị giác máy tính của bạn. Phân tích kỹ thuật này so sánh YOLOX , một mạng CNN cơ bản không cần anchor mạnh mẽ từ năm 2021, với RT-DETRv2 , một mô hình dựa trên transformer tiên tiến được tối ưu hóa cho các ứng dụng thời gian thực.
Mặc dù cả hai mô hình đều đại diện cho những bước tiến đáng kể tại thời điểm ra mắt, nhưng quy trình làm việc hiện đại ngày càng đòi hỏi các giải pháp kết hợp hiệu năng cao với khả năng triển khai dễ dàng. Trong bài so sánh này, chúng ta cũng sẽ tìm hiểu cách Ultralytics YOLO26 tiên tiến tổng hợp những tính năng tốt nhất của các kiến trúc này—chẳng hạn như NMS - suy luận tự do - vào một khuôn khổ duy nhất, hiệu quả.
Điểm chuẩn hiệu suất
Bảng sau đây trình bày sự so sánh trực tiếp các chỉ số chính. Lưu ý rằng trong khi RT-DETRv2 Mặc dù thường cung cấp độ chính xác trung bình ( mAP ) cao hơn, nhưng nó đòi hỏi nhiều tài nguyên tính toán hơn đáng kể, được thể hiện qua số lượng FLOPs .
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOX: Người tiên phong không neo
YOLOX được các nhà nghiên cứu tại Megvii giới thiệu vào năm 2021, đánh dấu sự chuyển dịch khỏi các cơ chế dựa trên neo vốn chiếm ưu thế trước đó. YOLO các phiên bản (như YOLOv4 và YOLOv5 Nó đã tinh giản thiết kế bằng cách loại bỏ các hộp neo và giới thiệu một đầu tách rời, giúp phân tách các nhiệm vụ phân loại và định vị để đạt được sự hội tụ tốt hơn.
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
- Tổ chức: Megvii
- Ngày: 18 tháng 7 năm 2021
- Arxiv:YOLOX: Exceeding YOLO Series in 2021
- GitHub:Megvii-BaseDetection/YOLOX
Kiến trúc và Điểm mạnh
YOLOX sử dụng chiến lược gán nhãn SimOTA (Simplified Optimal Transport Assignment), chiến lược này tự động gán các mẫu dương cho các đối tượng thực tế. Điều này cho phép mô hình xử lý các hiện tượng che khuất và thay đổi kích thước đối tượng hiệu quả hơn so với các mô hình cứng nhắc. IoU ngưỡng dựa trên.
Kiến trúc đơn giản của nó khiến nó trở thành nền tảng được ưa chuộng trong nghiên cứu học thuật. Thiết kế "đầu xử lý tách rời" - xử lý các đặc trưng phân loại và hồi quy trong các nhánh riêng biệt - cải thiện tính ổn định và độ chính xác của quá trình huấn luyện.
Khả năng tương thích với hệ thống cũ
YOLOX vẫn là một lựa chọn mạnh mẽ cho các hệ thống cũ được xây dựng dựa trên mã nguồn từ năm 2021 hoặc cho các nhà nghiên cứu cần một nền tảng CNN sạch, không có anchor để thử nghiệm các thành phần lý thuyết mới.
Tuy nhiên, so với các phiên bản hiện đại, YOLOX dựa vào phương pháp loại bỏ cực đại không tương thích (Non-Maximum Suppression - NMS ) để xử lý hậu kỳ. Bước này tạo ra sự biến đổi về độ trễ, khiến nó kém ổn định hơn đối với các ứng dụng công nghiệp thời gian thực so với các mô hình đầu cuối mới hơn.
RT-DETRv2 Máy biến áp thời gian thực
RT-DETRv2 (Real-Time Detection Transformer v2) là sự phát triển của phiên bản gốc. RT-DETR Được phát triển bởi Baidu , công nghệ này giải quyết chi phí tính toán cao thường gặp ở các mô hình Vision Transformer (ViT) bằng cách sử dụng bộ mã hóa lai hiệu quả, xử lý nhanh chóng các đặc trưng đa tỷ lệ.
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
- Tổ chức: Baidu
- Ngày: 17 tháng 4 năm 2023 (phiên bản 1), 24 tháng 7 năm 2024 (phiên bản 2)
- Arxiv:RT-DETRv2: Improved Baseline with Bag-of-Freebies
- GitHub:lyuwenyu/RT-DETR
Kiến trúc và các cải tiến
Đặc điểm nổi bật của RT-DETRv2 Điểm nổi bật của mô hình là khả năng suy luận không cần NMS . Bằng cách sử dụng bộ giải mã Transformer với các truy vấn đối tượng, mô hình dự đoán trực tiếp một tập hợp các hộp giới hạn cố định. Điều này loại bỏ sự cần thiết phải sử dụng NMS. NMS , giúp đơn giản hóa quy trình triển khai và đảm bảo thời gian suy luận nhất quán bất kể số lượng đối tượng trong một cảnh.
RT-DETRv2 Phiên bản này được cải tiến so với phiên bản tiền nhiệm nhờ bộ mã hóa lai linh hoạt và khả năng định lượng độ bất định được tối ưu hóa, cho phép nó đạt được độ chính xác cao hơn (lên đến 54,3% mAP ) trên tập dữ liệu COCO .
Cường độ tài nguyên
Mặc dù chính xác, RT-DETRv2 Các khối chuyển đổi của nó tiêu tốn rất nhiều bộ nhớ. Quá trình huấn luyện thường yêu cầu nhiều bộ nhớ hơn đáng kể. CUDA có bộ nhớ lớn hơn so với các mô hình dựa trên CNN, và tốc độ suy luận nhanh hơn trên các hệ thống không sử dụng CNN. GPU Phần cứng (như CPU tiêu chuẩn) có thể hoạt động chậm chạp do sự phức tạp của các cơ chế chú ý.
Lợi thế của Ultralytics: Tại sao chọn YOLO26?
Trong khi YOLOX đóng vai trò là cơ sở nghiên cứu đáng tin cậy và RT-DETRv2 Đẩy mạnh giới hạn về độ chính xác của bộ chuyển đổi, hệ sinh thái Ultralytics cung cấp một giải pháp cân bằng giữa những ưu điểm tốt nhất của cả hai thế giới. Ultralytics YOLO26 được thiết kế dành cho các nhà phát triển yêu cầu hiệu năng hàng đầu mà không cần sự phức tạp của các kho lưu trữ thử nghiệm.
End-to-End và không cần NMS nguyên bản
YOLO26 áp dụng triết lý thiết kế " Từ đầu đến cuối không cần hệ quản lý mạng" (End-to-End NMS -Free) do YOLOv10 tiên phong. RT-DETR nhưng lại triển khai nó trong một kiến trúc CNN hiệu quả cao. Điều này có nghĩa là bạn có được sự triển khai đơn giản hóa. RT-DETRv2 —không cần logic xử lý hậu kỳ phức tạp—kết hợp với tốc độ xử lý nhanh chóng của mạng nơ-ron tích chập (CNN).
Hiệu quả vượt trội cho điện toán biên
Không giống như các khối biến áp nặng trong RT-DETRv2 YOLO26 được tối ưu hóa cho nhiều loại phần cứng khác nhau.
- Loại bỏ DFL: Bằng cách loại bỏ tổn hao tiêu điểm phân tán (Distribution Focal Loss - DFL), cấu trúc mô hình được đơn giản hóa, tăng cường khả năng tương thích với các bộ tăng tốc biên và các thiết bị công suất thấp.
- Tối ưu hóa CPU : YOLO26 mang lại khả năng suy luận nhanh hơn tới 43% trên CPU so với các thế hệ trước, biến nó trở thành lựa chọn vượt trội cho các triển khai AI biên (Edge AI) trong trường hợp không có GPU.
Động lực huấn luyện nâng cao
YOLO26 tích hợp Trình tối ưu hóa MuSGD , một sự kết hợp giữa... SGD và thuật toán tối ưu hóa Muon được lấy cảm hứng từ quá trình huấn luyện LLM. Sự đổi mới này mang lại tính ổn định của việc huấn luyện mô hình ngôn ngữ quy mô lớn cho thị giác máy tính, dẫn đến sự hội tụ nhanh hơn và trọng số mạnh mẽ hơn. Ngoài ra, các hàm mất mát được cải tiến như ProgLoss và STAL giúp tăng hiệu suất đáng kể trên các đối tượng nhỏ, một điểm yếu phổ biến trong các mô hình cũ hơn như YOLOX.
Quy trình làm việc liền mạch với Ultralytics Nền tảng
Có lẽ lợi thế lớn nhất là Nền tảng Ultralytics . Trong khi YOLOX và RT-DETRv2 thường đòi hỏi phải điều hướng qua các cơ sở mã GitHub phân mảnh, Ultralytics Cung cấp giao diện thống nhất. Bạn có thể chuyển đổi giữa các tác vụ — phát hiện , phân đoạn , ước tính tư thế , phân loại và OBB — chỉ bằng cách thay đổi tên mô hình.
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")
# Train on your dataset (auto-download supported)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
Kết luận
Đối với các nghiên cứu học thuật yêu cầu một mạng CNN thuần túy làm nền tảng, YOLOX vẫn là một lựa chọn hợp lý. Đối với các trường hợp có nhiều dữ liệu cần thiết GPU Trong trường hợp độ chính xác tối đa là tiêu chí duy nhất, RT-DETRv2 là một ứng cử viên sáng giá. Tuy nhiên, đối với các hệ thống sản xuất thực tế đòi hỏi sự cân bằng giữa tốc độ, độ chính xác và dễ bảo trì, Ultralytics YOLO26 là sự lựa chọn hàng đầu, cung cấp các khả năng toàn diện thế hệ tiếp theo với hiệu quả cần thiết cho việc triển khai hiện đại.
Đọc thêm
Để tìm hiểu thêm về các mẫu xe hiệu năng cao khác trong Ultralytics Gia đình ơi, hãy xem nhé:
- YOLO11 : Một mô hình đa năng mạnh mẽ hỗ trợ nhiều nhiệm vụ thị giác khác nhau.
- YOLOv10 : Phiên bản đầu tiên YOLO Phiên bản này giới thiệu tính năng phát hiện đối tượng từ đầu đến cuối theo thời gian thực.
- RT-DETR : Phiên bản triển khai Real-Time Detection Transformer của chúng tôi dành cho những ai ưa thích kiến trúc dựa trên transformer.