Chuyển đến nội dung

YOLOX so với RTDETRv2: Đánh giá sự phát triển của các mô hình phát hiện đối tượng thời gian thực

Việc lựa chọn kiến trúc tối ưu cho các ứng dụng thị giác máy tính đòi hỏi sự cân bằng cẩn thận giữa độ chính xác, tốc độ suy luận và khả năng triển khai. Trong phân tích kỹ thuật toàn diện này, chúng tôi khám phá những khác biệt cơ bản giữa YOLOX, một kiến trúc CNN không neo (anchor-free) rất thành công, và RTDETRv2, một bộ biến đổi detect thời gian thực tiên tiến.

Mặc dù cả hai mô hình đều đã đóng góp đáng kể cho lĩnh vực phát hiện đối tượng , nhưng các nhà phát triển xây dựng ứng dụng sẵn sàng cho sản xuất thường thấy rằng các giải pháp thay thế hiện đại như Ultralytics YOLO26 cung cấp hiệu quả huấn luyện vượt trội, yêu cầu bộ nhớ thấp hơn và hệ sinh thái triển khai mạnh mẽ hơn.

YOLOX: Thu hẹp khoảng cách giữa nghiên cứu và công nghiệp

YOLOX nổi lên như một phiên bản chuyển thể không cần neo rất phổ biến của... YOLO dòng sản phẩm này giới thiệu một thiết kế đơn giản hóa nhưng mang lại những cải tiến hiệu năng ấn tượng tại thời điểm ra mắt.

  • Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
  • Tổ chức:Megvii
  • Ngày: 18 tháng 7 năm 2021
  • Liên kết:Arxiv, GitHub, Docs

Đổi mới Kiến trúc

YOLOX đã chuyển đổi YOLO Chuyển đổi sang mô hình không cần neo, tích hợp đầu tách rời và chiến lược gán nhãn SimOTA tiên tiến. Bằng cách loại bỏ các hộp neo, kiến ​​trúc này đã giảm đáng kể số lượng tham số thiết kế và cải thiện khả năng khái quát hóa trên nhiều bộ dữ liệu chuẩn khác nhau. Các phiên bản nhẹ hơn của nó, YOLOX-Nano và YOLOX-Tiny, đã trở thành lựa chọn phổ biến để triển khai các ứng dụng AI thị giác trên các thiết bị biên .

Những cân nhắc về di sản

Mặc dù YOLOX mang lại những tiến bộ đáng kể, nhưng nó vẫn phụ thuộc vào các quy trình tăng cường phức tạp và các thuật toán xử lý hậu kỳ cũ (như các phương pháp truyền thống). NMS Điều này có thể dẫn đến độ trễ cao hơn so với các mô hình đầu cuối hoàn chỉnh.

Tìm hiểu thêm về YOLOX

RTDETRv2: Phát triển bộ chuyển đổi hình ảnh thời gian thực

Dựa trên nền tảng của phiên bản tiền nhiệm, RTDETRv2 tận dụng sức mạnh của Vision Transformers (ViTs) để đạt được độ chính xác cạnh tranh cao mà không làm giảm tốc độ suy luận thời gian thực.

  • Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
  • Tổ chức:Baidu
  • Ngày: 2024-07-24
  • Liên kết: Arxiv , GitHub

Đổi mới Kiến trúc

RTDETRv2 về cơ bản đã định hình lại quy trình phát hiện bằng cách sử dụng kiến ​​trúc dựa trên bộ chuyển đổi, giúp bỏ qua cơ chế loại bỏ cực đại cục bộ (Non-Maximum Suppression) một cách tự nhiên. NMS Điều này đạt được thông qua bộ mã hóa lai và IoU - lựa chọn truy vấn có nhận thức, giúp cải thiện quá trình khởi tạo các truy vấn đối tượng. Mô hình xử lý hiệu quả các đặc điểm đa tỷ lệ, cho phép nó nắm bắt các chi tiết phức tạp trong môi trường phức tạp, chẳng hạn như phát hiện video giao thông vào ban đêm .

Tuy nhiên, máy biến áp vốn dĩ tiêu tốn nhiều tài nguyên. Việc huấn luyện RTDETRv2 thường đòi hỏi nhiều tài nguyên hơn đáng kể. GPU Nó tiêu tốn nhiều bộ nhớ và chu kỳ tính toán hơn so với các giải pháp thay thế dựa trên CNN, điều này có thể là một trở ngại đối với các nhóm hoạt động trong điều kiện ngân sách eo hẹp hoặc những nhóm yêu cầu điều chỉnh mô hình thường xuyên.

Tìm hiểu thêm về RTDETR

Bảng so sánh hiệu năng

Để đánh giá khách quan các kiến ​​trúc này, chúng tôi xem xét hiệu năng của chúng trên tập dữ liệu COCO . Bảng dưới đây minh họa sự đánh đổi giữa độ chính xác ( mAP ), số lượng tham số và độ phức tạp tính toán.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Mặc dù RTDETRv2 đạt được độ chính xác ấn tượng, YOLOX vẫn duy trì ưu thế về cấu hình tham số gọn nhẹ, đặc biệt là với các phiên bản Nano và Tiny của nó.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOX và RT-DETR phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn YOLOX

YOLOX là một lựa chọn tuyệt vời cho:

  • Nghiên cứu detect không Anchor: Nghiên cứu học thuật sử dụng kiến trúc không anchor, gọn gàng của YOLOX làm cơ sở để thử nghiệm các đầu detect mới hoặc hàm mất mát.
  • Thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động cũ, nơi dấu chân cực nhỏ của biến thể YOLOX-Nano (0.91M tham số) là rất quan trọng.
  • Nghiên cứu gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ huấn luyện.

Khi nào nên lựa chọn RT-DETR

RT-DETR được khuyến nghị cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer để phát hiện đối tượng đầu cuối mà không cần NMS.
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác detect là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút có thể chấp nhận được.
  • Phát hiện đối tượng lớn: Các cảnh với chủ yếu các đối tượng từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
  • Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Lợi thế của Ultralytics: YOLO26

Mặc dù cả YOLOX và RTDETRv2 đều có những thế mạnh riêng biệt, nhưng Ultralytics YOLO26 mới ra mắt đã định nghĩa lại tiêu chuẩn tiên tiến nhất cho trí tuệ nhân tạo thị giác, giải quyết những sự đánh đổi trước đây giữa tốc độ, độ chính xác và tính dễ triển khai.

1. Kiến trúc không NMS đầu cuối

Lấy cảm hứng từ các mô hình Transformer trong khi vẫn duy trì hiệu quả của mạng CNN, YOLO26 có thiết kế hoàn toàn không sử dụng NMS (Non-Maximum Suppression) từ đầu đến cuối . Bằng cách loại bỏ NMS như một bước xử lý hậu kỳ, YOLO26 đơn giản hóa đáng kể quy trình triển khai, đảm bảo độ trễ suy luận nhất quán trên nhiều thiết bị biên khác nhau mà không cần phải điều chỉnh ngưỡng phức tạp.

2. Suy luận trên CPU nhanh hơn tới 43%

Không giống như các kiến ​​trúc transformer như RTDETRv2 phụ thuộc nhiều vào GPU cao cấp, YOLO26 được tối ưu hóa đặc biệt cho môi trường điện toán biên . Bằng cách loại bỏ hiện tượng mất mát tiêu điểm phân tán (DFL), YOLO26 giúp đơn giản hóa quá trình xuất mô hình và đạt được tốc độ nhanh hơn tới 43%. CPU suy luận, khiến nó trở thành lựa chọn lý tưởng để tích hợp vào phần cứng như Raspberry Pi hoặc các thiết bị di động tiêu chuẩn.

3. Hiệu quả huấn luyện với MuSGD

Việc huấn luyện các mô hình Transformer thường dẫn đến việc tiêu tốn quá nhiều bộ nhớ CUDA và thời gian huấn luyện kéo dài. YOLO26 giới thiệu bộ tối ưu hóa MuSGD mới — sự kết hợp giữa thuật toán tối ưu hóa độ dốc ngẫu nhiên (Stochastic Gradient Descent) và bộ tối ưu hóa Muon lấy cảm hứng từ LLM. Sự đổi mới này mang lại khả năng huấn luyện cực kỳ ổn định và tốc độ hội tụ nhanh hơn, giảm đáng kể yêu cầu phần cứng so với RTDETRv2.

4. Hệ sinh thái và tính linh hoạt vượt trội

Hệ sinh thái Ultralytics cung cấp trải nghiệm phát triển trực quan và hiệu quả. Với tài liệu đầy đủ, sự hỗ trợ tích cực từ cộng đồng và nền tảng Ultralytics dựa trên điện toán đám mây, việc quản lý toàn bộ vòng đời AI chưa bao giờ dễ dàng hơn. Hơn nữa, YOLO26 rất linh hoạt. Trong khi RTDETRv2 tập trung vào phát hiện đối tượng, YOLO26 hỗ trợ liền mạch các tác vụ phân đoạn đối tượng , ước tính tư thế , phân loại hình ảnhhộp giới hạn định hướng (OBB) . Được tăng cường bởi các hàm mất mát ProgLoss + STAL mới, YOLO26 cũng vượt trội trong nhận dạng vật thể nhỏ, một tính năng quan trọng đối với hình ảnh trên khôngphát hiện lỗi công nghiệp .

Các mẫu máy được hỗ trợ khác

Cái Ultralytics Khung phần mềm này cũng hỗ trợ các thế hệ trước YOLO11YOLOv8 , cho phép người dùng dễ dàng đánh giá hiệu năng và chuyển đổi các pipeline cũ.

Tích hợp liền mạch với Ultralytics

Triển khai các mô hình không nên đòi hỏi phải vật lộn với các cơ sở mã phức tạp, phân mảnh. API Python của Ultralytics cho phép bạn tải, huấn luyện và xuất các mô hình tiên tiến chỉ với vài dòng mã.

from ultralytics import YOLO

# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)

Bằng cách tận dụng Ultralytics, bạn tránh được các cấu hình môi trường phức tạp thường liên quan đến các kho lưu trữ nghiên cứu, đẩy nhanh thời gian đưa sản phẩm ra thị trường.

Kết luận

YOLOX và RTDETRv2 đại diện cho những cột mốc quan trọng trong sự phát triển của phát hiện đối tượng thời gian thực. YOLOX đã chứng minh tính khả thi của các mạng CNN không cần anchor hiệu quả cao, trong khi RTDETRv2 đã thành công trong việc điều chỉnh mô hình transformer để đáp ứng các ràng buộc thời gian thực.

Tuy nhiên, đối với các ứng dụng hiện đại, từ phân tích bán lẻ thông minh đến robot nhúng, Ultralytics YOLO26 cung cấp giải pháp tối ưu. Bằng cách kết hợp... NMS - Suy luận miễn phí với khả năng vượt trội CPU tốc độ, giảm dung lượng bộ nhớ và khả năng hỗ trợ mạnh mẽ của Ultralytics Nền tảng YOLO26 trang bị cho các nhà phát triển khả năng xây dựng thế hệ tiếp theo của các hệ thống thị giác máy tính đáng tin cậy và hiệu năng cao.


Bình luận