Chuyển đến nội dung

YOLOX so với RTDETRv2: Đánh giá sự phát triển của các mô hình phát hiện đối tượng thời gian thực

Việc lựa chọn kiến ​​trúc tối ưu cho các ứng dụng thị giác máy tính đòi hỏi sự cân bằng cẩn thận giữa độ chính xác, tốc độ suy luận và tính khả thi triển khai. Trong phân tích kỹ thuật toàn diện này, chúng tôi khám phá những khác biệt cơ bản giữa YOLOX , một kiến ​​trúc CNN không cần anchor rất thành công, và RTDETRv2 , một bộ chuyển đổi phát hiện thời gian thực tiên tiến nhất hiện nay.

Mặc dù cả hai mô hình đều đã đóng góp đáng kể cho lĩnh vực phát hiện đối tượng , nhưng các nhà phát triển xây dựng ứng dụng sẵn sàng cho sản xuất thường thấy rằng các giải pháp thay thế hiện đại như Ultralytics YOLO26 cung cấp hiệu quả huấn luyện vượt trội, yêu cầu bộ nhớ thấp hơn và hệ sinh thái triển khai mạnh mẽ hơn.

YOLOX: Thu hẹp khoảng cách giữa nghiên cứu và công nghiệp

YOLOX nổi lên như một phiên bản chuyển thể không cần neo rất phổ biến của... YOLO dòng sản phẩm này giới thiệu một thiết kế đơn giản hóa nhưng mang lại những cải tiến hiệu năng ấn tượng tại thời điểm ra mắt.

  • Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
  • Tổ chức:Megvii
  • Ngày: 18 tháng 7 năm 2021
  • Liên kết:Arxiv, GitHub, Docs

Đổi mới Kiến trúc

YOLOX đã chuyển đổi YOLO Chuyển đổi sang mô hình không cần neo, tích hợp đầu tách rời và chiến lược gán nhãn SimOTA tiên tiến. Bằng cách loại bỏ các hộp neo, kiến ​​trúc này đã giảm đáng kể số lượng tham số thiết kế và cải thiện khả năng khái quát hóa trên nhiều bộ dữ liệu chuẩn khác nhau. Các phiên bản nhẹ hơn của nó, YOLOX-Nano và YOLOX-Tiny, đã trở thành lựa chọn phổ biến để triển khai các ứng dụng AI thị giác trên các thiết bị biên .

Những cân nhắc về di sản

Mặc dù YOLOX mang lại những tiến bộ đáng kể, nhưng nó vẫn phụ thuộc vào các quy trình tăng cường phức tạp và các thuật toán xử lý hậu kỳ cũ (như các phương pháp truyền thống). NMS Điều này có thể dẫn đến độ trễ cao hơn so với các mô hình đầu cuối hoàn chỉnh.

Tìm hiểu thêm về YOLOX

RTDETRv2: Phát triển bộ chuyển đổi hình ảnh thời gian thực

Được xây dựng dựa trên nền tảng của phiên bản tiền nhiệm, RTDETRv2 tận dụng sức mạnh của Vision Transformers (ViTs) để đạt được độ chính xác cạnh tranh cao mà không làm giảm tốc độ suy luận thời gian thực.

  • Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
  • Tổ chức:Baidu
  • Ngày: 2024-07-24
  • Liên kết: Arxiv , GitHub

Đổi mới Kiến trúc

RTDETRv2 về cơ bản đã định hình lại quy trình phát hiện bằng cách sử dụng kiến ​​trúc dựa trên bộ chuyển đổi, giúp bỏ qua cơ chế loại bỏ cực đại cục bộ (Non-Maximum Suppression) một cách tự nhiên. NMS Điều này đạt được thông qua bộ mã hóa lai và IoU - lựa chọn truy vấn có nhận thức, giúp cải thiện quá trình khởi tạo các truy vấn đối tượng. Mô hình xử lý hiệu quả các đặc điểm đa tỷ lệ, cho phép nó nắm bắt các chi tiết phức tạp trong môi trường phức tạp, chẳng hạn như phát hiện video giao thông vào ban đêm .

Tuy nhiên, máy biến áp vốn dĩ tiêu tốn nhiều tài nguyên. Việc huấn luyện RTDETRv2 thường đòi hỏi nhiều tài nguyên hơn đáng kể. GPU Nó tiêu tốn nhiều bộ nhớ và chu kỳ tính toán hơn so với các giải pháp thay thế dựa trên CNN, điều này có thể là một trở ngại đối với các nhóm hoạt động trong điều kiện ngân sách eo hẹp hoặc những nhóm yêu cầu điều chỉnh mô hình thường xuyên.

Tìm hiểu thêm về RTDETR

Bảng so sánh hiệu năng

Để đánh giá khách quan các kiến ​​trúc này, chúng tôi xem xét hiệu năng của chúng trên tập dữ liệu COCO . Bảng dưới đây minh họa sự đánh đổi giữa độ chính xác ( mAP ), số lượng tham số và độ phức tạp tính toán.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Mặc dù RTDETRv2 đạt được độ chính xác ấn tượng, YOLOX vẫn duy trì ưu thế về cấu hình tham số gọn nhẹ, đặc biệt là với các phiên bản Nano và Tiny của nó.

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa YOLOX và RT-DETR Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLOX

YOLOX là một lựa chọn tuyệt vời cho:

  • Nghiên cứu phát hiện không cần neo: Nghiên cứu học thuật sử dụng kiến ​​trúc sạch, không cần neo của YOLOX làm cơ sở để thử nghiệm các đầu phát hiện hoặc hàm mất mát mới.
  • Các thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động thế hệ cũ, nơi mà kích thước cực nhỏ (0,91 triệu tham số) của biến thể YOLOX-Nano là rất quan trọng.
  • Nghiên cứu phân bổ nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược phân bổ nhãn dựa trên phương tiện vận chuyển tối ưu và tác động của chúng đến sự hội tụ của quá trình huấn luyện.

Khi nào nên lựa chọn RT-DETR

RT-DETR được khuyến nghị cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến ​​trúc Transformer để phát hiện đối tượng từ đầu đến cuối mà không cần NMS .
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là chấp nhận được.
  • Phát hiện vật thể lớn: Các cảnh chủ yếu chứa các vật thể có kích thước trung bình đến lớn, nơi cơ chế chú ý toàn cục của Transformer mang lại lợi thế tự nhiên.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Lợi thế của Ultralytics: YOLO26

Mặc dù cả YOLOX và RTDETRv2 đều có những thế mạnh riêng biệt, nhưng Ultralytics YOLO26 mới ra mắt đã định nghĩa lại tiêu chuẩn tiên tiến nhất cho trí tuệ nhân tạo thị giác, giải quyết những sự đánh đổi trước đây giữa tốc độ, độ chính xác và tính dễ triển khai.

1. Từ đầu đến cuối NMS - Kiến trúc tự do

Lấy cảm hứng từ các mô hình Transformer trong khi vẫn duy trì hiệu quả của mạng CNN, YOLO26 có thiết kế hoàn toàn không sử dụng NMS (Non-Maximum Suppression) từ đầu đến cuối . Bằng cách loại bỏ NMS như một bước xử lý hậu kỳ, YOLO26 đơn giản hóa đáng kể quy trình triển khai, đảm bảo độ trễ suy luận nhất quán trên nhiều thiết bị biên khác nhau mà không cần phải điều chỉnh ngưỡng phức tạp.

2. Nhanh hơn tới 43% CPU Suy luận

Không giống như các kiến ​​trúc transformer như RTDETRv2 phụ thuộc nhiều vào GPU cao cấp, YOLO26 được tối ưu hóa đặc biệt cho môi trường điện toán biên . Bằng cách loại bỏ hiện tượng mất mát tiêu điểm phân tán (DFL), YOLO26 giúp đơn giản hóa quá trình xuất mô hình và đạt được tốc độ nhanh hơn tới 43%. CPU suy luận, khiến nó trở thành lựa chọn lý tưởng để tích hợp vào phần cứng như Raspberry Pi hoặc các thiết bị di động tiêu chuẩn.

3. Nâng cao hiệu quả đào tạo với MuSGD

Việc huấn luyện các mô hình Transformer thường dẫn đến việc tiêu tốn quá nhiều bộ nhớ CUDA và thời gian huấn luyện kéo dài. YOLO26 giới thiệu bộ tối ưu hóa MuSGD mới — sự kết hợp giữa thuật toán tối ưu hóa độ dốc ngẫu nhiên (Stochastic Gradient Descent) và bộ tối ưu hóa Muon lấy cảm hứng từ LLM. Sự đổi mới này mang lại khả năng huấn luyện cực kỳ ổn định và tốc độ hội tụ nhanh hơn, giảm đáng kể yêu cầu phần cứng so với RTDETRv2.

4. Hệ sinh thái và tính linh hoạt vượt trội

Hệ sinh thái Ultralytics cung cấp trải nghiệm phát triển trực quan và hiệu quả. Với tài liệu đầy đủ, sự hỗ trợ tích cực từ cộng đồng và nền tảng Ultralytics dựa trên điện toán đám mây, việc quản lý toàn bộ vòng đời AI chưa bao giờ dễ dàng hơn. Hơn nữa, YOLO26 rất linh hoạt. Trong khi RTDETRv2 tập trung vào phát hiện đối tượng, YOLO26 hỗ trợ liền mạch các tác vụ phân đoạn đối tượng , ước tính tư thế , phân loại hình ảnhhộp giới hạn định hướng (OBB) . Được tăng cường bởi các hàm mất mát ProgLoss + STAL mới, YOLO26 cũng vượt trội trong nhận dạng vật thể nhỏ, một tính năng quan trọng đối với hình ảnh trên khôngphát hiện lỗi công nghiệp .

Các mẫu máy được hỗ trợ khác

Cái Ultralytics Khung phần mềm này cũng hỗ trợ các thế hệ trước YOLO11YOLOv8 , cho phép người dùng dễ dàng đánh giá hiệu năng và chuyển đổi các pipeline cũ.

Tích hợp liền mạch với Ultralytics

Việc triển khai mô hình không nên đòi hỏi phải vật lộn với các cơ sở mã phức tạp, rời rạc. Ultralytics Python API cho phép bạn tải, huấn luyện và xuất các mô hình hiện đại chỉ với một vài dòng mã.

from ultralytics import YOLO

# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)

Bằng cách tận dụng Ultralytics Nhờ đó, bạn sẽ tránh được các cấu hình môi trường phức tạp thường gặp ở các kho lưu trữ nghiên cứu, giúp rút ngắn thời gian đưa sản phẩm ra thị trường.

Kết luận

YOLOX và RTDETRv2 đại diện cho những cột mốc quan trọng trong sự phát triển của phát hiện đối tượng thời gian thực. YOLOX đã chứng minh tính khả thi của các mạng CNN không cần anchor hiệu quả cao, trong khi RTDETRv2 đã thành công trong việc điều chỉnh mô hình transformer để đáp ứng các ràng buộc thời gian thực.

Tuy nhiên, đối với các ứng dụng hiện đại, từ phân tích bán lẻ thông minh đến robot nhúng, Ultralytics YOLO26 cung cấp giải pháp tối ưu. Bằng cách kết hợp... NMS - Suy luận miễn phí với khả năng vượt trội CPU tốc độ, giảm dung lượng bộ nhớ và khả năng hỗ trợ mạnh mẽ của Ultralytics Nền tảng YOLO26 trang bị cho các nhà phát triển khả năng xây dựng thế hệ tiếp theo của các hệ thống thị giác máy tính đáng tin cậy và hiệu năng cao.


Bình luận