Chuyển đến nội dung

YOLOX so với RTDETRv2: So sánh kỹ thuật để phát hiện đối tượng

Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn kiến trúc phù hợp cho dự án của bạn thường liên quan đến việc cân nhắc giữa tốc độ suy luận, độ chính xác và hiệu quả tài nguyên tính toán. Bài so sánh này khám phá hai phương pháp phát hiện đối tượng riêng biệt: YOLOX , một CNN không neo hiệu suất cao, và RTDETRv2 , một bộ chuyển đổi phát hiện thời gian thực tiên tiến.

Trong khi YOLOX đại diện cho một sự thay đổi đáng kể hướng tới các phương pháp không có mỏ neo trong YOLO RTDETRv2 tận dụng sức mạnh của Vision Transformers (ViTs) để nắm bắt bối cảnh toàn cầu, thách thức các Mạng Nơ-ron Tích chập (CNN) truyền thống. Hướng dẫn này phân tích kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn đưa ra quyết định sáng suốt.

Phân tích hiệu năng: Tốc độ so với độ chính xác

Các số liệu hiệu suất dưới đây minh họa triết lý thiết kế cơ bản của hai mô hình này. RTDETRv2 thường đạt được Độ chính xác trung bình ( mAP ) cao hơn bằng cách sử dụng các cơ chế chú ý để hiểu các cảnh phức tạp. Tuy nhiên, độ chính xác này thường đi kèm với chi phí tính toán tăng lên. YOLOX, đặc biệt là trong các biến thể nhỏ hơn, ưu tiên độ trễ suy luận thấp và thực thi hiệu quả trên phần cứng tiêu chuẩn.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Như thể hiện trong bảng, RTDETRv2-x đạt được độ chính xác cao nhất với mAP của 54,3 , vượt trội hơn biến thể YOLOX lớn nhất. Ngược lại, YOLOX-s thể hiện tốc độ vượt trội trên GPU phần cứng, giúp nó có hiệu quả cao đối với các ứng dụng nhạy cảm với độ trễ.

YOLOX: Hiệu quả không cần neo

YOLOX tinh chỉnh YOLO bằng cách chuyển sang cơ chế không neo và tách rời đầu phát hiện. Bằng cách loại bỏ nhu cầu sử dụng hộp neo được xác định trước, YOLOX đơn giản hóa quy trình đào tạo và cải thiện khả năng khái quát hóa trên nhiều hình dạng vật thể khác nhau.

Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức: Megvii
Ngày: 18-07-2021
Arxiv: YOLOX: Vượt qua chuỗi YOLO năm 2021

Điểm mạnh chính

  • Thiết kế không có điểm neo: Loại bỏ việc điều chỉnh thủ công các siêu tham số neo, giúp giảm độ phức tạp của thiết kế.
  • Đầu tách rời: Tách nhiệm vụ phân loại và hồi quy, giúp mô hình hội tụ nhanh hơn và đạt độ chính xác cao hơn.
  • SimOTA: Chiến lược gán nhãn nâng cao giúp gán các mẫu dương tính một cách linh hoạt, cải thiện tính ổn định của quá trình đào tạo.

Điểm yếu

  • Kiến trúc cũ: Được phát hành vào năm 2021, kiến trúc này thiếu một số tối ưu hóa hiện đại có trong các phiên bản mới hơn như YOLO11 .
  • Hỗ trợ tác vụ hạn chế: Chủ yếu tập trung vào phát hiện, thiếu hỗ trợ gốc cho phân đoạn hoặc ước tính tư thế trong cùng một khuôn khổ.

Tìm hiểu thêm về YOLOX

RTDETRv2: Siêu máy biến áp

RTDETRv2 (Real-Time Detection Transformer phiên bản 2) là một bước tiến vượt bậc trong việc ứng dụng kiến trúc Transformer vào phát hiện đối tượng thời gian thực. Nó giải quyết vấn đề chi phí tính toán cao thường gặp ở Transformer bằng cách giới thiệu một bộ mã hóa lai hiệu quả.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu
Ngày: 17-04-2023 (v1), 07-07-2024 (v2)
Arxiv: RT-DETRv2 : Cải thiện đường cơ sở với Túi quà tặng miễn phí

Điểm mạnh chính

  • Bối cảnh toàn cầu: Cơ chế tự chú ý cho phép mô hình hiểu được mối quan hệ giữa các vật thể ở xa trong hình ảnh, giảm thiểu các kết quả dương tính giả trong các cảnh phức tạp.
  • Độ chính xác cao: Luôn đạt được độ chính xác cao hơn mAP điểm số so với các mô hình dựa trên CNN có quy mô tương tự.
  • Không cần NMS : Kiến trúc máy biến áp tự động loại bỏ các phát hiện trùng lặp, loại bỏ nhu cầu xử lý hậu kỳ bằng NMS (Non-Maximum Suppression) .

Điểm yếu

  • Cường độ bộ nhớ: Yêu cầu nhiều hơn đáng kể GPU VRAM trong quá trình đào tạo so với CNN, khiến việc đào tạo trên phần cứng dành cho người tiêu dùng trở nên khó khăn hơn.
  • Độ trễ CPU : Mặc dù được tối ưu hóa cho GPU , Hoạt động của máy biến áp có thể chậm hơn trên CPU -chỉ các thiết bị biên so với các CNN nhẹ như YOLOX-Nano.

Tìm hiểu thêm về RTDETRv2

Các trường hợp sử dụng lý tưởng

Sự lựa chọn giữa các mô hình này thường phụ thuộc vào những hạn chế cụ thể của môi trường triển khai.

  • Chọn YOLOX nếu: Bạn đang triển khai trên các thiết bị biên giới hạn tài nguyên như Raspberry Pi hoặc điện thoại di động, nơi mà từng mili giây độ trễ đều quan trọng. Giải pháp này cũng lý tưởng cho các dây chuyền kiểm tra công nghiệp, nơi các đối tượng cứng nhắc và có thể dự đoán được.
  • Chọn RTDETRv2 nếu: Bạn có quyền truy cập vào GPU mạnh mẽ (như NVIDIA T4 hoặc A100) và độ chính xác là tối quan trọng. Nó hoạt động hiệu quả trong các cảnh đông đúc, lái xe tự động hoặc giám sát trên không, nơi bối cảnh và mối quan hệ giữa vật thể và bối cảnh là yếu tố then chốt.

Tối ưu hóa triển khai

Bất kể mô hình nào được chọn, việc sử dụng các nền tảng tối ưu hóa như TensorRT hoặc OpenVINO là điều cần thiết để đạt được tốc độ thời gian thực trong môi trường sản xuất. Cả hai mô hình đều được hưởng lợi đáng kể từ việc lượng tử hóa lên FP16 hoặc INT8.

Tại sao Ultralytics YOLO Người mẫu là sự lựa chọn tuyệt vời

Trong khi YOLOX và RTDETRv2 rất ấn tượng, hệ sinh thái Ultralytics YOLO do YOLO11 dẫn đầu lại cung cấp giải pháp toàn diện hơn cho các nhà phát triển và nhà nghiên cứu. Ultralytics ưu tiên trải nghiệm của người dùng, đảm bảo AI tiên tiến có thể truy cập được, hiệu quả và linh hoạt.

1. Tính linh hoạt và hệ sinh thái vô song

Không giống như YOLOX, vốn chủ yếu là một mô hình phát hiện, Ultralytics YOLO11 hỗ trợ sẵn một loạt các tác vụ thị giác máy tính, bao gồm Phân đoạn thực thể , Ước lượng tư thế , Phân loại và Phát hiện Hộp giới hạn định hướng (OBB) . Điều này cho phép bạn giải quyết nhiều vấn đề với một API thống nhất duy nhất.

2. Dễ sử dụng và bảo trì

Các Ultralytics Gói này đơn giản hóa thế giới phức tạp của MLOps . Với cơ sở mã được bảo trì tốt, cập nhật thường xuyên và tài liệu hướng dẫn chi tiết, người dùng có thể chuyển từ cài đặt sang đào tạo chỉ trong vài phút.

from ultralytics import YOLO

# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Train the model on a custom dataset
train_results = model.train(
    data="coco8.yaml",  # path to dataset YAML
    epochs=100,  # number of training epochs
    imgsz=640,  # training image size
    device="cpu",  # device to run on, i.e. device=0 or device=0,1,2,3 or device="cpu"
)

# Evaluate model performance on the validation set
metrics = model.val()

3. Hiệu quả đào tạo và dấu ấn trí nhớ

Một trong những lợi thế quan trọng của Ultralytics YOLO Các mô hình dựa trên bộ biến áp như RTDETRv2 được biết là ngốn dữ liệu và bộ nhớ lớn, thường yêu cầu GPU cao cấp với VRAM lớn để huấn luyện. Ngược lại, Ultralytics YOLO các mô hình được tối ưu hóa để đào tạo hiệu quả trên nhiều loại phần cứng hơn, bao gồm cả GPU của người tiêu dùng, đồng thời sử dụng ít hơn CUDA bộ nhớ. Hiệu quả đào tạo này giúp dân chủ hóa khả năng tiếp cận AI hiệu suất cao.

4. Cân bằng hiệu suất

Ultralytics Các mô hình được thiết kế để đạt được "điểm cân bằng" giữa tốc độ và độ chính xác. Đối với hầu hết các ứng dụng thực tế - từ phân tích bán lẻ đến giám sát an toàn - YOLO11 cung cấp độ chính xác tương đương với Transformers trong khi vẫn duy trì tốc độ suy luận cực nhanh cần thiết cho nguồn cấp video trực tiếp.

Kết luận

Cả YOLOX và RTDETRv2 đều có những đóng góp đáng kể cho lĩnh vực thị giác máy tính. YOLOX vẫn là một lựa chọn đáng tin cậy cho các hệ thống nhúng cũ bị hạn chế nghiêm ngặt, trong khi RTDETRv2 mở rộng ranh giới độ chính xác cho phần cứng cao cấp.

Tuy nhiên, đối với phần lớn các nhà phát triển đang tìm kiếm một giải pháp linh hoạt, dễ sử dụng và bền vững với tương lai, Ultralytics YOLO11 nổi bật là lựa chọn hàng đầu. Sự kết hợp giữa yêu cầu bộ nhớ thấp, hỗ trợ tác vụ toàn diện và cộng đồng phát triển mạnh mẽ đảm bảo dự án của bạn được xây dựng trên nền tảng độ tin cậy và hiệu suất cao.

Khám Phá Các So Sánh Khác

Để tinh chỉnh hơn nữa lựa chọn mô hình của bạn, hãy cân nhắc khám phá những so sánh kỹ thuật liên quan sau:


Bình luận