Chuyển đến nội dung

YOLOv10 so với RT-DETRv2 : So sánh kỹ thuật để phát hiện đối tượng

Việc lựa chọn kiến trúc phát hiện đối tượng tối ưu là một quyết định then chốt, đòi hỏi phải cân nhắc giữa tốc độ suy luận, độ chính xác và nhu cầu tài nguyên tính toán. Hướng dẫn toàn diện này so sánh YOLOv10 , một bước tiến đột phá của hệ thống dựa trên CNN. YOLO Dòng sản phẩm này nổi tiếng với hiệu suất cao, và RT-DETRv2 , một mô hình máy biến áp tinh vi được thiết kế cho các tác vụ có độ chính xác cao. Chúng tôi phân tích các cải tiến về kiến trúc, số liệu hiệu suất và các kịch bản triển khai lý tưởng của họ để giúp bạn đưa ra lựa chọn sáng suốt cho các dự án thị giác máy tính của mình.

YOLOv10 : Phát hiện thời gian thực theo hướng hiệu quả

YOLOv10 đại diện cho một bước nhảy vọt đáng kể trong YOLO dòng dõi, tập trung vào việc loại bỏ những điểm nghẽn của các máy dò thời gian thực truyền thống. Được phát triển bởi các nhà nghiên cứu tại Đại học Thanh Hoa, nó giới thiệu một NMS -Mô hình đào tạo miễn phí giúp hợp lý hóa quy trình triển khai bằng cách loại bỏ nhu cầu xử lý hậu kỳ Không triệt tiêu tối đa.

Đổi mới kiến trúc

YOLOv10 áp dụng thiết kế toàn diện hướng đến hiệu quả và độ chính xác. Nó sử dụng các bài tập kép nhất quán trong quá trình đào tạo để cho phép NMS Suy luận tự do, giúp giảm đáng kể độ trễ. Kiến trúc này cũng có đầu phân loại nhẹ và kỹ thuật lấy mẫu giảm tách biệt kênh không gian để giảm thiểu sự dư thừa tính toán. Thiết kế này đảm bảo mô hình vẫn cực kỳ nhanh chóng trong khi vẫn duy trì độ chính xác cạnh tranh, đặc biệt phù hợp cho điện toán biên ở những nơi khan hiếm tài nguyên.

NMS -Suy luận tự do

YOLOv10 Việc loại bỏ Non-Maximum Suppression ( NMS ) làm giảm độ phức tạp của các bước hậu xử lý. Điều này dẫn đến độ trễ suy luận thấp hơn và giúp triển khai mô hình dễ dàng hơn trong các quy trình đầu cuối mà không cần tùy chỉnh. CUDA hạt nhân cho NMS .

Mô hình này có thể mở rộng hiệu quả trên nhiều kích cỡ khác nhau, từ phiên bản nano (n) dành cho môi trường cực kỳ hạn chế đến phiên bản cực lớn (x) dành cho yêu cầu độ chính xác cao hơn.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Run inference on an image
results = model.predict("path/to/image.jpg")

Tìm hiểu thêm về YOLOv10

RT-DETRv2 : Độ chính xác dựa trên máy biến áp

RT-DETRv2 ( Bộ chuyển đổi phát hiện thời gian thực v2 ) được xây dựng dựa trên thành công của bản gốc RT-DETR , tiếp tục cải tiến ứng dụng của bộ biến đổi thị giác để phát hiện vật thể theo thời gian thực. Được phát triển bởi Baidu, mô hình này tận dụng các cơ chế tự chú ý để nắm bắt bối cảnh toàn cục, thường vượt trội hơn các mô hình dựa trên CNN trong các cảnh phức tạp có che khuất.

Biến đổi hình ảnh trong phát hiện

Không giống như CNN truyền thống xử lý hình ảnh bằng cách sử dụng các trường tiếp nhận cục bộ, RT-DETRv2 sử dụng xương sống Vision Transformer (ViT) . Điều này cho phép mô hình xử lý các mảng hình ảnh một cách tự động, hiểu rõ mối quan hệ giữa các vật thể ở xa trong một cảnh. Mặc dù khả năng ngữ cảnh toàn cục này giúp tăng cường độ chính xác phát hiện, nhưng nhìn chung nó đi kèm với chi phí tính toán cao hơn so với kiến trúc hợp lý của YOLOv10 .

RT-DETRv2 được thiết kế để có khả năng thích ứng, cung cấp các thang đo mô hình khác nhau để phù hợp với các nhu cầu hiệu suất khác nhau, mặc dù nó thường đòi hỏi nhiều hơn GPU bộ nhớ để đào tạo và suy luận hơn tương đương YOLO các mô hình.

Tìm hiểu thêm về RT-DETRv2

Phân tích hiệu suất

So sánh dưới đây làm nổi bật những ưu điểm riêng biệt của từng kiến trúc. YOLOv10 vượt trội về tốc độ và hiệu suất, mang lại độ trễ và số lượng tham số thấp đáng kể. Ví dụ, mô hình YOLOv10n chạy ở mức 1,56ms trên T4 GPU , khiến nó trở nên lý tưởng cho việc xử lý video tốc độ cao. RT-DETRv2 , mặc dù chậm hơn, nhưng cung cấp độ chính xác mạnh mẽ, đặc biệt là ở các kích thước mô hình lớn hơn, nhưng phải đánh đổi bằng FLOP và mức sử dụng bộ nhớ cao hơn đáng kể.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Như đã quan sát trong bảng, YOLOv10x đạt được hiệu suất vượt trội mAP của 54,4% so với RT-DETRv2 -x là 54,3%, trong khi sử dụng ít hơn 23% thời gian suy luận và sở hữu dấu chân mô hình nhỏ hơn đáng kể. Hiệu quả này làm cho YOLOv10 một lựa chọn cân bằng hơn cho hầu hết các ứng dụng cần cân nhắc đến tài nguyên phần cứng.

Điểm mạnh và Điểm yếu

YOLOv10

  • Điểm mạnh:
    • Độ trễ thấp: NMS -Thiết kế miễn phí cho phép suy luận cực kỳ nhanh, rất quan trọng đối với các ứng dụng thời gian thực .
    • Hiệu quả tài nguyên: Yêu cầu ít tham số và FLOP hơn, khiến nó phù hợp để triển khai trên các thiết bị AI biên như NVIDIA Jetson hoặc nền tảng di động.
    • Tích hợp hệ sinh thái: Tích hợp hoàn toàn vào Ultralytics hệ sinh thái, tạo điều kiện dễ dàng xuất sang các định dạng như ONNX , TensorRT , Và CoreML .
  • Điểm yếu:
    • Phát hiện vật thể nhỏ: Các phiên bản cực nhỏ (như YOLOv10n) có thể phải đánh đổi một số độ chính xác chi tiết để lấy tốc độ thô so với các mẫu máy biến áp lớn hơn.

RT-DETRv2

  • Điểm mạnh:
    • Bối cảnh toàn cầu: Kiến trúc máy biến áp rất giỏi trong việc hiểu các cảnh phức tạp và mối quan hệ giữa các đối tượng.
    • NMS -Free Native: Máy biến áp tự nhiên tránh NMS , đơn giản hóa quy trình xử lý hậu kỳ tương tự như YOLOv10 .
  • Điểm yếu:
    • Chi phí tính toán cao: Đào tạo và suy luận đòi hỏi nhiều hơn đáng kể CUDA bộ nhớ và sức mạnh tính toán.
    • Tốc độ chậm hơn: Cơ chế tự chú ý tuy chính xác nhưng lại tốn nhiều tài nguyên tính toán, dẫn đến độ trễ cao hơn.
    • Độ phức tạp khi triển khai: Đôi khi, việc tối ưu hóa mô hình máy biến áp có thể khó khăn hơn đối với một số phần cứng nhúng nhất định so với CNN.

Các trường hợp sử dụng lý tưởng

Sự lựa chọn giữa các mô hình này phần lớn phụ thuộc vào những hạn chế hoạt động cụ thể của bạn.

  • Chọn YOLOv10 khi: Bạn cần hiệu suất thời gian thực trên các thiết bị biên, chẳng hạn như máy bay không người lái tự động hoặc ứng dụng di động. Dung lượng bộ nhớ thấp và tốc độ cao giúp nó hoàn hảo cho các tình huống như giám sát giao thông hoặc phân tích bán lẻ .
  • Chọn RT-DETRv2 khi: Bạn có đủ GPU tài nguyên và đang giải quyết các cảnh phức tạp mà độ chính xác tối đa là ưu tiên duy nhất, chẳng hạn như nghiên cứu học thuật cao cấp hoặc phân tích hình ảnh khó trên máy chủ.

Các Ultralytics Lợi thế

Trong khi cả hai mô hình đều cung cấp các tính năng hấp dẫn, tận dụng các mô hình Ultralytics YOLO —bao gồm YOLOv10 và YOLO11 hiện đại —mang lại lợi thế rõ rệt trong vòng đời phát triển.

  1. Dễ sử dụng: Ultralytics cung cấp một API Python thống nhất và CLI chuẩn hóa việc đào tạo, xác thực và triển khai. Điều này cho phép các nhà phát triển chuyển đổi giữa YOLOv8 , YOLOv10 , YOLO11 , Và RT-DETR chỉ với một dòng mã.
  2. Hiệu quả đào tạo: Ultralytics Các mô hình được tối ưu hóa để đào tạo hiệu quả, thường hội tụ nhanh hơn và yêu cầu ít bộ nhớ hơn so với các triển khai tiêu chuẩn. Điều này giúp giảm chi phí điện toán đám mây và rút ngắn thời gian đưa sản phẩm ra thị trường.
  3. Tính linh hoạt: Ngoài khả năng phát hiện, Ultralytics Khung hỗ trợ phân đoạn , ước tính tư thếOBB , cho phép bạn mở rộng khả năng của dự án mà không cần thay đổi công cụ.
  4. Hệ sinh thái được duy trì tốt: Với các bản cập nhật thường xuyên, hướng dẫn chi tiết và cộng đồng phát triển mạnh, người dùng được hưởng lợi từ những cải tiến và hỗ trợ liên tục.

Chạy các mô hình khác nhau

Việc chuyển đổi giữa các kiến trúc diễn ra liền mạch với Ultralytics API:

from ultralytics import RTDETR, YOLO

# Train YOLOv10
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100)

# Train RT-DETR
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100)

Kết luận

Cả YOLOv10RT-DETRv2 đều là những công nghệ tiên tiến hàng đầu trong lĩnh vực phát hiện đối tượng. RT-DETRv2 là một lựa chọn mạnh mẽ cho các tác vụ nghiên cứu, nơi chi phí tính toán chỉ là yếu tố phụ so với độ chính xác. Tuy nhiên, đối với phần lớn các triển khai thực tế, YOLOv10 mang lại sự cân bằng vượt trội. Sự kết hợp giữa tốc độ cao, độ trễ thấp và hiệu quả sử dụng tài nguyên khiến nó trở thành lựa chọn hàng đầu cho các kỹ sư xây dựng các ứng dụng có khả năng mở rộng.

Hơn nữa, việc khám phá YOLO11 mới nhất cho phép các nhà phát triển tiếp cận những cải tiến lớn hơn về độ chính xác và tốc độ, tất cả đều trong giao diện thân thiện với người dùng Ultralytics hệ sinh thái. Cho dù bạn đang triển khai lên đám mây hay biên, Ultralytics Nền tảng đảm bảo bạn có các công cụ để xây dựng các giải pháp thị giác máy tính đẳng cấp thế giới một cách hiệu quả.

Khám phá các Mô hình Khác

Nếu bạn quan tâm đến những so sánh sâu hơn, hãy xem qua:


Bình luận