Chuyển đến nội dung

RT-DETRv2 so với YOLOv10 : So sánh kỹ thuật để phát hiện đối tượng

Việc lựa chọn mô hình phát hiện đối tượng tối ưu đòi hỏi phải xem xét bối cảnh kiến trúc đang phát triển, nơi sự đánh đổi giữa độ chính xác, độ trễ và mức tiêu thụ tài nguyên quyết định sự phù hợp nhất cho một ứng dụng nhất định. So sánh kỹ thuật này phân tích RT-DETRv2 , một mô hình dựa trên bộ biến áp được thiết kế cho các tác vụ có độ chính xác cao, và YOLOv10 , sự phát triển tập trung vào hiệu quả của mô hình nổi tiếng YOLO gia đình. Bằng cách xem xét những đổi mới về kiến trúc, số liệu hiệu suất và đặc điểm triển khai, chúng tôi mong muốn hướng dẫn các nhà phát triển đến giải pháp lý tưởng cho nhu cầu cụ thể của họ.

RT-DETRv2 : Bộ chuyển đổi tầm nhìn được tối ưu hóa

RT-DETRv2 là một bước tiến đáng kể trong dòng sản phẩm Real-Time Detection Transformer, ban đầu được tiên phong để thách thức sự thống trị của các bộ phát hiện dựa trên CNN. Được phát triển bởi các nhà nghiên cứu tại Baidu , mô hình này tích hợp "Túi quà tặng miễn phí" để nâng cao tính ổn định và hiệu suất đào tạo mà không phát sinh thêm chi phí suy luận.

Tìm hiểu thêm về RT-DETR

Kiến trúc và Điểm mạnh

RT-DETRv2 tận dụng bộ mã hóa lai và xương sống Vision Transformer (ViT) có khả năng mở rộng. Không giống như các Mạng Nơ-ron Tích chập (CNN) truyền thống xử lý hình ảnh bằng các trường tiếp nhận cục bộ, kiến trúc Transformer sử dụng các cơ chế tự chú ý để nắm bắt bối cảnh toàn cục. Điều này cho phép mô hình phân biệt hiệu quả mối quan hệ giữa các vật thể ở xa và xử lý các trường hợp che khuất phức tạp. Các cải tiến "v2" tập trung vào việc tối ưu hóa lựa chọn truy vấn động và giới thiệu các chiến lược đào tạo linh hoạt cho phép người dùng tinh chỉnh sự cân bằng giữa tốc độ và độ chính xác .

Mặc dù hiệu quả, kiến trúc này vốn dĩ đòi hỏi tài nguyên tính toán đáng kể. Các lớp tự chú ý, mặc dù mạnh mẽ, lại góp phần tiêu thụ bộ nhớ cao hơn trong cả quá trình đào tạo và suy luận so với các giải pháp thay thế chỉ dựa trên CNN.

YOLOv10 : Tiêu chuẩn cho hiệu quả thời gian thực

YOLOv10 đẩy mạnh ranh giới của mô hình Bạn chỉ nhìn một lần bằng cách giới thiệu một NMS - Chiến lược đào tạo miễn phí và thiết kế toàn diện, hướng đến hiệu quả và độ chính xác. Được tạo ra bởi các nhà nghiên cứu tại Đại học Thanh Hoa , hệ thống được thiết kế đặc biệt để giảm thiểu độ trễ trong khi vẫn duy trì hiệu suất phát hiện cạnh tranh.

Tìm hiểu thêm về YOLOv10

Kiến trúc và Điểm mạnh

Đặc điểm xác định của YOLOv10 là việc loại bỏ hiện tượng Ức chế Không Tối đa ( NMS ) thông qua chiến lược gán kép nhất quán. Các bộ phát hiện đối tượng truyền thống thường dự đoán nhiều hộp giới hạn cho một đối tượng duy nhất, đòi hỏi NMS hậu xử lý để lọc ra các dữ liệu trùng lặp. Bước này tạo ra nút thắt về độ trễ suy luận. YOLOv10 loại bỏ yêu cầu này, cho phép triển khai thực sự từ đầu đến cuối.

Hơn nữa, kiến trúc này có tính năng lấy mẫu giảm tách rời kênh không gian và thiết kế khối hướng dẫn theo thứ hạng, giúp giảm đáng kể số lượng tham số và FLOP (Phép toán dấu chấm động). Điều này làm cho YOLOv10 cực kỳ nhẹ và phù hợp với môi trường hạn chế về tài nguyên như thiết bị AI biên .

NMS -Suy luận tự do

Loại bỏ NMS là một bước đột phá cho các ứng dụng thời gian thực. Nó giảm độ phức tạp của quy trình triển khai và đảm bảo thời gian suy luận luôn mang tính xác định, bất kể số lượng đối tượng được phát hiện trong cảnh.

Phân tích hiệu suất

Khi so sánh trực tiếp hai mô hình, YOLOv10 thể hiện khả năng cân bằng tốc độ và độ chính xác vượt trội, đặc biệt là ở mức hiệu suất cao hơn. Trong khi RT-DETRv2 mang lại kết quả mạnh mẽ, YOLOv10 luôn đạt được độ trễ thấp hơn và yêu cầu ít tham số hơn để có thể so sánh hoặc tốt hơn mAP (Độ chính xác trung bình).

Bảng dưới đây nêu bật các số liệu hiệu suất trên COCO tập dữ liệu. Đáng chú ý, YOLOv10x vượt trội hơn RT-DETRv2 -x về độ chính xác (54,4% so với 54,3%) trong khi nhanh hơn đáng kể (12,2ms so với 15,03ms) và yêu cầu ít tham số hơn nhiều (56,9M so với 76M).

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Tốc độ và hiệu quả

YOLOv10 Hiệu quả kiến trúc của 's thể hiện rõ trên mọi quy mô. Các biến thể Nano (n) và Small (s) cung cấp tốc độ suy luận cực nhanh, phù hợp với CPU di động và thiết bị IoT . Ví dụ: YOLOv10n chạy ở tốc độ 1,56ms trên T4 GPU , nhanh hơn đáng kể so với cái nhỏ nhất RT-DETRv2 khác nhau.

Độ chính xác so với tính toán

RT-DETRv2 tận dụng xương sống biến áp để đạt được độ chính xác cao, đặc biệt là ở các mô hình vừa và nhỏ. Tuy nhiên, điều này phải trả giá bằng số lượng FLOP và số lượng tham số cao hơn đáng kể. YOLOv10 thu hẹp khoảng cách này một cách hiệu quả; lớn hơn YOLOv10 Các mô hình có độ chính xác ngang bằng hoặc vượt trội hơn các máy biến áp tương ứng trong khi vẫn duy trì mức độ tính toán thấp hơn, khiến chúng linh hoạt hơn cho nhiều loại phần cứng khác nhau.

Đào tạo, Tính khả dụng và Hệ sinh thái

Một điểm khác biệt quan trọng đối với các nhà phát triển là sự dễ dàng trong đào tạo và triển khai. Ultralytics hệ sinh thái cung cấp một giao diện thống nhất giúp đơn giản hóa đáng kể việc làm việc với các mô hình như YOLOv10 .

Dễ sử dụng

Đào tạo RT-DETRv2 thường liên quan đến các tệp cấu hình phức tạp và các thiết lập môi trường cụ thể được thiết kế riêng cho kiến trúc máy biến áp. Ngược lại, YOLOv10 được tích hợp trực tiếp vào Ultralytics API Python cho phép người dùng bắt đầu đào tạo, xác thực hoặc suy luận chỉ bằng một vài dòng mã.

from ultralytics import YOLO

# Load a pre-trained YOLOv10 model
model = YOLO("yolov10n.pt")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Yêu cầu về bộ nhớ

Các mô hình dựa trên máy biến áp như RT-DETRv2 được biết là tốn nhiều bộ nhớ. Cơ chế tự chú ý tỷ lệ thuận với độ dài chuỗi, dẫn đến việc sử dụng VRAM cao trong quá trình đào tạo. YOLOv10 , với kiến trúc CNN được tối ưu hóa, yêu cầu ít bộ nhớ CUDA hơn đáng kể, cho phép người dùng đào tạo các lô có kích thước lớn hơn hoặc sử dụng phần cứng khiêm tốn hơn.

Hệ sinh thái được duy trì tốt

Lựa chọn một Ultralytics Mô hình được hỗ trợ đảm bảo quyền truy cập vào một hệ sinh thái mạnh mẽ. Điều này bao gồm các bản cập nhật liên tục, tài liệu mở rộng và tích hợp liền mạch với các công cụ MLOps như Ultralytics HUB và nhiều định dạng xuất khác nhau ( ONNX , TensorRT , CoreML ). Cấu trúc hỗ trợ này vô cùng hữu ích cho việc chuyển các dự án từ nghiên cứu sang sản xuất một cách hiệu quả.

Các trường hợp sử dụng lý tưởng

RT-DETRv2

  • Nghiên cứu học thuật: Lý tưởng để nghiên cứu khả năng của máy biến áp trong các nhiệm vụ thị giác và so sánh với các phương pháp hiện đại.
  • Triển khai máy chủ cao cấp: Phù hợp với các tình huống có nhiều tài nguyên phần cứng và các đặc điểm cụ thể của bản đồ chú ý máy biến áp có lợi, chẳng hạn như trong phân tích hình ảnh y tế chi tiết.

YOLOv10

  • Trí tuệ nhân tạo biên thời gian thực: Độ trễ thấp và kích thước mô hình nhỏ khiến nó trở nên hoàn hảo để triển khai trên các thiết bị biên như NVIDIA Jetson hoặc Raspberry Pi cho các tác vụ như quản lý lưu lượng truy cập .
  • Robot: Các NMS -Thiết kế tự do cung cấp độ trễ xác định cần thiết cho các vòng điều khiển trong robot tự động.
  • Ứng dụng thương mại: Từ phân tích bán lẻ đến giám sát an toàn, sự cân bằng giữa tốc độ và độ chính xác giúp tối đa hóa ROI bằng cách giảm chi phí phần cứng.

Kết luận

Trong khi RT-DETRv2 thể hiện tiềm năng của bộ biến đổi trong phát hiện đối tượng với độ chính xác ấn tượng, YOLOv10 nổi lên như một lựa chọn thiết thực và linh hoạt hơn cho phần lớn các ứng dụng thực tế. Khả năng mang lại hiệu suất tiên tiến với nhu cầu tính toán thấp hơn đáng kể, kết hợp với tính dễ sử dụng của Ultralytics hệ sinh thái, biến nó thành giải pháp vượt trội cho các nhà phát triển hướng tới hiệu quả và khả năng mở rộng.

Đối với những ai đang tìm kiếm công nghệ thị giác máy tính mới nhất, chúng tôi cũng khuyên bạn nên khám phá YOLO11 , công nghệ này cải tiến hơn nữa kiến trúc để có tốc độ và độ chính xác cao hơn trong nhiều tác vụ hơn, bao gồm phân đoạn và ước tính tư thế.

Khám phá các Mô hình Khác

Mở rộng hiểu biết của bạn về bối cảnh phát hiện đối tượng với những so sánh bổ sung sau:


Bình luận