Chuyển đến nội dung

YOLOv5 so với RTDETRv2: Cân bằng tốc độ thời gian thực và độ chính xác của máy biến áp

Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng đối với sự thành công của dự án. Bài so sánh kỹ thuật toàn diện này xem xét hai phương pháp tiếp cận riêng biệt: YOLOv5 , bộ phát hiện dựa trên CNN huyền thoại, nổi tiếng với tính linh hoạt và tốc độ cao, và RTDETRv2 , một mô hình hiện đại dựa trên máy biến áp tập trung vào độ chính xác cao.

Trong khi RTDETRv2 tận dụng Vision Transformers (ViT) để nắm bắt bối cảnh toàn cầu, Ultralytics YOLOv5 vẫn là lựa chọn hàng đầu cho các nhà phát triển yêu cầu giải pháp mạnh mẽ, sẵn sàng triển khai với chi phí tài nguyên thấp.

Thông số kỹ thuật và nguồn gốc của mô hình

Trước khi đi sâu vào các số liệu hiệu suất, điều cần thiết là phải hiểu bối cảnh và triết lý kiến trúc của từng mô hình.

Tính năngUltralytics YOLOv5RTDETRv2
Kiến trúcDựa trên CNN (Dựa trên Anchor)Kết hợp (CNN Backbone + Transformer)
Tập trung chínhTốc độ thời gian thực, tính linh hoạt, dễ sử dụngĐộ chính xác cao, Bối cảnh toàn cầu
Tác giảGlenn JocherWenyu Lv, Yian Zhao, và cộng sự.
Tổ chứcUltralyticsBaidu
Ngày phát hành2020-06-262023-04-17
Nhiệm vụPhát hiện, Phân đoạn, Phân loạiPhát hiện vật thể

Tìm hiểu thêm về YOLOv5

Kiến trúc và Triết lý Thiết kế

Sự khác biệt cơ bản giữa các mô hình này nằm ở cách chúng xử lý dữ liệu trực quan.

Ultralytics YOLOv5

YOLOv5 sử dụng kiến trúc Mạng Nơ-ron Tích chập (CNN) được tối ưu hóa cao. Nó sử dụng xương sống CSPDarknet đã được sửa đổi và một mạng lưới tổng hợp đường dẫn (PANet) để trích xuất bản đồ đặc trưng.

  • Dựa trên điểm neo: Dựa vào các hộp neo được xác định trước để dự đoán vị trí của đối tượng, giúp đơn giản hóa quá trình học các hình dạng đối tượng phổ biến.
  • Hiệu quả: Được thiết kế để có tốc độ suy luận tối đa trên nhiều loại phần cứng, từ các thiết bị biên như NVIDIA Jetson đến CPU tiêu chuẩn.
  • Tính linh hoạt: Hỗ trợ nhiều tác vụ bao gồm phân đoạn trường hợpphân loại hình ảnh trong một khuôn khổ thống nhất duy nhất.

RTDETRv2

RTDETRv2 (Bộ chuyển đổi phát hiện thời gian thực v2) thể hiện sự chuyển dịch sang kiến trúc bộ chuyển đổi.

  • Thiết kế lai: Kết hợp xương sống CNN với bộ mã hóa-giải mã biến áp, sử dụng cơ chế tự chú ý để xử lý các mối quan hệ đối tượng.
  • Bối cảnh toàn cầu: Thành phần biến áp cho phép mô hình "nhìn thấy" toàn bộ hình ảnh cùng một lúc, cải thiện hiệu suất trong các cảnh phức tạp có hiện tượng che khuất.
  • Chi phí tính toán: Kiến trúc phức tạp này thường đòi hỏi nhiều hơn đáng kể GPU bộ nhớ và sức mạnh tính toán (FLOP) so với các giải pháp chỉ dựa trên CNN.

Phân tích hiệu suất

Bảng dưới đây cung cấp so sánh trực tiếp các số liệu hiệu suất chính. Mặc dù RTDETRv2 cho thấy độ chính xác ấn tượng ( mAP ) trên tập dữ liệu COCO , YOLOv5 thể hiện tốc độ suy luận vượt trội, đặc biệt là trên CPU phần cứng mà máy biến áp thường gặp khó khăn.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Diễn giải dữ liệu

Trong khi RTDETRv2 đạt được cao hơn mAP số, hãy chú ý các cột Tốc độFLOPs . YOLOv5n chạy ở mức 73,6 ms trên CPU , giúp khả thi cho các ứng dụng thời gian thực trên phần cứng không được tăng tốc. Các mô hình RTDETRv2 nặng hơn đáng kể, yêu cầu GPU mạnh để duy trì tốc độ khung hình thời gian thực.

Hiệu quả đào tạo và sử dụng bộ nhớ

Một lợi thế quan trọng của YOLOv5 là hiệu quả đào tạo. Các mô hình dựa trên bộ biến áp như RTDETRv2 nổi tiếng với mức tiêu thụ VRAM cao và tốc độ hội tụ chậm.

  • Dấu chân bộ nhớ thấp hơn: YOLOv5 có thể được đào tạo trên GPU cấp tiêu dùng với mức khiêm tốn CUDA bộ nhớ, dân chủ hóa quyền truy cập vào quá trình phát triển AI.
  • Hội tụ nhanh hơn: Người dùng thường có thể đạt được kết quả hữu ích trong thời gian ngắn hơn, tiết kiệm thời gian quý báu và chi phí điện toán đám mây.

Điểm mạnh chính của Ultralytics YOLOv5

Đối với hầu hết các nhà phát triển và ứng dụng thương mại, YOLOv5 cung cấp một loạt lợi thế cân bằng và thiết thực hơn:

  1. Sự dễ sử dụng vô song: Ultralytics API Python là tiêu chuẩn công nghiệp về tính đơn giản. Việc tải mô hình, chạy suy luận và đào tạo dữ liệu tùy chỉnh có thể được thực hiện chỉ với vài dòng mã.
  2. Hệ sinh thái phong phú: Được hỗ trợ bởi một cộng đồng nguồn mở lớn, YOLOv5 tích hợp liền mạch với Ultralytics HUB để đào tạo không cần mã, các công cụ MLOps để theo dõi và nhiều định dạng xuất khác nhau như ONNX và TensorRT .
  3. Tính linh hoạt triển khai: Từ iOS Và Android ứng dụng di động cho Raspberry Pi và máy chủ đám mây, YOLOv5 Kiến trúc nhẹ của nó cho phép nó chạy ở những nơi mà các mô hình máy biến áp nặng hơn không thể chạy được.
  4. Tính linh hoạt của nhiệm vụ: Không giống như RTDETRv2, chủ yếu là một máy dò đối tượng, YOLOv5 hỗ trợ phân loại và phân đoạn, giảm nhu cầu duy trì nhiều cơ sở mã cho các tác vụ thị giác khác nhau.

Đường dẫn nâng cấp

Nếu bạn cần độ chính xác cao hơn YOLOv5 Trong khi vẫn duy trì những lợi ích hệ sinh thái này, hãy xem xét YOLO11 mới. Nó kết hợp những cải tiến kiến trúc hiện đại để sánh ngang hoặc vượt qua độ chính xác của máy biến áp với hiệu suất mà bạn mong đợi từ YOLO .

So sánh mã: dễ sử dụng

Ví dụ sau đây chứng minh sự đơn giản của việc sử dụng YOLOv5 với Ultralytics bưu kiện.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model
model = YOLO("yolov5s.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
for result in results:
    result.show()  # show to screen
    result.save(filename="result.jpg")  # save to disk

Các trường hợp sử dụng lý tưởng

Khi nào nên chọn Ultralytics YOLOv5

  • Điện toán biên: Triển khai trên các thiết bị chạy bằng pin hoặc có nguồn lực hạn chế (máy bay không người lái, điện thoại di động, IoT).
  • Phân tích video theo thời gian thực: Xử lý nhiều luồng video cùng lúc để quản lý lưu lượng truy cập hoặc bảo mật.
  • Nguyên mẫu nhanh: Khi bạn cần chuyển từ tập dữ liệu sang mô hình đã triển khai chỉ trong vài giờ, không phải vài ngày.
  • Yêu cầu đa nhiệm: Các dự án cần cả phát hiện đối tượng và phân đoạn hình ảnh .

Khi nào nên chọn RTDETRv2

  • Nghiên cứu học thuật: So sánh với công nghệ tiên tiến nhất trên các tập dữ liệu tĩnh, trong đó tốc độ chỉ là yếu tố thứ yếu.
  • Khả năng sử dụng GPU cao cấp: Môi trường nơi GPU chuyên dụng cấp máy chủ (như NVIDIA A100) có sẵn cho cả mục đích đào tạo và suy luận.
  • Cảnh tĩnh phức tạp: Các cảnh có sự che khuất dày đặc trong đó cơ chế tự chú ý cung cấp một lợi thế quan trọng về độ chính xác.

Kết luận

Mặc dù RTDETRv2 thể hiện tiềm năng của bộ biến đổi trong thị giác máy tính với độ chính xác ấn tượng, nhưng nó đi kèm với chi phí đáng kể về tài nguyên phần cứng và độ phức tạp trong đào tạo. Đối với phần lớn các ứng dụng thực tế, Ultralytics YOLOv5 vẫn là lựa chọn vượt trội. Sự kết hợp hoàn hảo giữa tốc độ, độ chính xác và mức sử dụng bộ nhớ thấp — kết hợp với hệ sinh thái hỗ trợ và tài liệu hướng dẫn phong phú — đảm bảo các nhà phát triển có thể xây dựng các giải pháp AI có khả năng mở rộng, hiệu quả và hiệu suất cao.

Đối với những người tìm kiếm hiệu suất mới nhất tuyệt đối mà không ảnh hưởng đến khả năng sử dụng của Ultralytics khuôn khổ, chúng tôi thực sự khuyên bạn nên khám phá YOLO11 , công cụ thu hẹp khoảng cách giữa hiệu quả CNN và độ chính xác ở cấp độ biến áp.

Khám phá các Mô hình Khác


Bình luận