Chuyển đến nội dung

RTDETRv2 so với... YOLOv9 So sánh Transformer và CNN trong phát hiện thời gian thực

Lĩnh vực thị giác máy tính đã chứng kiến ​​sự phân hóa thú vị trong các triết lý kiến ​​trúc, chủ yếu giữa Mạng nơ-ron tích chập (CNN) và các mô hình dựa trên transformer. Khi so sánh RTDETRv2 và YOLOv9 Về cơ bản, các nhà phát triển đang đánh giá sự đánh đổi giữa các cơ chế chú ý toàn cục và thông tin gradient có thể lập trình. Cả hai mô hình đều đại diện cho đỉnh cao của các lý thuyết tương ứng, đẩy mạnh giới hạn của việc phát hiện đối tượng trong thời gian thực.

Giới thiệu về các mô hình

RTDETRv2: Transformer detect Thời gian Thực

Được phát triển bởi các nhà nghiên cứu tại Baidu, RTDETRv2 dựa trên phiên bản gốc. RT-DETR Bằng cách giới thiệu một "Gói quà tặng miễn phí" để nâng cao hiệu suất của bộ chuyển đổi phát hiện thời gian thực cơ bản. Nó giải quyết được nút thắt cổ chai truyền thống của các bộ chuyển đổi - tốc độ suy luận - giúp chúng khả thi cho các ứng dụng thời gian thực.

  • Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
  • Tổ chức:Baidu
  • Ngày: 2024-07-24
  • Liên kết: Arxiv , GitHub

Một đặc điểm nổi bật của RTDETRv2 là thiết kế hoàn toàn không có NMS từ đầu đến cuối . Bằng cách loại bỏ hoàn toàn hiện tượng triệt tiêu cực đại không cần thiết (Non-Maximum Suppression - NMS) ( NMS Trong quá trình xử lý hậu kỳ, mô hình ổn định độ trễ suy luận và đơn giản hóa quy trình triển khai. Cơ chế chú ý toàn cục cho phép mô hình hoạt động xuất sắc trong việc hiểu các cảnh phức tạp và đám đông dày đặc, vì nó đánh giá toàn bộ ngữ cảnh hình ảnh cùng một lúc.

Tìm hiểu thêm về RTDETRv2

YOLOv9: Thông tin Gradient có thể lập trình

YOLOv9 Kiến trúc dựa trên CNN hiệu quả cao này giải quyết vấn đề tắc nghẽn thông tin vốn có trong các mạng nơ-ron sâu. Nó giới thiệu Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).

YOLOv9 Dựa trên nền tảng mạng nơ-ron tích chập đã được chứng minh nhưng tối đa hóa hiệu quả tham số. Bằng cách giữ lại thông tin quan trọng trong quá trình truyền tiến, nó đảm bảo cập nhật trọng số đáng tin cậy, dẫn đến một mô hình cực kỳ nhẹ nhưng có độ chính xác cao. Tuy nhiên, không giống như RTDETRv2, YOLOv9 vẫn dựa vào tiêu chuẩn NMS xử lý hậu kỳ.

Tìm hiểu thêm về YOLOv9

Hiệu suất và hiệu quả sử dụng tài nguyên

Khi đánh giá các mô hình này để sản xuất, cần cân bằng độ chính xác trung bình (Average Precision) ( mAP Việc so sánh hiệu suất với chi phí tính toán là rất quan trọng. Bảng dưới đây minh họa hiệu suất của chúng trên tập dữ liệu MS COCO .

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Yêu cầu bộ nhớ và hiệu quả huấn luyện

Các bộ chuyển đổi như RTDETRv2 nổi tiếng là ngốn nhiều bộ nhớ trong quá trình huấn luyện, thường yêu cầu một lượng lớn dung lượng bộ nhớ. CUDA bộ nhớ và lịch trình huấn luyện dài hơn để hội tụ hoàn toàn. Ngược lại, các kiến ​​trúc CNN như YOLOv9 và các mô hình Ultralytics YOLO khác cung cấp mức sử dụng bộ nhớ thấp hơn đáng kể, cho phép các nhà phát triển huấn luyện với kích thước lô lớn hơn trên phần cứng cấp người tiêu dùng.

Huấn luyện Hiệu quả

Để tối ưu hóa việc sử dụng phần cứng, hãy cân nhắc sử dụng Nền tảng Ultralytics để đào tạo trên đám mây một cách hiệu quả. Nền tảng này tự động xử lý việc thiết lập môi trường và tối ưu hóa kích thước lô.

Cái Ultralytics Ưu điểm: Hệ sinh thái và tính dễ sử dụng

Trong quá trình nghiên cứu các kho lưu trữ độc lập như RTDETRv2 chính thức hoặc YOLOv9 GitHub Pages có thể mang tính giáo dục cao, trong khi môi trường sản xuất đòi hỏi sự ổn định, dễ sử dụng và một hệ sinh thái được duy trì tốt. Việc tích hợp các mô hình này thông qua API Python Ultralytics mang lại trải nghiệm phát triển liền mạch.

API thống nhất và tính linh hoạt

Cái Ultralytics Khung phần mềm này loại bỏ sự phức tạp của việc tải dữ liệu, tăng cường dữ liệu và huấn luyện phân tán. Hơn nữa, trong khi RTDETRv2 gốc chỉ tập trung vào phát hiện, thì... Ultralytics Hệ sinh thái này cho phép người dùng dễ dàng chuyển đổi giữa Phát hiện đối tượng , Phân đoạn đối tượngƯớc tính tư thế .

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")

Với tài liệu đầy đủ, tính năng theo dõi thí nghiệm tự động và khả năng xuất dữ liệu liền mạch sang các định dạng như ONNX , TensorRT và... OpenVINO , Ultralytics Giảm đáng kể thời gian từ khâu tạo mẫu đến sản xuất hàng loạt.

Các trường hợp sử dụng lý tưởng

Những điểm mạnh của RTDETRv2

Nhờ cơ chế chú ý toàn cục, RTDETRv2 là một công cụ mạnh mẽ cho việc xử lý phía máy chủ và các môi trường mà ngữ cảnh toàn cục là tối quan trọng. Nó vượt trội trong:

  • Chẩn đoán hình ảnh y khoa: Xác định những bất thường nhỏ trong bối cảnh xung quanh đóng vai trò rất quan trọng.
  • Giám sát trên không: Phát hiện các vật thể nhỏ trong cảnh quay bằng máy bay không người lái độ phân giải cao mà không bị ảnh hưởng bởi các sai lệch không gian của các phép tích chập CNN truyền thống.
  • Phân tích đám đông dày đặc: Theo dõi các cá nhân trong điều kiện bị che khuất nghiêm trọng, điều này thường gây nhầm lẫn cho các mô hình dựa trên điểm neo.

Ở đâu YOLOv9 Xuất sắc

YOLOv9 là giải pháp tối ưu cho việc triển khai điện toán biên trong điều kiện tài nguyên hạn chế . Hiệu quả tính toán của nó khiến nó trở nên lý tưởng cho:

  • Robot học: Điều hướng và tránh chướng ngại vật trong thời gian thực, nơi yêu cầu độ trễ tối thiểu.
  • IoT trong Thành phố Thông minh: Triển khai trên các thiết bị biên như NVIDIA Jetson để giám sát giao thông.
  • Kiểm tra công nghiệp: Kiểm soát chất lượng dây chuyền lắp ráp tốc độ cao, yêu cầu tốc độ khung hình trên giây (FPS) cao.

Tương lai: Bước vào Ultralytics YOLO26

Trong khi YOLOv9 RTDETRv2 và các phiên bản trước đó đại diện cho những bước tiến vượt bậc, khiến bối cảnh phát triển nhanh chóng. Đối với các triển khai hiện đại, Ultralytics YOLO26 mới ra mắt thể hiện sự kết hợp hoàn hảo giữa hai triết lý kiến ​​trúc này.

Bằng cách kết hợp những ưu điểm tốt nhất của Transformer và CNN, YOLO26 đã thiết lập một tiêu chuẩn mới:

  • Thiết kế không cần hệ thống quản lý mạng NMS từ đầu đến cuối: Giống như RTDETRv2, YOLO26 được thiết kế hoàn toàn từ đầu đến cuối, loại bỏ hoàn toàn các rào cản. NMS Xử lý hậu kỳ giúp triển khai quy trình nhanh hơn, đơn giản hơn và có tính dự đoán cao hơn.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện Mô hình Ngôn ngữ Lớn (LLM) (như Kimi K2 của Moonshot AI), YOLO26 sử dụng sự kết hợp của... SGD và Muon. Điều này mang lại sự ổn định huấn luyện chưa từng có và sự hội tụ nhanh chóng cho thị giác máy tính.
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Không giống như các bộ chuyển đổi nặng nề, YOLO26 được tối ưu hóa mạnh mẽ cho điện toán biên và các thiết bị không có GPU.
  • Loại bỏ DFL: Việc loại bỏ tổn hao tiêu điểm phân tán (Distribution Focal Loss - DFL) giúp đơn giản hóa đáng kể đồ thị mô hình, đảm bảo xuất khẩu hoàn hảo sang các thiết bị biên công suất thấp và các bộ xử lý thần kinh nhúng (NPU).
  • ProgLoss + STAL: Các hàm mất mát được cải tiến này giúp tăng cường đáng kể khả năng nhận dạng vật thể nhỏ, một tính năng quan trọng đối với IoT và dữ liệu chụp từ trên không.

Đối với các nhóm đang muốn bắt đầu một dự án thị giác máy tính mới, chúng tôi đặc biệt khuyên bạn nên đánh giá YOLO26. Nó cung cấp... NMS -Sự thanh lịch không tì vết của một bộ chuyển đổi với tốc độ vượt trội và hiệu quả đào tạo của một hệ thống được tối ưu hóa cao. YOLO ngành kiến ​​​​trúc.

Tìm hiểu thêm về YOLO26

Tóm tắt

Lựa chọn giữa RTDETRv2 và YOLOv9 Điều này phần lớn phụ thuộc vào phần cứng triển khai và nhu cầu về độ chính xác cụ thể của bạn. RTDETRv2 cung cấp độ chính xác và nhận thức ngữ cảnh tiên tiến nhất cho các ứng dụng được hỗ trợ bởi máy chủ, trong khi đó YOLOv9 Cung cấp hiệu quả vượt trội cho các thiết bị biên.

Tuy nhiên, bằng cách tận dụng những tiến bộ đã đạt được, Ultralytics Trong hệ sinh thái này, các nhà phát triển có thể dễ dàng thử nghiệm cả hai. Hơn nữa, với sự ra mắt của các mô hình mới hơn như YOLO11YOLO26 tích hợp đầy đủ các tính năng đầu cuối, việc tìm ra sự cân bằng hoàn hảo giữa tốc độ suy luận cao, hỗ trợ nhiều tác vụ và tiêu thụ bộ nhớ thấp chưa bao giờ dễ dàng hơn.


Bình luận