Chuyển đến nội dung

RTDETRv2 so với... YOLOv9 So sánh Transformer và CNN trong phát hiện thời gian thực

Lĩnh vực phát hiện đối tượng đã chứng kiến ​​sự phát triển nhanh chóng, với hai kiến ​​trúc riêng biệt nổi lên như những ứng dụng hàng đầu trong thời gian thực: mô hình dựa trên Transformer và mô hình dựa trên CNN. RTDETRv2 (Real-Time Detection Transformer phiên bản 2) đại diện cho công nghệ Transformer tiên tiến nhất, cung cấp khả năng phát hiện từ đầu đến cuối mà không cần xử lý hậu kỳ. Mặt khác, YOLOv9 cải tiến kiến ​​trúc CNN truyền thống với thông tin gradient lập trình được (PGI) để giảm thiểu mất mát thông tin.

Bài so sánh này sẽ phân tích các thông số kỹ thuật, chỉ số hiệu năng và trường hợp sử dụng lý tưởng của cả hai mô hình, giúp các nhà phát triển lựa chọn công cụ phù hợp với nhu cầu thị giác máy tính cụ thể của họ.

Tóm tắt điều hành

RTDETRv2 hoạt động xuất sắc trong các tình huống đòi hỏi độ chính xác cao trong môi trường phức tạp, đặc biệt là nơi thường xuyên xảy ra hiện tượng che khuất. Cơ chế chú ý của nó cho phép hiểu ngữ cảnh toàn cục, nhưng điều này phải trả giá bằng yêu cầu tính toán cao hơn và tốc độ huấn luyện chậm hơn. Đây là lựa chọn tuyệt vời cho nghiên cứu và các ứng dụng cao cấp. GPU triển khai.

YOLOv9 mang đến sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, duy trì đặc tính hiệu quả của phần mềm. YOLO thuộc họ này. Nó rất hiệu quả cho các nhiệm vụ phát hiện đa năng nhưng gần đây đã được thay thế bởi các phần mềm mới hơn. Ultralytics Các mô hình như YOLO26 , tích hợp những ưu điểm tốt nhất của cả hai thế giới: từ đầu đến cuối. NMS - Phát hiện không cần bảo mật với tốc độ của mạng CNN được tối ưu hóa.

Đối với hầu hết các nhà phát triển, hệ sinh thái Ultralytics cung cấp con đường mạnh mẽ nhất để đưa sản phẩm vào sản xuất, mang đến sự tích hợp liền mạch, tài liệu đầy đủ và hỗ trợ cho các mô hình hiện đại nhất.

So sánh hiệu suất chi tiết

Bảng sau đây trình bày sự so sánh song song các chỉ số chính. Lưu ý rằng trong khi RTDETRv2 đạt độ chính xác cao, các mô hình dựa trên CNN như... YOLOv9 và các thiết bị YOLO26 đời mới hơn thường cung cấp tốc độ suy luận nhanh hơn trên phần cứng tiêu chuẩn.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

RTDETRv2: Ứng cử viên cho khả năng chuyển đổi tầm nhìn

RTDETRv2 được xây dựng dựa trên sự thành công của phiên bản gốc. RT-DETR Tối ưu hóa bộ mã hóa lai và lựa chọn truy vấn giảm thiểu sự không chắc chắn để cải thiện tốc độ và độ chính xác.

Các đặc điểm chính:

  • Tác giả: Wenyu Lv, Yian Zhao, et al.
  • Tổ chức:Baidu
  • Ngày: Tháng 4 năm 2023 (Bản gốc), Tháng 7 năm 2024 (phiên bản 2)
  • Liên kết: Arxiv , GitHub

Kiến trúc và Điểm mạnh

RTDETRv2 sử dụng kiến ​​trúc Transformer xử lý hình ảnh với cơ chế chú ý toàn cục. Điều này cho phép mô hình "nhìn thấy" mối quan hệ giữa các phần xa nhau của hình ảnh, giúp nó đặc biệt mạnh mẽ trong việc chống lại hiện tượng che khuất và các cảnh phức tạp. Một lợi thế lớn là thiết kế không cần NMS Non-Maximum Subtraction), giúp đơn giản hóa quy trình triển khai bằng cách loại bỏ nhu cầu xử lý hậu kỳ bằng phương pháp loại bỏ cực đại không cần thiết (non-maximum suppression).

Hạn chế

Mặc dù mạnh mẽ, RTDETRv2 thường yêu cầu nhiều tài nguyên hơn đáng kể. GPU Bộ nhớ dùng để huấn luyện so với mạng CNN. Độ phức tạp bậc hai của cơ chế chú ý có thể là nút thắt cổ chai đối với đầu vào độ phân giải cao. Hơn nữa, hệ sinh thái này chủ yếu tập trung vào nghiên cứu, thiếu các công cụ triển khai rộng rãi như trong các hệ thống khác. Ultralytics phòng suite.

Tìm hiểu thêm về RT-DETR

YOLOv9: Thông tin Gradient có thể lập trình

YOLOv9 Giới thiệu khái niệm Thông tin Gradient có thể lập trình (Programmable Gradient Information - PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (Generalized Efficient Layer Aggregation Network - GELAN). Những cải tiến này giải quyết vấn đề tắc nghẽn thông tin trong mạng nơ-ron sâu.

Các đặc điểm chính:

  • Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
  • Tổ chức: Viện Khoa học Thông tin, Academia Sinica
  • Ngày: 21 tháng 2, 2024
  • Liên kết: Arxiv , GitHub

Kiến trúc và Điểm mạnh

YOLOv9 Kiến trúc GELAN của nó tối đa hóa hiệu quả tham số, cho phép đạt được độ chính xác cao với số phép tính FLOPS ít hơn so với các phiên bản trước. Bằng cách giữ lại thông tin quan trọng trong quá trình truyền tiến, nó đảm bảo rằng các đạo hàm được sử dụng để cập nhật trọng số là chính xác và đáng tin cậy. Điều này dẫn đến một mô hình vừa nhẹ vừa có độ chính xác cao.

Hạn chế

Bất chấp những tiến bộ của nó, YOLOv9 vẫn dựa vào truyền thống NMS Đối với quá trình xử lý hậu kỳ, điều này có thể gây ra độ trễ và độ phức tạp trong quá trình triển khai. Người dùng quản lý các triển khai quy mô lớn thường thích trải nghiệm đơn giản hơn của các giải pháp mới hơn. Ultralytics các mô hình xử lý những vấn đề phức tạp này một cách tự nhiên.

Tìm hiểu thêm về YOLOv9

Cái Ultralytics Ưu điểm: Vượt xa mô hình

Mặc dù việc lựa chọn một kiến ​​trúc cụ thể rất quan trọng, nhưng hệ sinh thái phần mềm xung quanh nó thường là yếu tố quyết định sự thành công của các dự án. Ultralytics các mô hình, bao gồm YOLOv8 YOLO11 và YOLO26 tiên tiến, mỗi sản phẩm đều mang đến những ưu điểm riêng biệt:

1. Dễ sử dụng và hiệu quả đào tạo

Việc huấn luyện một mô hình không nên đòi hỏi bằng tiến sĩ về học sâu. API Python Ultralytics giúp đơn giản hóa các phức tạp trong việc tải dữ liệu, tăng cường dữ liệu và huấn luyện phân tán.

from ultralytics import YOLO

# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")

# Train on your data with a single command
model.train(data="coco8.yaml", epochs=100, imgsz=640)

2. Tính Linh Hoạt Trong Các Tác Vụ

Không giống như nhiều mô hình chuyên dụng, Ultralytics Các mô hình được thiết kế như các công cụ AI thị giác đa năng. Một khung phần mềm duy nhất hỗ trợ:

3. Triển khai và Xuất khẩu

Việc chuyển đổi từ mô hình đã được huấn luyện sang ứng dụng thực tế diễn ra liền mạch. Ultralytics Cung cấp tính năng xuất dữ liệu chỉ với một cú nhấp chuột sang các định dạng như ONNX , TensorRT , CoreML , Và TFLite , đảm bảo mô hình của bạn hoạt động hiệu quả trên mọi phần cứng, từ thiết bị đầu cuối đến máy chủ đám mây.

Nhìn về phía trước: Sức mạnh của YOLO26

Đối với các nhà phát triển đang tìm kiếm hiệu năng tốt nhất tuyệt đối, YOLO26 đại diện cho bước tiến tiếp theo. Nó khắc phục những hạn chế của cả RTDETRv2 và YOLOv9 bằng cách kết hợp những điểm mạnh của họ thành một kiến ​​trúc thống nhất.

Tại sao nên nâng cấp lên YOLO26?

YOLO26 làm cho các so sánh trước đây trở nên vô nghĩa bằng cách cung cấp khả năng phát hiện hoàn chỉnh không cần NMS một cách tự nhiên. Nó loại bỏ các nút thắt cổ chai trong quá trình xử lý hậu kỳ. YOLOv9 trong khi vẫn giữ được ưu điểm về tốc độ của mạng CNN, đồng thời tránh được chi phí tính toán lớn của các mô hình transformer như RTDETRv2.

Những bước đột phá quan trọng của YOLO26:

  • Hoàn thiện từ đầu đến cuối: Loại bỏ NMS Để có quy trình triển khai nhanh hơn, đơn giản hơn.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ quá trình huấn luyện LLM (như Kimi K2 của Moonshot AI), bộ tối ưu hóa lai này đảm bảo sự hội tụ ổn định và quá trình huấn luyện mạnh mẽ.
  • Tốc độ được nâng cao: Tối ưu hóa cho CPU Khả năng suy luận này đạt tốc độ nhanh hơn tới 43% so với các thế hệ trước, lý tưởng cho các ứng dụng AI tại biên .
  • ProgLoss + STAL: Các hàm mất mát nâng cao giúp cải thiện khả năng phát hiện vật thể nhỏ, một tính năng quan trọng đối với ảnh chụp từ máy bay không người lái và IoT.

Tìm hiểu thêm về YOLO26

Kết luận

Cả RTDETRv2 và YOLOv9 Đây là những đóng góp ấn tượng cho lĩnh vực thị giác máy tính. RTDETRv2 đẩy mạnh giới hạn về độ chính xác dựa trên transformer, trong khi đó YOLOv9 Nó giúp cải thiện hiệu quả của mạng nơ-ron tích chập (CNN). Tuy nhiên, đối với việc triển khai thực tế, các mô hình Ultralytics YOLO vẫn là lựa chọn vượt trội hơn. Với sự ra mắt của YOLO26, các nhà phát triển không còn phải lựa chọn giữa sự đơn giản của việc phát hiện từ đầu đến cuối và tốc độ của CNN nữa—họ có thể có cả hai trong một gói duy nhất, được hỗ trợ tốt.

Khám phá Nền tảng Ultralytics để bắt đầu huấn luyện mô hình của bạn ngay hôm nay, hoặc tìm hiểu sâu hơn về tài liệu hướng dẫn chi tiết của chúng tôi để biết thêm thông tin về cách tối ưu hóa quy trình AI xử lý hình ảnh của bạn.


Bình luận