Chuyển đến nội dung

YOLOv9 So với RTDETRv2: Phân tích chuyên sâu về công nghệ phát hiện đối tượng hiện đại

Lĩnh vực phát hiện đối tượng thời gian thực đã trải qua một sự thay đổi mang tính đột phá trong những năm gần đây. Hai triết lý kiến ​​trúc riêng biệt đã nổi lên và thống trị lĩnh vực này: Mạng nơ-ron tích chập (CNN) được tối ưu hóa cao và bộ chuyển đổi phát hiện thời gian thực (DETR). Đại diện cho đỉnh cao của hai phương pháp này là YOLOv9RTDETRv2 .

Hướng dẫn toàn diện này so sánh hai mô hình mạnh mẽ này, phân tích những cải tiến về kiến ​​trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng để giúp bạn chọn mô hình phù hợp cho quy trình xử lý hình ảnh máy tính của mình.

Tóm tắt điều hành

Cả hai mô hình đều đạt được kết quả tiên tiến nhất, nhưng chúng phục vụ cho các ràng buộc triển khai và hệ sinh thái phát triển hơi khác nhau.

  • Hãy chọn YOLOv9 nếu: Bạn cần khả năng sử dụng tham số hiệu quả cao và tốc độ suy luận nhanh trên các thiết bị biên. YOLOv9 Nó đẩy giới hạn lý thuyết về hiệu quả của mạng CNN, khiến nó trở nên lý tưởng cho các môi trường có tài nguyên tính toán bị hạn chế nghiêm ngặt.
  • Hãy chọn RTDETRv2 nếu: Bạn cần khả năng hiểu ngữ cảnh tinh tế mà Transformer cung cấp, đặc biệt là trong các cảnh có hiện tượng che khuất nghiêm trọng hoặc mối quan hệ đối tượng phức tạp, và bạn có phần cứng đủ mạnh để hỗ trợ kiến ​​trúc nặng hơn một chút.
  • Chọn YOLO26 (Được khuyến nghị) nếu: Bạn muốn có được những ưu điểm tốt nhất của cả hai thế giới. Là thế hệ mới nhất hiện có trên nền tảng Ultralytics , YOLO26 sở hữu thiết kế tích hợp NMS - Free (tương tự như các mô hình DETR nhưng nhanh hơn nhiều), loại bỏ các điểm nghẽn trong quá trình xử lý hậu kỳ và mang lại hiệu suất nhanh hơn tới 43%. CPU Khả năng suy luận tốt hơn so với các thế hệ trước.

Thông số kỹ thuật và tác giả

Việc hiểu rõ nguồn gốc và ý đồ thiết kế của những mô hình này cung cấp bối cảnh quan trọng cho các lựa chọn kiến ​​trúc của chúng.

YOLOv9

Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc
Ngày: 21/02/2024
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: WongKinYiu/yolov9

Tìm hiểu thêm về YOLOv9

RTDETRv2

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu Ngày: 24/07/2024
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/ RT-DETR

Tìm hiểu thêm về RTDETR

Đổi mới Kiến trúc

YOLOv9: Giải quyết nút thắt thông tin

Ultralytics YOLOv9 giới thiệu hai cải tiến lớn được thiết kế để giải quyết vấn đề mất mát thông tin khi dữ liệu truyền qua mạng nơ-ron sâu:

  1. Thông tin độ dốc có thể lập trình (PGI): Khung giám sát phụ trợ này đảm bảo tạo ra các độ dốc đáng tin cậy để cập nhật trọng số mạng, bảo toàn thông tin đặc trưng quan trọng ngay cả trong các lớp mạng rất sâu.
  2. Mạng tổng hợp lớp hiệu quả tổng quát (GELAN): Một kiến ​​trúc mới kết hợp những ưu điểm của CSPNet và ELAN. GELAN tối ưu hóa hiệu quả tham số, cho phép YOLOv9 Để đạt được độ chính xác cao hơn với số phép tính (FLOP) ít hơn so với các mạng CNN truyền thống.

RTDETRv2: Nâng cao hiệu năng của bộ biến đổi thời gian thực

Tiếp nối thành công của phiên bản gốc. RT-DETR RTDETRv2 sử dụng kiến ​​trúc dựa trên Transformer, giúp tránh hoàn toàn nhu cầu về việc triệt tiêu cực đại cục bộ (Non-Maximum Suppression). NMS Những cải tiến của nó bao gồm:

  1. Chiến lược "Túi quà tặng miễn phí": Phiên bản v2 kết hợp các kỹ thuật huấn luyện tiên tiến và tăng cường dữ liệu giúp nâng cao đáng kể độ chính xác mà không làm tăng thêm độ trễ suy luận.
  2. Bộ mã hóa lai hiệu quả: Bằng cách xử lý các đặc trưng đa tỷ lệ thông qua cơ chế chú ý nội tỷ lệ và xuyên tỷ lệ được tách rời, RTDETRv2 quản lý hiệu quả chi phí tính toán cao thường thấy của Vision Transformer.

Phát hiện đầu cuối gốc

Trong khi RTDETRv2 tận dụng Transformer cho NMS - Phát hiện không cần nạp tiền, kiến ​​trúc YOLO26 mới đạt được điều này một cách tự nhiên trong cấu trúc CNN được tối ưu hóa cao, cung cấp khả năng triển khai hợp lý tương tự nhưng với tốc độ suy luận tại biên vượt trội hơn nhiều.

So sánh hiệu suất

Khi đánh giá các mô hình để đưa vào sản xuất, sự cân bằng giữa độ chính xác và yêu cầu tính toán là rất quan trọng. Bảng dưới đây phác thảo hiệu suất của các kích thước mô hình khác nhau trên các tiêu chuẩn đánh giá thông thường.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Phân tích

Như số liệu cho thấy, YOLOv9 duy trì ưu thế vượt trội về hiệu quả tham số. Mô hình YOLOv9c đạt được con số ấn tượng 53,0. mAP Chỉ với 25,3 triệu thông số, nó trở nên cực kỳ nhẹ.

Ngược lại, RTDETRv2 cạnh tranh mạnh mẽ trong các mô hình cỡ trung bình đến lớn. Tuy nhiên, điều này phải trả giá bằng số lượng tham số cao hơn và số phép tính FLOP lớn hơn đáng kể, đặc trưng của các mô hình Transformer . Sự khác biệt về kiến ​​trúc này cũng dẫn đến việc sử dụng bộ nhớ: YOLO các mô hình thường yêu cầu ít hơn rất nhiều CUDA khả năng ghi nhớ trong cả quá trình huấn luyện và suy luận so với các mô hình Transformer tương ứng.

Cái Ultralytics Ưu điểm: Hệ sinh thái và tính linh hoạt

Mặc dù các chỉ số kiến ​​trúc thuần túy rất quan trọng, nhưng hệ sinh thái phần mềm thường quyết định sự thành công của một dự án AI. Việc truy cập các mô hình tiên tiến này thông qua API Python Ultralytics mang lại những lợi thế vượt trội.

Đào tạo và triển khai được tinh gọn

Việc huấn luyện một Detection Transformer thường yêu cầu các tệp cấu hình phức tạp và GPU cao cấp. Bằng cách sử dụng khung Ultralytics , các nhà phát triển có thể huấn luyện cả hai. YOLOv9 và các mô hình RTDETR với cú pháp đơn giản, giống hệt nhau, được hưởng lợi từ các quy trình huấn luyện hiệu quả cao và các trọng số được huấn luyện trước có sẵn.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")

Khả năng thực hiện nhiệm vụ vượt trội

Một hạn chế lớn của các mô hình chuyên dụng như RTDETRv2 là chúng chỉ tập trung vào việc phát hiện hộp giới hạn. Ngược lại, phạm vi rộng hơn... Ultralytics Hệ sinh thái này, bao gồm các mô hình như YOLO11YOLOv8 , hỗ trợ một loạt các tác vụ thị giác máy tính . Điều này bao gồm phân đoạn đối tượng chính xác đến từng pixel, ước tính tư thế xương, phân loại toàn bộ hình ảnh và phát hiện hộp giới hạn định hướng (OBB) cho ảnh chụp từ trên không.

Các ứng dụng thực tế

Phân tích dữ liệu biên tốc độ cao

Đối với môi trường bán lẻ hoặc dây chuyền sản xuất yêu cầu nhận dạng sản phẩm theo thời gian thực trên các thiết bị đầu cuối, YOLOv9 là lựa chọn tối ưu. Kiến trúc GELAN của nó đảm bảo thông lượng cao trên phần cứng hạn chế như... NVIDIA Dòng sản phẩm Jetson, cho phép kiểm soát chất lượng tự động mà không có độ trễ đáng kể.

Phân tích cảnh phức tạp

Trong các tình huống như giám sát đám đông dày đặc hoặc các giao lộ phức tạp nơi các vật thể thường xuyên che khuất lẫn nhau, cơ chế chú ý toàn cục của RTDETRv2 phát huy hiệu quả. Khả năng tự động suy luận về toàn bộ ngữ cảnh hình ảnh cho phép mô hình duy trì khả năng theo dõi và phát hiện mạnh mẽ ngay cả khi các vật thể bị che khuất một phần.

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa YOLOv9 Và RT-DETR Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLOv9

YOLOv9 là một lựa chọn tốt cho:

  • Nghiên cứu về tắc nghẽn thông tin: Các dự án học thuật nghiên cứu kiến ​​trúc Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).
  • Nghiên cứu tối ưu hóa dòng gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu sự mất mát thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
  • Đánh giá hiệu năng phát hiện độ chính xác cao: Các kịch bản trong đó YOLOv9 mạnh mẽ COCO Hiệu năng chuẩn là cần thiết để làm điểm tham chiếu cho việc so sánh kiến ​​trúc.

Khi nào nên lựa chọn RT-DETR

RT-DETR được khuyến nghị cho:

  • Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến ​​trúc Transformer để phát hiện đối tượng từ đầu đến cuối mà không cần NMS .
  • Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là chấp nhận được.
  • Phát hiện vật thể lớn: Các cảnh chủ yếu chứa các vật thể có kích thước trung bình đến lớn, nơi cơ chế chú ý toàn cục của Transformer mang lại lợi thế tự nhiên.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Tương lai: Hãy cùng bước vào YOLO26

Trong khi YOLOv9 Với RTDETRv2 và các công nghệ tiên tiến khác, lĩnh vực thị giác máy tính đang phát triển rất nhanh chóng. Đối với các nhà phát triển muốn bắt đầu các dự án mới, YOLO26 là giải pháp hiện đại được khuyến nghị.

Ra mắt vào năm 2026, YOLO26 kết hợp những tính năng tốt nhất của cả mạng CNN và DETR. Nó sở hữu thiết kế End-to-End NMS -Free , loại bỏ hoàn toàn độ trễ xử lý hậu kỳ—một kỹ thuật lần đầu tiên được tiên phong trong YOLOv10 . Hơn nữa, YOLO26 loại bỏ Distribution Focal Loss (DFL) để cải thiện khả năng tương thích biên và giới thiệu bộ tối ưu hóa MuSGD mang tính cách mạng. Lấy cảm hứng từ việc huấn luyện Mô hình Ngôn ngữ Lớn (cụ thể là Kimi K2 của Moonshot AI), bộ tối ưu hóa lai này đảm bảo tính ổn định huấn luyện chưa từng có và tốc độ hội tụ nhanh hơn.

Kết hợp với các hàm mất mát được cải tiến như ProgLoss và STAL cho khả năng nhận dạng vật thể nhỏ vượt trội, YOLO26 mang lại tốc độ suy luận CPU nhanh hơn tới 43% , củng cố vị thế của nó như là mô hình tối ưu cho các triển khai AI hiện đại.


Bình luận