YOLOv9 So với RTDETRv2: Phân tích chuyên sâu về công nghệ phát hiện đối tượng hiện đại

Lĩnh vực phát hiện đối tượng thời gian thực đã trải qua một sự thay đổi mang tính đột phá trong những năm gần đây. Hai triết lý kiến trúc riêng biệt đã nổi lên và thống trị lĩnh vực này: Mạng nơ-ron tích chập (CNN) được tối ưu hóa cao và bộ chuyển đổi phát hiện thời gian thực (DETR). Đại diện cho đỉnh cao của hai phương pháp này là YOLOv9 và RTDETRv2 .

Hướng dẫn toàn diện này so sánh hai mô hình mạnh mẽ này, phân tích những cải tiến về kiến trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng để giúp bạn chọn mô hình phù hợp cho quy trình xử lý hình ảnh máy tính của mình.

Tóm tắt điều hành

Cả hai mô hình đều đạt được kết quả tiên tiến nhất, nhưng chúng phục vụ các ràng buộc triển khai và hệ sinh thái phát triển hơi khác nhau.

Chọn YOLOv9 nếu: Bạn cần sử dụng tham số hiệu quả cao và suy luận nhanh trên các thiết bị biên. YOLOv9 đẩy giới hạn lý thuyết về hiệu quả của CNN, làm cho nó lý tưởng cho các môi trường có tài nguyên tính toán bị hạn chế nghiêm ngặt.
Chọn RTDETRv2 nếu: Bạn yêu cầu khả năng hiểu ngữ cảnh tinh tế mà Transformers cung cấp, đặc biệt trong các cảnh có che khuất nghiêm trọng hoặc mối quan hệ đối tượng phức tạp, và bạn có phần cứng để hỗ trợ một kiến trúc nặng hơn một chút.
Chọn YOLO26 (Được khuyến nghị) nếu: Bạn muốn có được những gì tốt nhất từ cả hai thế giới. Là thế hệ mới nhất có sẵn trên Nền tảng Ultralytics, YOLO26 sở hữu Thiết kế NMS-Free Từ Đầu Đến Cuối nguyên bản (tương tự các mô hình DETR nhưng nhanh hơn nhiều), loại bỏ các nút thắt cổ chai trong xử lý hậu kỳ và mang lại khả năng suy luận trên CPU nhanh hơn tới 43% so với các thế hệ trước.

Thông số kỹ thuật và tác giả

Việc hiểu rõ nguồn gốc và ý đồ thiết kế của những mô hình này cung cấp bối cảnh quan trọng cho các lựa chọn kiến trúc của chúng.

YOLOv9

Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
Tổ chức:Viện Khoa học Thông tin, Academia Sinica
Ngày: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:WongKinYiu/yolov9

Tìm hiểu thêm về YOLOv9

RTDETRv2

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức:BaiduNgày: 2024-07-24
Arxiv:https://arxiv.org/abs/2407.17140
GitHub:lyuwenyu/RT-DETR

Tìm hiểu thêm về RTDETR

Đổi mới Kiến trúc

YOLOv9: Giải quyết nút thắt thông tin

Ultralytics YOLOv9 giới thiệu hai đổi mới lớn được thiết kế để giải quyết vấn đề mất mát thông tin khi dữ liệu đi qua các mạng nơ-ron sâu:

Thông tin Gradient có thể lập trình (PGI): Khung giám sát phụ trợ này đảm bảo rằng các gradient đáng tin cậy được tạo ra để cập nhật trọng số mạng, bảo toàn thông tin đặc trưng quan trọng ngay cả trong các lớp mạng rất sâu.
Mạng tổng hợp lớp hiệu quả tổng quát (GELAN): Một kiến trúc mới kết hợp sức mạnh của CSPNet và ELAN. GELAN tối ưu hóa hiệu quả tham số, cho phép YOLOv9 đạt được độ chính xác cao hơn với ít FLOP hơn so với các mạng CNN truyền thống.

RTDETRv2: Nâng cao hiệu năng của bộ biến đổi thời gian thực

Dựa trên thành công của RT-DETR gốc, RTDETRv2 sử dụng kiến trúc dựa trên Transformer vốn dĩ tránh được nhu cầu Non-Maximum Suppression (NMS). Các cải tiến của nó bao gồm:

Chiến lược Bag-of-Freebies: Phiên bản v2 tích hợp các kỹ thuật huấn luyện tiên tiến và tăng cường dữ liệu giúp tăng đáng kể độ chính xác mà không làm tăng thêm chi phí cho độ trễ suy luận.
Bộ mã hóa lai hiệu quả: Bằng cách xử lý các đặc trưng đa tỷ lệ thông qua cơ chế chú ý nội tỷ lệ và liên tỷ lệ tách rời, RTDETRv2 quản lý hiệu quả chi phí tính toán cao truyền thống của Vision Transformers.

Phát hiện đầu cuối gốc

Trong khi RTDETRv2 tận dụng Transformer cho NMS - Phát hiện không cần nạp tiền, kiến trúc YOLO26 mới đạt được điều này một cách tự nhiên trong cấu trúc CNN được tối ưu hóa cao, cung cấp khả năng triển khai hợp lý tương tự nhưng với tốc độ suy luận tại biên vượt trội hơn nhiều.

So sánh hiệu suất

Khi đánh giá các mô hình để đưa vào sản xuất, sự cân bằng giữa độ chính xác và yêu cầu tính toán là rất quan trọng. Bảng dưới đây phác thảo hiệu suất của các kích thước mô hình khác nhau trên các tiêu chuẩn đánh giá thông thường.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Phân tích

Như dữ liệu cho thấy, YOLOv9 duy trì lợi thế nghiêm ngặt về hiệu quả tham số. Mô hình YOLOv9c đạt 53.0 mAP ấn tượng chỉ với 25.3M tham số, khiến nó cực kỳ nhẹ.

Ngược lại, RTDETRv2 cung cấp sự cạnh tranh mạnh mẽ trong các danh mục mô hình từ trung bình đến lớn. Tuy nhiên, điều này phải trả giá bằng số lượng tham số cao hơn và FLOPs lớn hơn đáng kể, điển hình của các mô hình Transformer. Sự khác biệt về kiến trúc này cũng dẫn đến việc sử dụng bộ nhớ: các mô hình YOLO thường yêu cầu ít bộ nhớ CUDA hơn đáng kể trong cả quá trình huấn luyện và suy luận so với các mô hình Transformer tương đương của chúng.

Cái Ultralytics Ưu điểm: Hệ sinh thái và tính linh hoạt

Mặc dù các chỉ số kiến trúc thuần túy rất quan trọng, nhưng hệ sinh thái phần mềm thường quyết định sự thành công của một dự án AI. Việc truy cập các mô hình tiên tiến này thông qua API Python Ultralytics mang lại những lợi thế vượt trội.

Đào tạo và triển khai được tinh gọn

Việc huấn luyện một Detection Transformer thường yêu cầu các tệp cấu hình phức tạp và GPU cao cấp. Bằng cách sử dụng khung Ultralytics , các nhà phát triển có thể huấn luyện cả hai. YOLOv9 và các mô hình RTDETR với cú pháp đơn giản, giống hệt nhau, được hưởng lợi từ các quy trình huấn luyện hiệu quả cao và các trọng số được huấn luyện trước có sẵn.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")

Khả năng thực hiện nhiệm vụ vượt trội

Một hạn chế lớn của các mô hình chuyên biệt như RTDETRv2 là chúng chỉ tập trung hẹp vào phát hiện hộp giới hạn. Ngược lại, hệ sinh thái Ultralytics rộng lớn hơn, bao gồm các mô hình như YOLO11 và YOLOv8, hỗ trợ nhiều tác vụ thị giác máy tính. Điều này bao gồm segmentation thể hiện chính xác đến từng pixel, ước tính tư thế xương, phân loại toàn ảnh và phát hiện Oriented Bounding Box (OBB) cho ảnh hàng không.

Các ứng dụng thực tế

Phân tích dữ liệu biên tốc độ cao

Đối với môi trường bán lẻ hoặc dây chuyền sản xuất yêu cầu nhận dạng sản phẩm theo thời gian thực trên các thiết bị đầu cuối, YOLOv9 là lựa chọn tối ưu. Kiến trúc GELAN của nó đảm bảo thông lượng cao trên phần cứng hạn chế như... NVIDIA Dòng sản phẩm Jetson, cho phép kiểm soát chất lượng tự động mà không có độ trễ đáng kể.

Phân tích cảnh phức tạp

Trong các tình huống như giám sát đám đông dày đặc hoặc các giao lộ phức tạp nơi các vật thể thường xuyên che khuất lẫn nhau, cơ chế chú ý toàn cục của RTDETRv2 phát huy hiệu quả. Khả năng tự động suy luận về toàn bộ ngữ cảnh hình ảnh cho phép mô hình duy trì khả năng theo dõi và phát hiện mạnh mẽ ngay cả khi các vật thể bị che khuất một phần.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOv9 và RT-DETR phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn YOLOv9

YOLOv9 là một lựa chọn tốt cho:

Nghiên cứu nút cổ chai thông tin: Các dự án học thuật nghiên cứu kiến trúc Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).
Nghiên cứu tối ưu hóa luồng gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu mất mát thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
Đánh giá hiệu suất detect độ chính xác cao: Các kịch bản cần hiệu suất benchmark COCO mạnh mẽ của YOLOv9 làm điểm tham chiếu cho việc so sánh kiến trúc.

Khi nào nên lựa chọn RT-DETR

RT-DETR được khuyến nghị cho:

Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer để phát hiện đối tượng đầu cuối mà không cần NMS.
Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác detect là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút có thể chấp nhận được.
Phát hiện đối tượng lớn: Các cảnh với chủ yếu các đối tượng từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Tương lai: Hãy cùng bước vào YOLO26

Trong khi YOLOv9 Với RTDETRv2 và các công nghệ tiên tiến khác, lĩnh vực thị giác máy tính đang phát triển rất nhanh chóng. Đối với các nhà phát triển muốn bắt đầu các dự án mới, YOLO26 là giải pháp hiện đại được khuyến nghị.

Ra mắt vào năm 2026, YOLO26 kết hợp những tính năng tốt nhất của cả mạng CNN và DETR. Nó sở hữu thiết kế End-to-End NMS -Free , loại bỏ hoàn toàn độ trễ xử lý hậu kỳ—một kỹ thuật lần đầu tiên được tiên phong trong YOLOv10 . Hơn nữa, YOLO26 loại bỏ Distribution Focal Loss (DFL) để cải thiện khả năng tương thích biên và giới thiệu bộ tối ưu hóa MuSGD mang tính cách mạng. Lấy cảm hứng từ việc huấn luyện Mô hình Ngôn ngữ Lớn (cụ thể là Kimi K2 của Moonshot AI), bộ tối ưu hóa lai này đảm bảo tính ổn định huấn luyện chưa từng có và tốc độ hội tụ nhanh hơn.

Kết hợp với các hàm mất mát được cải tiến như ProgLoss và STAL để nhận diện vật thể nhỏ vượt trội, YOLO26 mang lại tốc độ suy luận trên CPU nhanh hơn tới 43%, củng cố vị thế của nó như là mô hình tối ưu cho các triển khai AI hiện đại.