Link to this sectionYOLOv9 so với RTDETRv2#

Bối cảnh của phát hiện đối tượng thời gian thực đã trải qua một sự thay đổi mô hình trong những năm gần đây. Hai triết lý kiến trúc riêng biệt đã nổi lên và thống trị lĩnh vực này: Mạng thần kinh tích chập (CNNs) được tối ưu hóa cao và các Detection Transformer (DETRs) thời gian thực. Đỉnh cao của hai phương pháp này chính là YOLOv9 và RTDETRv2.

Hướng dẫn toàn diện này so sánh hai mô hình mạnh mẽ này, phân tích các cải tiến về kiến trúc, chỉ số hiệu suất và các tình huống triển khai lý tưởng để giúp bạn chọn đúng mô hình cho pipeline thị giác máy tính của mình.

Link to this sectionTóm tắt điều hành#

Cả hai mô hình đều đạt được kết quả hiện đại nhất, nhưng chúng phục vụ các ràng buộc triển khai và hệ sinh thái phát triển hơi khác nhau.

Chọn YOLOv9 nếu: Bạn cần sử dụng tham số hiệu quả cao và suy luận nhanh trên các thiết bị edge. YOLOv9 đẩy giới hạn lý thuyết về hiệu suất CNN lên mức tối đa, khiến nó trở nên lý tưởng cho các môi trường nơi tài nguyên tính toán bị giới hạn nghiêm ngặt.
Chọn RTDETRv2 nếu: Bạn yêu cầu sự hiểu biết ngữ cảnh chi tiết mà Transformer cung cấp, đặc biệt là trong các cảnh có sự che khuất nghiêm trọng hoặc các mối quan hệ đối tượng phức tạp, và bạn có phần cứng để hỗ trợ một kiến trúc nặng hơn một chút.
Chọn YOLO26 (Khuyên dùng) nếu: Bạn muốn những gì tốt nhất của cả hai thế giới. Là thế hệ mới nhất hiện có trên Ultralytics Platform, YOLO26 sở hữu thiết kế End-to-End NMS-Free (không dùng NMS) tự nhiên (tương tự các mô hình DETR nhưng nhanh hơn nhiều), giúp loại bỏ các nút thắt hậu xử lý và cung cấp tốc độ suy luận trên CPU nhanh hơn tới 43% so với các thế hệ trước.

Link to this sectionThông số kỹ thuật và Quyền tác giả#

Hiểu về nguồn gốc và ý định thiết kế của các mô hình này cung cấp bối cảnh quan trọng cho các lựa chọn kiến trúc của chúng.

Link to this sectionYOLOv9#

Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
Tổ chức: Institute of Information Science, Academia Sinica
Ngày: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: WongKinYiu/yolov9

Tìm hiểu thêm về YOLOv9

Link to this sectionRTDETRv2#

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu
Ngày: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

Tìm hiểu thêm về RTDETR

Link to this sectionCải tiến kiến trúc#

Link to this sectionYOLOv9: Giải quyết nút thắt thông tin#

Ultralytics YOLOv9 giới thiệu hai cải tiến chính được thiết kế để giải quyết tình trạng mất thông tin khi dữ liệu đi qua các mạng thần kinh sâu:

Programmable Gradient Information (PGI): Khung giám sát bổ trợ này đảm bảo rằng các gradient đáng tin cậy được tạo ra để cập nhật trọng số mạng, bảo tồn thông tin đặc trưng quan trọng ngay cả trong các lớp mạng rất sâu.
Generalized Efficient Layer Aggregation Network (GELAN): Một kiến trúc mới kết hợp sức mạnh của CSPNet và ELAN. GELAN tối ưu hóa hiệu quả tham số, cho phép YOLOv9 đạt độ chính xác cao hơn với ít FLOPs hơn so với các CNN truyền thống.

Link to this sectionRTDETRv2: Nâng cao các Transformer thời gian thực#

Dựa trên thành công của RT-DETR gốc, RTDETRv2 sử dụng kiến trúc dựa trên Transformer vốn tránh được nhu cầu sử dụng Non-Maximum Suppression (NMS). Các cải tiến của nó bao gồm:

Chiến lược Bag-of-Freebies: Phiên bản v2 kết hợp các kỹ thuật huấn luyện nâng cao và tăng cường dữ liệu giúp tăng đáng kể độ chính xác mà không làm tăng thêm độ trễ suy luận.
Efficient Hybrid Encoder: Bằng cách xử lý các đặc trưng đa quy mô thông qua cơ chế chú ý decoupled intra-scale và cross-scale, RTDETRv2 quản lý hiệu quả chi phí tính toán cao vốn có của Vision Transformers.

Phát hiện End-to-End tự nhiên

Trong khi RTDETRv2 tận dụng Transformer cho việc phát hiện không cần NMS, kiến trúc YOLO26 mới đạt được điều này một cách tự nhiên trong cấu trúc CNN được tối ưu hóa cao, mang lại khả năng triển khai tinh gọn tương tự nhưng với tốc độ suy luận trên thiết bị edge vượt trội hơn hẳn.

Link to this sectionSo sánh hiệu năng#

Khi đánh giá các mô hình cho sản xuất, sự cân bằng giữa độ chính xác và yêu cầu tính toán là rất quan trọng. Bảng dưới đây phác thảo hiệu suất của nhiều kích thước mô hình khác nhau dựa trên các điểm chuẩn tiêu chuẩn.

Mô hình	kích thước ^(pixel)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Link to this sectionPhân tích#

Như dữ liệu cho thấy, YOLOv9 duy trì lợi thế nghiêm ngặt về hiệu quả tham số. Mô hình YOLOv9c đạt 53.0 mAP ấn tượng chỉ với 25.3M tham số, khiến nó trở nên nhẹ đáng kinh ngạc.

Ngược lại, RTDETRv2 mang lại sự cạnh tranh mạnh mẽ trong các danh mục mô hình từ trung bình đến lớn. Tuy nhiên, điều này phải trả giá bằng số lượng tham số cao hơn và FLOPs lớn hơn đáng kể, đặc thù của các mô hình Transformer. Sự khác biệt kiến trúc này cũng dẫn đến việc sử dụng bộ nhớ: các mô hình YOLO thường yêu cầu ít bộ nhớ CUDA hơn đáng kể trong cả quá trình huấn luyện và suy luận so với các mô hình Transformer tương đương.

Link to this sectionLợi thế của Ultralytics: Hệ sinh thái và Tính linh hoạt#

Mặc dù các chỉ số kiến trúc thuần túy là quan trọng, hệ sinh thái phần mềm thường quyết định sự thành công của một dự án AI. Truy cập các mô hình nâng cao này thông qua Ultralytics Python API mang lại những lợi thế vô song.

Link to this sectionHuấn luyện và Triển khai tinh gọn#

Huấn luyện một Detection Transformer thường đòi hỏi các tệp cấu hình phức tạp và GPU cao cấp. Bằng cách sử dụng framework Ultralytics, các nhà phát triển có thể huấn luyện cả hai mô hình YOLOv9 và RTDETR với cú pháp đơn giản, giống hệt nhau, hưởng lợi từ các pipeline huấn luyện hiệu quả cao và các trọng số tiền huấn luyện sẵn có.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")

Link to this sectionTính linh hoạt tác vụ chưa từng có#

Một hạn chế lớn của các mô hình chuyên biệt như RTDETRv2 là sự tập trung hẹp vào phát hiện bounding box. Ngược lại, hệ sinh thái Ultralytics rộng lớn hơn, bao gồm các mô hình như YOLO11 và YOLOv8, hỗ trợ hàng loạt các tác vụ thị giác máy tính. Điều này bao gồm phân đoạn đối tượng chính xác từng pixel, ước tính tư thế theo khung xương, phân loại toàn ảnh và phát hiện Oriented Bounding Box (OBB) cho hình ảnh từ trên không.

Link to this sectionỨng dụng trong thực tế#

Link to this sectionPhân tích Edge tốc độ cao#

Đối với các môi trường bán lẻ hoặc dây chuyền sản xuất yêu cầu nhận dạng sản phẩm thời gian thực trên các thiết bị edge, YOLOv9 là lựa chọn vượt trội. Kiến trúc GELAN của nó đảm bảo thông lượng cao trên phần cứng bị hạn chế như dòng NVIDIA Jetson, cho phép kiểm soát chất lượng tự động mà không bị lag đáng kể.

Link to this sectionPhân tích cảnh phức tạp#

Trong các tình huống như giám sát đám đông dày đặc hoặc các giao lộ giao thông phức tạp nơi các đối tượng thường xuyên che khuất lẫn nhau, cơ chế chú ý toàn cục của RTDETRv2 thực sự tỏa sáng. Khả năng lập luận tự nhiên về toàn bộ ngữ cảnh hình ảnh của mô hình cho phép nó duy trì theo dõi và phát hiện mạnh mẽ ngay cả khi các đối tượng bị che khuất một phần.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLOv9 và RT-DETR phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLOv9#

YOLOv9 là lựa chọn mạnh mẽ cho:

Nghiên cứu Nút thắt Thông tin (Information Bottleneck): Các dự án học thuật nghiên cứu về Programmable Gradient Information (PGI) và kiến trúc Generalized Efficient Layer Aggregation Network (GELAN).
Nghiên cứu Tối ưu hóa Luồng Gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu tình trạng mất thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
Đo lường Phát hiện Độ chính xác cao: Các kịch bản mà hiệu suất đo lường trên bộ dữ liệu COCO của YOLOv9 cần thiết làm điểm tham chiếu cho các so sánh kiến trúc.

Link to this sectionKhi nào nên chọn RT-DETR#

RT-DETR được khuyên dùng cho:

Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer cho phát hiện vật thể end-to-end không cần NMS.
Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là có thể chấp nhận được.
Phát hiện vật thể lớn: Các cảnh chủ yếu có vật thể từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionTương lai: Chào đón YOLO26#

Trong khi YOLOv9 và RTDETRv2 đại diện cho những thành tựu to lớn, lĩnh vực thị giác máy tính đang phát triển rất nhanh. Đối với các nhà phát triển muốn bắt đầu các dự án mới, YOLO26 là giải pháp hiện đại nhất được khuyên dùng.

Được phát hành vào năm 2026, YOLO26 kết hợp những tính năng tốt nhất của cả CNNs và DETRs. Nó có thiết kế End-to-End NMS-Free, loại bỏ hoàn toàn độ trễ hậu xử lý—một kỹ thuật được tiên phong lần đầu trong YOLOv10. Hơn nữa, YOLO26 loại bỏ Distribution Focal Loss (DFL) để tương thích tốt hơn với thiết bị edge và giới thiệu MuSGD Optimizer mang tính cách mạng. Lấy cảm hứng từ quá trình huấn luyện Mô hình Ngôn ngữ Lớn (đặc biệt là Kimi K2 của Moonshot AI), bộ tối ưu hóa lai này đảm bảo sự ổn định huấn luyện chưa từng có và khả năng hội tụ nhanh hơn.

Kết hợp với các hàm mất mát cải tiến như ProgLoss và STAL cho khả năng nhận diện đối tượng nhỏ đặc biệt, YOLO26 mang lại tốc độ suy luận CPU nhanh hơn tới 43%, củng cố vị thế của nó là mô hình tối ưu cho các triển khai AI hiện đại.

Người đóng góp

GLglenn-jocher¹⁴ PDpderrenger¹

Đã tạo 27 thg 1, 2025Đã cập nhật 3 tuần trước