YOLOv9 vs RTDETRv2: Tìm hiểu sâu về các kiến trúc phát hiện thời gian thực
Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng để cân bằng tốc độ, độ chính xác và các hạn chế về triển khai. Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện giữa YOLOv9 , nổi tiếng với thông tin gradient có thể lập trình và hiệu quả, và RTDETRv2 , một bộ phát hiện dựa trên transformer thời gian thực hàng đầu. Bằng cách phân tích kiến trúc, số liệu hiệu suất và trường hợp sử dụng của chúng, các nhà phát triển có thể đưa ra quyết định sáng suốt cho các ứng dụng cụ thể của mình.
Điểm chuẩn hiệu suất
Bảng dưới đây trình bày sự so sánh trực tiếp các chỉ số chính. Các giá trị được in đậm cho biết hiệu suất tốt nhất trong mỗi hạng mục.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv9: Thông tin Gradient có thể lập trình
YOLOv9 đánh dấu một bước tiến đáng kể trong dòng sản phẩm You Only Look Once, tập trung giải quyết các nút thắt thông tin trong mạng nơ-ron sâu. Nó giới thiệu GELAN (Generalized Efficient Layer Aggregation Network) và PGI (Programmable Gradient Information) để giữ lại các đặc điểm dữ liệu quan trọng xuyên suốt các lớp sâu của mạng.
Các Đổi Mới Kiến Trúc Chính
- Kiến trúc GELAN: Kiến trúc mới này kết hợp những ưu điểm của CSPNet và ELAN, tối ưu hóa việc lập kế hoạch đường dẫn gradient. Nó cho phép tạo ra một cấu trúc nhẹ nhưng vẫn duy trì tốc độ suy luận cao trong khi tổng hợp hiệu quả các đặc trưng ở các quy mô khác nhau.
- Thông tin độ dốc có thể lập trình (PGI): Các mạng nơ-ron sâu thường bị mất thông tin khi dữ liệu truyền qua các lớp. PGI giới thiệu một nhánh giám sát phụ trợ để hướng dẫn cập nhật độ dốc, đảm bảo nhánh chính học được các đặc trưng mạnh mẽ mà không tốn thêm chi phí trong quá trình suy luận.
- Hiệu quả: Các biến thể "t" (tiny) và "s" (small) đặc biệt nổi bật nhờ số lượng tham số cực thấp (bắt đầu từ 2.0M), khiến chúng đặc biệt phù hợp cho việc triển khai AI biên (edge AI) nơi bộ nhớ khan hiếm.
Thông số kỹ thuật
- Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
- Tổ chức:Viện Khoa học Thông tin, Academia Sinica
- Ngày: 21 tháng 2, 2024
- Tham khảo: arXiv:2402.13616
- Kho lưu trữ:GitHub
Tại sao chọn YOLOv9?
YOLOv9 Nó hoạt động xuất sắc trong các trường hợp tài nguyên tính toán bị hạn chế nhưng độ chính xác cao là cần thiết. Hàm mất mát PGI tiên tiến của nó đảm bảo rằng ngay cả các mô hình nhỏ hơn cũng học hỏi hiệu quả, cung cấp tỷ lệ tham số trên độ chính xác vượt trội so với nhiều thế hệ trước.
RTDETRv2: Transformer thời gian thực
RTDETRv2 được xây dựng dựa trên sự thành công của phiên bản gốc. RT-DETR , tiếp tục hoàn thiện "Túi quà tặng" cho các bộ chuyển đổi phát hiện thời gian thực. Mục tiêu là vượt qua YOLO mô hình hóa bằng cách tận dụng khả năng xử lý ngữ cảnh toàn cầu của các bộ chuyển đổi đồng thời giảm thiểu chi phí tính toán cao của chúng.
Các Đổi Mới Kiến Trúc Chính
- Bộ mã hóa lai: RTDETRv2 xử lý hiệu quả các đặc trưng đa tỷ lệ bằng cách tách rời tương tác nội tỷ lệ và hợp nhất liên tỷ lệ, giảm chi phí cao thường thấy ở các bộ mã hóa transformer.
- Lựa chọn truy vấn dựa trên IoU : Cơ chế này cải thiện quá trình khởi tạo bằng cách chọn các đặc trưng mã hóa chất lượng cao làm truy vấn đối tượng, giúp bộ giải mã hội tụ nhanh hơn.
- Lấy mẫu động: Mô hình cơ bản được cải tiến tích hợp các chiến lược lấy mẫu linh hoạt trong quá trình huấn luyện, giúp tăng tốc độ hội tụ và độ chính xác cuối cùng mà không làm tăng độ trễ suy luận.
- Thiết kế không sử dụng Anchor: Giống như phiên bản tiền nhiệm, nó không sử dụng anchor, giúp đơn giản hóa quá trình chú thích dữ liệu và huấn luyện bằng cách loại bỏ nhu cầu điều chỉnh anchor box.
Thông số kỹ thuật
- Tác giả: Wenyu Lv, Yian Zhao, et al.
- Tổ chức: Baidu
- Ngày: 17 tháng 4 năm 2023 (v1), tháng 7 năm 2024 (v2)
- Tham khảo: arXiv:2304.08069
- Kho lưu trữ:GitHub
So sánh quan trọng: Tốc độ, độ chính xác và hiệu quả
Khi lựa chọn giữa hai kiến trúc này, một số sự đánh đổi sẽ trở nên rõ ràng.
Tốc độ và độ trễ suy luận
YOLOv9 thường duy trì vị trí dẫn đầu về tốc độ suy luận thô, đặc biệt là trên GPU phần cứng. Mô hình YOLOv9t , chỉ với 2.0 triệu tham số, đạt được độ trễ cực thấp (2.3ms trên T4). TensorRT ), giúp nó nhanh hơn cả biến thể RTDETRv2-s nhỏ nhất có tốc độ khoảng 5,03ms. Đối với việc xử lý video thời gian thực, nơi mỗi mili giây đều quan trọng, chẳng hạn như xe tự hành hoặc sản xuất tốc độ cao, YOLOv9 mang lại lợi thế rõ rệt về thông lượng.
Độ chính xác và phát hiện vật thể nhỏ
Trong khi YOLOv9 -e đạt được mAP khổng lồ 55,6% , RTDETRv2 có tính cạnh tranh cao trong phân khúc mô hình tầm trung đến lớn. RTDETRv2-x đạt 54,3%. mAP thấp hơn một chút so với YOLOv9 -e nhưng thường thể hiện tính ổn định tốt hơn trong các cảnh phức tạp nhờ trường tiếp nhận toàn cục của các mô-đun Transformer. Transformer vốn dĩ vượt trội trong việc hiểu ngữ cảnh giữa các đối tượng, điều này có thể giảm thiểu các kết quả dương tính giả trong môi trường đông đúc như phân tích bán lẻ . Tuy nhiên, YOLOv9 Kiến trúc GELAN của nó được tinh chỉnh đặc biệt để giữ lại các chi tiết nhỏ nhất, thường mang lại lợi thế trong việc phát hiện các vật thể nhỏ hơn, khó nhìn thấy hơn.
Yêu cầu về tài nguyên và bộ nhớ
Đây là một điểm khác biệt quan trọng. Kiến trúc dựa trên bộ biến áp của RTDETRv2 thường yêu cầu nhiều hơn. CUDA khả năng ghi nhớ trong quá trình huấn luyện và suy luận so với mạng nơ-ron tích chập (CNN). YOLOv9 .
- YOLOv9 : Sử dụng bộ nhớ cực kỳ hiệu quả. Các mô hình nhỏ gọn này có thể dễ dàng chạy trên các thiết bị biên như Raspberry Pi hoặc điện thoại di động.
- RTDETRv2: Mặc dù được tối ưu hóa cho tốc độ thời gian thực, cơ chế chú ý vẫn tiêu tốn nhiều bộ nhớ hơn, thường khiến nó phù hợp hơn cho việc triển khai phía máy chủ hoặc các GPU mạnh mẽ ở biên như... NVIDIA Jetson Orin.
Tích hợp với Ultralytics
Cả hai mô hình đều có thể được tích hợp liền mạch vào quy trình làm việc bằng cách sử dụng... Ultralytics Python SDK, giúp đơn giản hóa các quy trình thiết lập phức tạp.
Dễ sử dụng và hệ sinh thái
Cái Ultralytics Hệ sinh thái cung cấp giao diện thống nhất cho việc huấn luyện, xác thực và triển khai. Cho dù bạn chọn hiệu quả của CNN hay YOLOv9 hoặc công suất biến áp của RTDETRv2 (thông qua RT-DETR (về mặt triển khai), API vẫn nhất quán. Điều này cho phép các nhà phát triển hoán đổi mô hình chỉ với một dòng mã để kiểm tra xem kiến trúc nào phù hợp nhất với tập dữ liệu của họ.
from ultralytics import RTDETR, YOLO
# Load YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
results_yolo = model_yolo.train(data="coco8.yaml", epochs=100)
# Load RT-DETR model (RTDETRv2 architecture compatible)
model_rtdetr = RTDETR("rtdetr-l.pt")
results_rtdetr = model_rtdetr.train(data="coco8.yaml", epochs=100)
Hiệu quả huấn luyện
Ultralytics Các mô hình này nổi tiếng về hiệu quả huấn luyện . Khung phần mềm này triển khai các thiết lập mặc định thông minh cho siêu tham số , tự động tăng cường dữ liệu và quản lý bộ nhớ hiệu quả. Điều này đặc biệt có lợi khi làm việc với YOLOv9 Nhờ đó, người dùng có thể tận dụng các trọng số đã được huấn luyện trước để giảm đáng kể thời gian huấn luyện và chi phí tính toán so với việc huấn luyện các mô hình Transformer từ đầu.
Chuẩn bị cho tương lai: Lý do nên chọn YOLO26
Trong khi YOLOv9 RTDETRv2 và các hệ điều hành khác đều là những lựa chọn tuyệt vời, lĩnh vực đổi mới trí tuệ nhân tạo không bao giờ ngừng phát triển. Đối với các nhà phát triển đang tìm kiếm hiệu năng và khả năng triển khai dễ dàng nhất hiện nay, YOLO26 là phiên bản kế nhiệm được khuyến nghị.
YOLO26 giới thiệu một số tính năng đột phá nhằm khắc phục những hạn chế của các thế hệ trước:
- NMS từ đầu đến cuối - Miễn phí: Không giống như YOLOv9 điều này đòi hỏi sự ức chế không tối đa ( NMS (Xử lý hậu kỳ) và tương tự như tính chất từ đầu đến cuối của RTDETRv2, YOLO26 được tích hợp sẵn. NMS -miễn phí. Điều này giúp đơn giản hóa việc xuất sang ONNX và TensorRT và giảm độ trễ triển khai.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ quá trình huấn luyện LLM, bộ tối ưu hóa này kết hợp SGD Với Muon, quá trình hội tụ và ổn định diễn ra nhanh hơn, giải quyết một số vấn đề bất ổn trong quá trình huấn luyện thường gặp ở các kiến trúc phức tạp.
- Tốc độ vượt trội: Được tối ưu hóa đặc biệt cho CPU Với khả năng suy luận trên thiết bị biên, YOLO26 cung cấp tốc độ suy luận CPU nhanh hơn tới 43% so với các phiên bản trước, thu hẹp khoảng cách giữa độ chính xác cấp máy chủ và các hạn chế của thiết bị biên.
- Tính linh hoạt trong tác vụ: Trong khi RTDETRv2 chủ yếu tập trung vào phát hiện đối tượng, YOLO26 cung cấp hiệu năng hàng đầu trong các lĩnh vực phân đoạn , ước lượng tư thế và OBB , biến nó thành một công cụ đa năng cho nhiều tác vụ thị giác khác nhau.
Kết luận
Cả hai YOLOv9 YOLOv9 và RTDETRv2 đều mang lại những ưu điểm vượt trội. YOLOv9 là "nhà vô địch" về hiệu quả, cung cấp tỷ lệ tốc độ trên độ chính xác không gì sánh bằng cho việc triển khai ở biên mạng và trong môi trường tài nguyên hạn chế. RTDETRv2 cung cấp một giải pháp thay thế mạnh mẽ cho các kịch bản tận dụng ngữ cảnh toàn cục và kiến trúc biến đổi, đặc biệt là trên phần cứng mạnh mẽ.
Tuy nhiên, để có trải nghiệm mượt mà nhất, độ trễ thấp nhất và hỗ trợ nhiều tác vụ nhất, hệ sinh thái Ultralytics —và đặc biệt là mẫu YOLO26 mới—cung cấp giải pháp mạnh mẽ và "bền vững trong tương lai" nhất cho các ứng dụng thị giác máy tính hiện đại.
Đọc thêm
Hãy khám phá các so sánh khác để xem những mẫu xe này cạnh tranh như thế nào với các đối thủ: