RTDETRv2 so với YOLOv9 : So sánh kỹ thuật các mô hình phát hiện hiện đại

Trong lĩnh vực thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn kiến trúc phát hiện đối tượng phù hợp là rất quan trọng để cân bằng giữa độ chính xác, tốc độ và tài nguyên tính toán. Hướng dẫn này cung cấp so sánh kỹ thuật chi tiết giữa RTDETRv2 (Real-Time Detection Transformer v2), một mô hình tiên tiến dựa trên biến áp, và YOLOv9 , một mô hình tiên tiến tập trung vào hiệu quả được tích hợp vào hệ sinh thái Ultralytics .

Trong khi RTDETRv2 mở rộng ranh giới của phát hiện dựa trên máy biến áp, YOLOv9 Giới thiệu các khái niệm kiến trúc mới như Thông tin Gradient Lập trình (PGI) để tối đa hóa hiệu quả tham số. Dưới đây, chúng tôi phân tích kiến trúc, số liệu hiệu suất và các kịch bản triển khai lý tưởng để giúp bạn quyết định mô hình nào phù hợp với nhu cầu dự án của mình.

Chỉ số hiệu suất: Độ chính xác và tốc độ

Bảng sau đây trình bày so sánh trực tiếp các số liệu hiệu suất chính được đánh giá trên tập dữ liệu COCO . Bảng này nêu bật cách YOLOv9 đạt được độ chính xác cạnh tranh hoặc vượt trội ( mAP ) với chi phí tính toán (FLOP) thấp hơn đáng kể và tốc độ suy luận nhanh hơn so với RTDETRv2.

Mô hình	Kích thước ^(pixels)	mAP ^{giá trị 50-95}	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Như minh họa, YOLOv9e vượt trội hơn RTDETRv2-x về độ chính xác ( 55,6% so với 54,3% mAP ) trong khi sử dụng ít FLOP hơn (189B so với 259B). Hiệu quả này làm cho YOLOv9 một lựa chọn hấp dẫn cho các ứng dụng thời gian thực khi tài nguyên phần cứng là yếu tố cần cân nhắc.

RTDETRv2: Tinh chỉnh bộ biến đổi phát hiện

RTDETRv2 là phiên bản nâng cấp của RT-DETR ban đầu, được thiết kế để khắc phục những hạn chế của các bộ phát hiện dựa trên neo truyền thống bằng cách tận dụng kiến trúc biến áp. Nó tập trung vào việc cải thiện độ ổn định và hiệu suất của các biến áp phát hiện thời gian thực thông qua phương pháp "Túi quà tặng", tối ưu hóa các chiến lược đào tạo và định cỡ từ vựng động.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức: Baidu
Ngày: 24-07-2024
Arxiv:https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/ RT-DETR /tree/main/rtdetrv2_pytorch
Tài liệu: https://github.com/lyuwenyu/ RT-DETR /tree/main/rtdetrv2_pytorch#readme

Kiến trúc và đặc điểm chính

RTDETRv2 sử dụng kiến trúc mã hóa-giải mã lai. Bộ mã hóa xử lý các đặc điểm hình ảnh, trong khi bộ giải mã biến áp tạo ra các truy vấn đối tượng. Những cải tiến kiến trúc chính bao gồm cơ chế chú ý được tối ưu hóa cho phép lựa chọn truy vấn động, giảm thiểu chi phí tính toán thường liên quan đến bộ biến áp.

Không giống như tiêu chuẩn YOLO Trong các mô hình dựa trên xương sống và đầu phát hiện dựa trên CNN, RTDETRv2 tách biệt khái niệm "mỏ neo" khỏi đầu phát hiện, xử lý phát hiện đối tượng như một bài toán dự đoán tập trực tiếp. Điều này loại bỏ nhu cầu sử dụng NMS (Non-Maximum Suppression) trong nhiều cấu hình, về mặt lý thuyết giúp đơn giản hóa quy trình hậu xử lý.

Điểm mạnh và Điểm yếu

Điểm mạnh:

Độ chính xác: Xuất sắc trong việc phát hiện các đối tượng có tương tác phức tạp hoặc che khuất nhờ nhận thức ngữ cảnh toàn cầu.
Không mỏ neo (Anchor-Free): Loại bỏ nhu cầu điều chỉnh anchor box thủ công, đơn giản hóa cấu hình cho các tập dữ liệu đa dạng.
Khả năng thích ứng: Từ vựng động cho phép mô hình thích ứng tốt hơn với các điều kiện huấn luyện khác nhau.

Điểm yếu:

Cường độ tài nguyên: Kiến trúc máy biến áp thường yêu cầu nhiều hơn GPU bộ nhớ và sức mạnh tính toán để đào tạo so với CNN.
Độ trễ suy luận: Mặc dù đã được tối ưu hóa, các bộ biến đổi có thể chậm hơn trên các thiết bị AI biên so với các CNN được tối ưu hóa cao như YOLOv9 .
Độ phức tạp: Đường ống đào tạo và điều chỉnh siêu tham số cho máy biến áp có thể phức tạp hơn so với YOLO các mô hình.

Các trường hợp sử dụng lý tưởng

RTDETRv2 rất phù hợp cho việc triển khai máy chủ cao cấp, nơi độ chính xác là tối quan trọng, chẳng hạn như:

Chụp ảnh y tế: Phân tích các bản quét phức tạp trong đó bối cảnh toàn cầu giúp xác định các điểm bất thường.
Giám sát trên không: Detect các vật thể nhỏ trong ảnh vệ tinh độ phân giải cao, kích thước lớn.
Kiểm soát chất lượng chi tiết: Kiểm tra các lỗi sản xuất trong đó chi tiết nhỏ quan trọng hơn tốc độ thô.

Tìm hiểu thêm về RT-DETR

YOLOv9 : Hiệu quả thông qua các gradient có thể lập trình

YOLOv9 đại diện cho một bước nhảy vọt đáng kể trong YOLO Gia đình, giới thiệu những đổi mới kiến trúc giúp giải quyết vấn đề tắc nghẽn thông tin sâu trong mạng nơ-ron. Bằng cách đảm bảo thông tin gradient được bảo toàn trên các lớp sâu, YOLOv9 đạt được hiệu suất tiên tiến với hiệu quả tham số đáng chú ý.

Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc, Đài Loan
Ngày: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Tài liệu: https://docs. ultralytics .com/models/yolov9/

Kiến trúc: PGI và GELAN

YOLOv9 giới thiệu hai khái niệm mang tính đột phá:

Thông tin Gradient Lập trình (PGI): Một khung giám sát phụ trợ tạo ra các gradient đáng tin cậy để cập nhật trọng số mạng, đảm bảo các lớp sâu lưu giữ thông tin đặc trưng quan trọng. Điều này mô phỏng lợi ích của việc tham số hóa lại mà không tốn chi phí suy luận.
Mạng tổng hợp lớp hiệu quả tổng quát (GELAN): Một kiến trúc mạng nhẹ, tối ưu hóa việc sử dụng tham số và thông lượng tính toán (FLOP). GELAN cho phép YOLOv9 chạy nhanh hơn trong khi sử dụng ít bộ nhớ hơn so với các phiên bản trước và đối thủ cạnh tranh.

Tại sao chọn YOLOv9 ?

Sự tích hợp của YOLOv9 vào hệ sinh thái Ultralytics mang lại những lợi thế riêng biệt cho các nhà phát triển:

Hiệu quả đào tạo: YOLOv9 yêu cầu ít hơn đáng kể GPU bộ nhớ trong quá trình đào tạo so với các mô hình dựa trên bộ biến áp như RTDETRv2. Điều này cho phép đào tạo trên phần cứng dành cho người tiêu dùng hoặc quy mô lô lớn hơn trên các cụm doanh nghiệp.
Dễ sử dụng: Với API Python Ultralytics , người dùng có thể đào tạo, xác thực và triển khai YOLOv9 chỉ trong vài dòng mã.
Tính linh hoạt: Mặc dù chủ yếu là mô hình phát hiện đối tượng , kiến trúc cơ bản đủ linh hoạt để hỗ trợ các tác vụ như phân đoạn thể hiện và phát hiện hộp giới hạn định hướng (OBB) .
Cân bằng hiệu suất: Đạt được sự cân bằng tối ưu, mang lại độ chính xác hàng đầu với tốc độ cần thiết để phân tích video theo thời gian thực.

Lợi thế của hệ sinh thái

Ultralytics cung cấp một giao diện thống nhất cho tất cả các mô hình của nó. Chuyển đổi từ YOLOv8 hoặc YOLO11 ĐẾN YOLOv9 chỉ cần thay đổi chuỗi tên mô hình, cho phép đánh giá chuẩn và thử nghiệm dễ dàng.

Các trường hợp sử dụng lý tưởng

YOLOv9 là lựa chọn ưu tiên cho các triển khai thực tế đòi hỏi tốc độ và hiệu quả:

Điện toán biên: Triển khai trên các thiết bị nhúng như NVIDIA Jetson hoặc Raspberry Pi.
Phân tích thời gian thực: Giám sát giao thông, phân tích bán lẻ và phân tích thể thao trong đó tốc độ khung hình cao là điều cần thiết.
Ứng dụng di động: chạy hiệu quả trên iOS Và Android thiết bị thông qua CoreML hoặc xuất TFLite .
Robot: Cung cấp khả năng nhận thức nhanh để điều hướng và tương tác tự động.

Tìm hiểu thêm về YOLOv9

Phân tích so sánh: Kiến trúc và quy trình làm việc

Khi quyết định giữa RTDETRv2 và YOLOv9 Hãy xem xét những khác biệt cơ bản về kiến trúc. RTDETRv2 dựa trên sức mạnh của Transformers , sử dụng các cơ chế tự chú ý để hiểu bối cảnh toàn cục. Điều này thường mang lại độ chính xác cao hơn trên các hình ảnh tĩnh khó, nhưng lại phải trả giá bằng việc tiêu thụ bộ nhớ đào tạo cao hơn và suy luận chậm hơn trên các hình ảnh không liên quan. GPU phần cứng.

Ngược lại, YOLOv9 tận dụng kiến trúc CNN tiên tiến (GELAN) được cải tiến bởi PGI. Thiết kế này vốn thân thiện với phần cứng hơn, được hưởng lợi từ nhiều năm tối ưu hóa CNN trong các thư viện như TensorRT và OpenVINO .

Phương pháp Huấn luyện

Việc huấn luyện RTDETRv2 thường đòi hỏi thời gian hội tụ dài hơn và yêu cầu bộ nhớ cao hơn để phù hợp với bản đồ chú ý. Ngược lại, YOLOv9 lợi ích từ các quy trình đào tạo hiệu quả được mài giũa bởi Ultralytics nhóm. Tính khả dụng của các trọng số được đào tạo trước và khả năng tích hợp liền mạch với Ultralytics HUB giúp đơn giản hóa quy trình làm việc từ chú thích dữ liệu đến triển khai mô hình.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your dataset with excellent memory efficiency
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with high speed
results = model("path/to/image.jpg")

Kết luận: Mẫu nào phù hợp với nhu cầu của bạn?

Đối với đại đa số các ứng dụng thương mại và nghiên cứu, YOLOv9 là lựa chọn được khuyến nghị. Hệ thống này mang lại sự cân bằng vượt trội giữa độ chính xác và tốc độ, được hỗ trợ bởi hệ sinh thái Ultralytics mạnh mẽ. Dung lượng bộ nhớ thấp và các tùy chọn triển khai linh hoạt giúp nó phù hợp với mọi thứ, từ máy chủ đám mây đến thiết bị biên.

RTDETRv2 vẫn là một công cụ mạnh mẽ cho nghiên cứu học thuật và các tình huống chuyên biệt, trong đó các đặc tính độc đáo của máy biến áp thị giác mang lại lợi thế cụ thể và các hạn chế về tính toán không phải là mối quan tâm chính.

Khám Phá Các Mô Hình Ultralytics Khác

Nếu bạn đang tìm kiếm nhiều lựa chọn hơn nữa, hãy xem xét các lựa chọn thay thế này trong Ultralytics khung:

YOLO11: Phiên bản mới nhất trong dòng YOLO, cung cấp các cải tiến hơn nữa về tốc độ và độ chính xác cho các ứng dụng tiên tiến.
YOLOv8: Một mô hình rất linh hoạt, hỗ trợ detect, segment, ước tính tư thế và phân loại, được biết đến với sự ổn định và được áp dụng rộng rãi.
RT-DETR: Ultralytics cũng hỗ trợ mô hình RT-DETR nguyên bản, cho phép bạn thử nghiệm với tính năng detect dựa trên transformer trong Ultralytics API quen thuộc.

RTDETRv2 so với YOLOv9 : So sánh kỹ thuật các mô hình phát hiện hiện đại

Chỉ số hiệu suất: Độ chính xác và tốc độ

RTDETRv2: Tinh chỉnh bộ biến đổi phát hiện

Kiến trúc và đặc điểm chính

Điểm mạnh và Điểm yếu

Các trường hợp sử dụng lý tưởng

YOLOv9 : Hiệu quả thông qua các gradient có thể lập trình

Kiến trúc: PGI và GELAN

Tại sao chọn YOLOv9 ?

Các trường hợp sử dụng lý tưởng

Phân tích so sánh: Kiến trúc và quy trình làm việc

Phương pháp Huấn luyện

Kết luận: Mẫu nào phù hợp với nhu cầu của bạn?

Khám Phá Các Mô Hình Ultralytics Khác

Bình luận