Chuyển đến nội dung

YOLOv9 so với RTDETRv2: So sánh kỹ thuật để phát hiện đối tượng

Việc lựa chọn kiến trúc phát hiện đối tượng phù hợp là một quyết định then chốt trong phát triển thị giác máy tính, thường đòi hỏi các nhà phát triển phải cân nhắc giữa độ chính xác, độ trễ suy luận và chi phí tính toán. Phân tích này cung cấp một so sánh kỹ thuật toàn diện giữa YOLOv9 , một kiến trúc dựa trên CNN được tối ưu hóa về hiệu suất, và RTDETRv2 , một mô hình dựa trên bộ biến đổi được thiết kế để phát hiện độ trung thực cao.

YOLOv9 : Định nghĩa lại hiệu quả của CNN

YOLOv9 đại diện cho một sự tiến hóa đáng kể trong Bạn chỉ nhìn một lần ( YOLO ), tập trung vào việc giải quyết vấn đề tắc nghẽn thông tin vốn có trong mạng nơ-ron sâu. Bằng cách giới thiệu các khái niệm kiến trúc mới, nó đạt được hiệu suất tiên tiến trong khi vẫn duy trì đặc tính gọn nhẹ của YOLO gia đình.

Kiến trúc cốt lõi

YOLOv9 giới thiệu hai cải tiến chính: Thông tin Gradient Lập trình (PGI)Mạng Tổng hợp Lớp Hiệu quả Tổng quát (GELAN) . PGI giải quyết vấn đề mất thông tin dữ liệu khi truyền qua các lớp sâu, đảm bảo thông tin gradient đáng tin cậy được bảo toàn cho các bản cập nhật mô hình. GELAN tối ưu hóa việc sử dụng tham số, cho phép mô hình đạt được độ chính xác cao hơn với ít phép toán dấu phẩy động (FLOP) hơn so với kiến trúc tích chập truyền thống.

Ultralytics Tích hợp hệ sinh thái

YOLOv9 được tích hợp hoàn toàn vào Ultralytics hệ sinh thái, cung cấp cho các nhà phát triển quyền truy cập liền mạch vào các công cụ đào tạo, xác thực và triển khai. Sự tích hợp này đảm bảo người dùng có thể tận dụng cùng một API đơn giản được sử dụng cho YOLO11YOLOv8 , giảm đáng kể rào cản gia nhập cho các tác vụ thị giác máy tính nâng cao.

Tìm hiểu thêm về YOLOv9

RTDETRv2: Người thách thức máy biến hình

RTDETRv2 được xây dựng dựa trên sự thành công của Bộ chuyển đổi phát hiện thời gian thực ( RT-DETR ), tinh chỉnh đường cơ sở để cải thiện khả năng xử lý tỷ lệ động và tính ổn định khi huấn luyện. Là một mô hình dựa trên bộ biến đổi, nó tận dụng các cơ chế tự chú ý để nắm bắt bối cảnh toàn cục, điều này có thể có lợi cho việc phân biệt các đối tượng trong các cảnh phức tạp.

Kiến trúc cốt lõi

Không giống như các CNN xử lý hình ảnh theo từng mảng cục bộ, RTDETRv2 sử dụng xương sống bộ biến đổi để xử lý các đặc điểm hình ảnh. Phương pháp này cho phép mô hình hiểu được mối quan hệ giữa các phần xa nhau của hình ảnh, có khả năng cải thiện độ chính xác trong môi trường phức tạp. Tuy nhiên, cơ chế chú ý toàn cục này thường đi kèm với chi phí bộ nhớ và tính toán cao hơn, đặc biệt là trong quá trình đào tạo.

Tìm hiểu thêm về RT-DETR

So sánh hiệu suất

Dữ liệu sau đây làm nổi bật các số liệu hiệu suất của các kích thước mô hình khác nhau trên tập dữ liệu COCO . So sánh tập trung vào Độ chính xác trung bình ( mAP ), tốc độ suy luận và độ phức tạp tính toán.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Phân tích số liệu

  • Độ chính xác đỉnh: Mô hình YOLOv9e đạt được mAP đáng chú ý là 55,6% , vượt qua mô hình RTDETRv2-x lớn nhất (54,3% mAP ). Điều này chứng minh rằng những đổi mới về kiến trúc trong YOLOv9 thu hẹp đáng kể khoảng cách giữa CNN và Transformers, thậm chí còn vượt trội hơn về độ chính xác hàng đầu.
  • Hiệu quả: YOLOv9 luôn mang lại hiệu suất cao hơn trên mỗi tham số. Ví dụ, YOLOv9c đạt 53,0% mAP chỉ với 25,3 triệu tham số102,1 tỷ FLOP , trong khi RTDETRv2-l tương đương cần 42 triệu tham số136 tỷ FLOP để đạt 53,4% mAP . Hiệu quả này làm cho YOLOv9 nhẹ hơn đáng kể khi lưu trữ và nhanh hơn khi thực hiện.
  • Tốc độ suy luận: Trong các ứng dụng thời gian thực, tốc độ là yếu tố quan trọng. YOLOv9 các biến thể, chẳng hạn như YOLOv9t, cung cấp độ trễ cực thấp (2,3 ms trên TensorRT ), khiến chúng trở nên lý tưởng cho việc triển khai AI biên trong đó các mô hình RTDETRv2 có thể quá nặng.

Hiệu quả đào tạo và hệ sinh thái

Một trong những yếu tố quan trọng nhất đối với các nhà phát triển là sự dễ dàng trong đào tạo và các nguồn lực cần thiết để tinh chỉnh các mô hình trên các tập dữ liệu tùy chỉnh.

Yêu cầu về bộ nhớ

Các mô hình dựa trên bộ biến áp như RTDETRv2 nổi tiếng với mức tiêu thụ bộ nhớ cao trong quá trình huấn luyện do độ phức tạp bậc hai của các cơ chế tự chú ý. Điều này thường đòi hỏi GPU doanh nghiệp cao cấp với VRAM lớn. Ngược lại, YOLOv9 duy trì hiệu suất bộ nhớ của CNN, cho phép huấn luyện trên phần cứng cấp độ người dùng cá nhân. Rào cản thấp hơn này giúp dân chủ hóa khả năng tiếp cận công nghệ phát hiện vật thể tiên tiến.

Các Ultralytics Lợi thế

Việc lựa chọn một mô hình trong hệ sinh thái Ultralytics mang lại những lợi thế rõ rệt ngoài các số liệu hiệu suất thô:

  1. Dễ sử dụng: Ultralytics Python API tóm tắt các vòng đào tạo phức tạp thành một vài dòng mã.
  2. Hệ sinh thái được duy trì tốt: Cập nhật thường xuyên đảm bảo khả năng tương thích với phiên bản mới nhất PyTorch phiên bản, định dạng xuất ( ONNX , TensorRT , CoreML ) và trình điều khiển phần cứng.
  3. Tính linh hoạt: Mặc dù RTDETRv2 chủ yếu là một máy dò đối tượng, Ultralytics Khung hỗ trợ nhiều tác vụ bao gồm phân đoạn thể hiện , ước tính tư thế và phát hiện hộp giới hạn định hướng (OBB) trên các họ mô hình của nó.

Ví dụ mã

Đào tạo YOLOv9 là đơn giản bằng cách sử dụng Ultralytics gói. Đoạn mã sau đây minh họa cách tải một mô hình đã được đào tạo trước và đào tạo nó trên một tập dữ liệu tùy chỉnh:

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Khả năng xuất khẩu

Ultralytics Các mô hình có thể dễ dàng được xuất sang nhiều định dạng khác nhau để triển khai. Ví dụ, xuất sang ONNX để có khả năng tương thích rộng hơn:

model.export(format="onnx")

Các trường hợp sử dụng lý tưởng

Khi nào nên chọn YOLOv9

YOLOv9 là lựa chọn được khuyến nghị cho phần lớn các ứng dụng thị giác máy tính , đặc biệt là khi cần cân bằng giữa tốc độ, độ chính xác và hiệu quả sử dụng tài nguyên.

  • Triển khai Edge: Các thiết bị như NVIDIA Jetson hoặc Raspberry Pi được hưởng lợi từ YOLOv9 FLOPs và số lượng tham số thấp hơn.
  • Phân tích video thời gian thực: Nguồn cấp dữ liệu an ninh và hệ thống giám sát giao thông yêu cầu tốc độ khung hình cao YOLOv9 cung cấp.
  • Đào tạo hạn chế về nguồn lực: Các nhóm không có quyền truy cập vào các nguồn lực lớn GPU các cụm vẫn có thể tinh chỉnh các mô hình hiện đại.

Khi nào nên cân nhắc RTDETRv2

RTDETRv2 phù hợp với các tình huống cụ thể khi:

  • Bối cảnh toàn cục rất quan trọng: Các cảnh có độ che khuất cao hoặc bối cảnh từ các điểm ảnh ở xa là hoàn toàn cần thiết để phân loại.
  • Phần cứng không giới hạn: Triển khai trên GPU cấp máy chủ, nơi bộ nhớ và hạn chế về tính toán không đáng kể.
  • Ưu tiên không có neo: Các nhà nghiên cứu đặc biệt muốn thử nghiệm với kiến trúc không có neo, dựa trên máy biến áp thuần túy.

Kết luận

Trong khi RTDETRv2 chứng minh tiềm năng của bộ biến đổi trong phát hiện đối tượng, YOLOv9 nổi lên như một lựa chọn thực tế vượt trội cho hầu hết các nhà phát triển và nhà nghiên cứu. Nó mang lại độ chính xác đỉnh cao hơn (55,6%) mAP ) với hiệu suất tốt hơn đáng kể, sử dụng ít bộ nhớ hơn và tốc độ suy luận nhanh hơn. Khi kết hợp với sự hỗ trợ mạnh mẽ, tài liệu hướng dẫn chi tiết và tính dễ sử dụng được cung cấp bởi Ultralytics hệ sinh thái, YOLOv9 cung cấp một con đường hợp lý hơn từ nguyên mẫu đến sản xuất.

Đối với những ai muốn khám phá công nghệ thị giác máy tính mới nhất, chúng tôi cũng khuyên bạn nên xem qua YOLO11 , công nghệ này đẩy nhanh hơn nữa ranh giới về tốc độ và độ chính xác.

Khám phá các Mô hình Khác

  • YOLO11 : Sự phát triển mới nhất trong YOLO loạt, được tối ưu hóa cho nhiều nhiệm vụ khác nhau bao gồm phân đoạn và ước tính tư thế.
  • YOLOv8 : Một mô hình rất phổ biến và linh hoạt, được biết đến với độ tin cậy và sự hỗ trợ rộng rãi từ cộng đồng.
  • RT-DETR : Khám phá triển khai Bộ chuyển đổi phát hiện thời gian thực ban đầu trong Ultralytics khung.

Bình luận