Chuyển đến nội dung

YOLOv7 So sánh kỹ thuật giữa RTDETRv2 và khả năng phát hiện đối tượng thời gian thực.

Lĩnh vực thị giác máy tính tiếp tục phát triển nhanh chóng, chịu ảnh hưởng lớn bởi sự cạnh tranh giữa Mạng nơ-ron tích chập (CNN) và Bộ chuyển đổi hình ảnh (ViT). Bài so sánh kỹ thuật này đi sâu vào hai kiến ​​trúc hàng đầu: YOLOv7 , một bộ phát hiện đối tượng dựa trên CNN được tối ưu hóa cao, và RTDETRv2 , một bộ chuyển đổi phát hiện thời gian thực tiên tiến.

Bằng cách phân tích sự khác biệt về kiến ​​trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng, các nhà phát triển có thể đưa ra quyết định sáng suốt khi tích hợp các mô hình AI thị giác này vào quy trình sản xuất của họ.

YOLOv7 : Túi quà tặng miễn phí CNN Architecture

YOLOv7 đã giới thiệu một số tối ưu hóa cấu trúc mang tính đột phá cho phương pháp truyền thống. YOLO gia đình này đang đẩy giới hạn của việc phát hiện đối tượng theo thời gian thực thông qua một loạt các "túi quà tặng miễn phí có thể huấn luyện được".

Đặc điểm chính: Tác giả: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc
Ngày: 06/07/2022
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: WongKinYiu/yolov7

Kiến trúc và Điểm mạnh

YOLOv7 Mô hình này phát huy tối đa hiệu quả nhờ kiến ​​trúc Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN). Thiết kế cấu trúc này cho phép mô hình học được nhiều đặc trưng đa dạng hơn mà không làm phá hủy đường dẫn gradient ban đầu. Hơn nữa, nó tích hợp các phép tích chập được tham số hóa lại theo kế hoạch, giúp tối ưu hóa tốc độ suy luận mà không làm giảm độ chính xác. Cấu trúc đầu tách rời cho phép nó đạt được sự cân bằng ấn tượng giữa tốc độ và độ chính xác, khiến nó rất phù hợp cho các tác vụ phát hiện đối tượng thời gian thực trên GPU cấp máy chủ.

YOLOv7 Nó cũng rất linh hoạt. Ngoài việc phát hiện hộp giới hạn tiêu chuẩn, kho lưu trữ này còn cung cấp các nhánh cho ước tính tư thếphân đoạn đối tượng , thể hiện khả năng thích ứng của nó.

Hạn chế

Giống như nhiều mô hình cũ của CNN, YOLOv7 dựa vào phương pháp triệt tiêu không tối đa (Non-Maximum Suppression) NMS ) để xử lý hậu kỳ. NMS Điều này gây ra độ trễ thay đổi, đặc biệt là trong các cảnh đông người, có thể làm phức tạp việc đảm bảo thời gian thực chính xác trên các thiết bị biên.

Tìm hiểu thêm về YOLOv7

RTDETRv2: Phát triển máy biến áp thời gian thực

RTDETRv2 được xây dựng dựa trên phiên bản gốc. RT-DETR khuôn khổ này càng khẳng định rằng máy biến áp có thể cạnh tranh với YOLO Các kiến ​​trúc có độ trễ thời gian thực trong khi vẫn duy trì độ chính xác không gian cao.

Đặc điểm chính: Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
Tổ chức: Baidu
Ngày: 24/07/2024
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/ RT-DETR

Kiến trúc và Điểm mạnh

RTDETRv2 đại diện cho một bước tiến đáng kể đối với Vision Transformers. Nó tận dụng quy trình lựa chọn truy vấn linh hoạt và bộ mã hóa lai hiệu quả để xử lý nhanh chóng các đặc trưng đa tỷ lệ. Bằng cách giới thiệu một "gói quà tặng" mới được thiết kế riêng cho Detection Transformers (DETRs), nó đẩy khả năng suy luận không gian lên mức tối đa. Bởi vì nó được hỗ trợ nguyên bản bởi... NMS - Miễn phí, nó cung cấp thời gian suy luận xác định, một tính năng quan trọng cho các ứng dụng thành phố thông minh khắt khe và lái xe tự động.

Hạn chế

Mặc dù có những tiến bộ, RTDETRv2 vẫn mang những hạn chế truyền thống của các kiến ​​trúc dựa trên bộ biến áp. Nó đòi hỏi hiệu năng cao hơn đáng kể. CUDA So với CNN, mạng này tiêu tốn nhiều bộ nhớ hơn trong cả quá trình huấn luyện và suy luận. Thêm vào đó, thời gian hội tụ huấn luyện của nó dài hơn đáng kể, đòi hỏi lượng lớn dữ liệu được chú thích chất lượng cao (như tập dữ liệu COCO ) và tài nguyên tính toán lớn.

Tìm hiểu thêm về RTDETRv2

So sánh hiệu suất

Khi đánh giá hiệu năng của các mô hình này, chúng ta cần xem xét toàn diện bao gồm độ chính xác, tốc độ suy luận thô và mức độ yêu cầu tính toán. Bảng so sánh trực tiếp được trình bày bên dưới.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Giải thích các điểm chuẩn

Mặc dù RTDETRv2-x tuyên bố đạt mức cao nhất tuyệt đối. mAP Với giá trị ở mức 54,3%, nó đòi hỏi một lượng phép tính khổng lồ lên tới 259 tỷ FLOPs. Ngược lại, YOLOv7 Các kiến ​​trúc này cung cấp một nền tảng tuyệt vời nhưng lại gặp phải những hạn chế từ hệ thống cũ. NMS Chi phí phát sinh không được phản ánh đầy đủ trong các chỉ số độ trễ mạng thuần túy.

Cái Ultralytics Ưu điểm: Hệ sinh thái và sự tiến hóa

Trong khi YOLOv7 RTDETRv2 cung cấp các khả năng mạnh mẽ, nhưng việc triển khai chúng trong môi trường sản xuất thường gặp phải những khó khăn về mặt hậu cần. Đây chính là điểm mạnh của hệ sinh thái Ultralytics . Được thiết kế để tích hợp liền mạch từ đầu đến cuối, hệ sinh thái này... Ultralytics Khung phần mềm này cung cấp cho các nhà phát triển một API thống nhất, giúp trừu tượng hóa những phức tạp thường gặp trong các quy trình xử lý hình ảnh máy tính.

Tính linh hoạt và hiệu quả bộ nhớ vượt trội

Không giống như các mô hình máy biến áp cứng nhắc tiêu tốn lượng lớn VRAM, Ultralytics YOLO Các mô hình duy trì hiệu quả bộ nhớ nghiêm ngặt. Điều này cho phép huấn luyện mô hình nhanh chóng trên phần cứng hiện có. Hệ sinh thái này hỗ trợ nhiều tác vụ thị giác máy tính từ một mã nguồn duy nhất, bao gồm phân loại hình ảnhphát hiện hộp giới hạn định hướng (OBB) , mang lại sự linh hoạt mà RTDETRv2 hiện đang thiếu.

Triển khai liền mạch

Việc chuyển từ nghiên cứu sang sản xuất đòi hỏi các tùy chọn triển khai mạnh mẽ. Ultralytics API hỗ trợ xuất mô hình chỉ với một cú nhấp chuột sang các định dạng tiêu chuẩn ngành. Cho dù bạn đang nhắm đến ONNX để tương thích đa nền tảng hay TensorRT để tận dụng tối đa khả năng của mình, API đều đáp ứng được. GPU Nhờ đó, quy trình được tăng tốc, hoàn toàn tự động và đáng tin cậy.

Nâng cấp tối ưu: Ultralytics YOLO26

Dành cho các nhà phát triển đang phân vân giữa YOLOv7 Và với RTDETRv2, con đường tối ưu nhất thực sự là tiêu chuẩn mới trong trí tuệ nhân tạo thị giác: Ultralytics YOLO26 . Được phát hành vào tháng 1 năm 2026, YOLO26 thu hẹp khoảng cách giữa tốc độ của mạng nơ-ron tích chập (CNN) và khả năng suy luận tinh vi của các mô hình Transformer, đồng thời loại bỏ hoàn toàn những điểm yếu tương ứng của chúng.

Tìm hiểu thêm về YOLO26

YOLO26 giới thiệu những cải tiến đột phá được thiết kế riêng cho cả triển khai máy chủ và điện toán biên:

  • Thiết kế không cần NMS từ đầu đến cuối: Lần đầu tiên được tiên phong trong YOLOv10 , YOLO26 loại bỏ hoàn toàn... NMS Xử lý hậu kỳ. Điều này đảm bảo độ trễ xác định của RTDETRv2 mà không gây ra gánh nặng tính toán phức tạp của bộ chuyển đổi.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện mô hình ngôn ngữ quy mô lớn (như Kimi K2 của Moonshot AI), YOLO26 sử dụng sự kết hợp của... SGD và Muon. Điều này mang lại sự ổn định huấn luyện chưa từng có và thời gian hội tụ nhanh hơn đáng kể so với các phương pháp tiêu chuẩn. AdamW Các phương thức triển khai được ViT sử dụng.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong nhận dạng vật thể nhỏ, cạnh tranh trực tiếp với lợi thế về tính năng đa tỷ lệ của RTDETRv2, điều này rất quan trọng đối với tự động hóa robot .
  • Tối ưu hóa tại biên và loại bỏ DFL: Bằng cách loại bỏ hiện tượng suy hao tiêu điểm phân tán (DFL), YOLO26 tối ưu hóa đầu ra, dẫn đến tốc độ suy luận CPU nhanh hơn tới 43% — giúp nó dễ dàng triển khai trên các thiết bị biên hơn nhiều so với các mô hình transformer nặng nề.

Ví dụ về huấn luyện với Ultralytics

Sự đơn giản của Ultralytics Python API này cho phép bạn huấn luyện mô hình YOLO26 hiện đại chỉ với một vài dòng mã:

from ultralytics import YOLO

# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)

Các trường hợp sử dụng lý tưởng

Việc lựa chọn kiến ​​trúc phù hợp phụ thuộc rất nhiều vào các ràng buộc triển khai và khả năng cung cấp phần cứng:

Khi nào nên cân nhắc YOLOv7 :

  • Các dự án nghiên cứu kế thừa trong đó YOLOv7 Đây là một tiêu chuẩn cơ bản đã được thiết lập.
  • Môi trường nơi nguyên liệu thô GPU Gia tốc rất dồi dào và NMS Độ trễ dao động ở mức chấp nhận được.

Khi nào nên cân nhắc sử dụng RTDETRv2:

  • Các triển khai máy chủ cao cấp yêu cầu mức tối đa tuyệt đối mAP .
  • Các kịch bản trong đó độ trễ suy luận xác định ( NMS (miễn phí) là yêu cầu bắt buộc, với điều kiện bạn có đủ VRAM để hỗ trợ kiến ​​trúc chuyển đổi của nó.

Khi nào nên chọn Ultralytics YOLO26:

  • Hầu như luôn luôn. Nó cung cấp NMS - Tính chất xác định không phụ thuộc vào ngôn ngữ của RTDETRv2, vượt trội về tốc độ và độ chính xác so với các thuật ngữ khác. YOLOv7 Nó sử dụng ít VRAM hơn đáng kể và được tích hợp hoàn toàn vào Nền tảng Ultralytics để quản lý, huấn luyện và triển khai tập dữ liệu một cách dễ dàng.

Khám phá thêm các mô hình

Bạn muốn tìm hiểu về hiệu năng của các kiến ​​trúc khác? Hãy khám phá các bài phân tích chuyên sâu của chúng tôi về các thế hệ trước như YOLO11YOLOv8 , hoặc tìm hiểu cách tận dụng việc tinh chỉnh siêu tham số để tối đa hóa độ chính xác của dự án.


Bình luận