Chuyển đến nội dung

YOLOv7 vs RTDETRv2: Cân bằng tốc độ của dòng máy cũ với độ chính xác của máy biến áp

Lĩnh vực phát hiện đối tượng đã có những bước tiến vượt bậc trong vài năm qua, chuyển từ Mạng nơ-ron tích chập (CNN) thuần túy sang các kiến ​​trúc lai phức tạp hơn. Hai mô hình then chốt trong câu chuyện này là YOLOv7 , một "cỗ máy CNN" mạnh mẽ được ca ngợi từ năm 2022, và RTDETRv2 , một mô hình Transformer phát hiện thời gian thực được Baidu phát hành vào năm 2023/2024 để thách thức... YOLO sự thống trị.

Trong khi YOLOv7 Tối ưu hóa phương pháp dựa trên neo cổ điển đến mức tối đa, RTDETRv2 tận dụng sức mạnh của bộ chuyển đổi hình ảnh (ViT) để loại bỏ các bước xử lý hậu kỳ như loại bỏ cực đại cục bộ (Non-Maximum Suppression) NMS Hướng dẫn này so sánh kiến ​​trúc, hiệu năng và tính phù hợp của chúng đối với các dự án thị giác máy tính hiện đại, đồng thời khám phá lý do tại sao các mô hình thế hệ tiếp theo như Ultralytics YOLO26 ngày càng trở thành tiêu chuẩn cho việc triển khai sản xuất.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

YOLOv7 Đỉnh cao của phát hiện dựa trên neo

Được phát hành vào tháng 7 năm 2022, YOLOv7 đánh dấu một bước tiến lớn trong lĩnh vực này. YOLO gia đình, tập trung vào hiệu quả kiến ​​trúc mà không phụ thuộc vào ImageNet Huấn luyện trước. Nó giới thiệu khái niệm "túi quà tặng miễn phí có thể huấn luyện" - các phương pháp tối ưu hóa giúp cải thiện độ chính xác trong quá trình huấn luyện mà không làm tăng độ trễ suy luận .

Các chi tiết kỹ thuật chính:

Sự đổi mới cốt lõi của YOLOv7 Đó là Mạng Tổng hợp Lớp Hiệu quả Mở rộng (E-ELAN) . Kiến trúc này cho phép mạng học được nhiều đặc điểm đa dạng hơn bằng cách kiểm soát độ dài đường dẫn gradient, đảm bảo quá trình học hiệu quả trong các mạng sâu hơn. Mặc dù rất hiệu quả, YOLOv7 Đây là một bộ dò dựa trên neo, nghĩa là nó dựa vào các hộp neo được xác định trước để dự đoán vị trí đối tượng. Sự phụ thuộc này thường yêu cầu điều chỉnh siêu tham số cẩn thận cho các tập dữ liệu tùy chỉnh, một sự phức tạp đã được loại bỏ trong các bộ dò không dựa trên neo hiện đại như YOLO11 .

Tìm hiểu thêm về YOLOv7

RTDETRv2: Bộ chuyển đổi cho tốc độ thời gian thực

RTDETRv2 (Real-Time Detection Transformer v2) được xây dựng dựa trên sự thành công của phiên bản gốc. RT-DETR Nhằm giải quyết chi phí tính toán cao liên quan đến các bộ dò dựa trên Transformer truyền thống như DETR. Được phát triển bởi Baidu, nó chứng minh rằng kiến ​​trúc Transformer có thể đạt được tốc độ thời gian thực trên... GPU phần cứng.

Các chi tiết kỹ thuật chính:

RTDETRv2 sử dụng bộ mã hóa lai xử lý hiệu quả các đặc trưng đa tỷ lệ. Tính năng nổi bật của nó là Lựa chọn truy vấn nhận biết IoU , giúp mô hình tập trung vào các phần quan trọng nhất của hình ảnh. Quan trọng hơn, RTDETRv2 là một bộ phát hiện đầu cuối . Nó không yêu cầu xử lý hậu kỳ Loại bỏ cực đại cục bộ ( NMS ) , giúp đơn giản hóa quy trình triển khai và giảm sự biến đổi độ trễ trong các cảnh đông đúc. Tuy nhiên, điều này phải trả giá bằng việc tiêu tốn nhiều bộ nhớ hơn trong quá trình huấn luyện so với các mô hình dựa trên CNN.

Tìm hiểu thêm về RT-DETR

So sánh kỹ thuật: Kiến trúc và các trường hợp sử dụng

Hiểu rõ những khác biệt cơ bản giữa các kiến ​​trúc này giúp lựa chọn công cụ phù hợp cho các ứng dụng thị giác máy tính cụ thể.

1. Kiến trúc: Mạng nơ-ron tích chập (CNN) so với mô hình Transformer lai.

YOLOv7 RTDETRv2 dựa hoàn toàn vào các phép tích chập. Điều này làm cho nó cực kỳ hiệu quả trên các thiết bị biên có bộ nhớ hạn chế nhưng khả năng tính toán tốt, vì mạng CNN vốn dĩ bất biến với phép tịnh tiến. RTDETRv2 kết hợp kiến ​​trúc mạng CNN với bộ mã hóa Transformer. Mặc dù điều này cho phép nó nắm bắt ngữ cảnh toàn cục tốt hơn (cải thiện độ chính xác trên các cảnh phức tạp), nhưng nó làm tăng đáng kể yêu cầu bộ nhớ CUDA . Ví dụ, việc huấn luyện một mô hình Transformer thường yêu cầu GPU cao cấp (ví dụ: A100 hoặc H100) để xử lý kích thước batch hợp lý, trong khi đó YOLOv7 Thường có thể được đào tạo trên phần cứng dành cho người tiêu dùng.

2. Suy luận: Cái NMS Nút thắt cổ chai

YOLOv7 tạo ra hàng ngàn hộp giới hạn ứng cử viên cần được lọc bằng cách sử dụng NMS Trong các trường hợp có nhiều vật thể (như kiểm kê hàng tồn kho bán lẻ ), NMS có thể trở thành điểm nghẽn về tốc độ. RTDETRv2 loại bỏ hoàn toàn bước này, xuất ra chính xác số lượng hộp cần thiết.

Sự kết hợp hoàn hảo giữa hai thế giới

Hiện đại Ultralytics Các mô hình như YOLO26 hiện có thiết kế không cần NMS từ đầu đến cuối tương tự như RTDETRv2 nhưng được xây dựng trên kiến ​​trúc CNN được tối ưu hóa cao. Điều này mang lại sự đơn giản trong triển khai của transformer cùng với hiệu quả và tốc độ huấn luyện của... YOLO .

3. Triển khai và Hệ sinh thái

Mặc dù cả hai mô hình đều được hỗ trợ mạnh mẽ bởi các nghiên cứu, hệ sinh thái Ultralytics mang lại lợi thế rõ rệt về khả năng bảo trì. YOLOv7 Kho lưu trữ chính thức của 's phần lớn là tĩnh, trong khi đó Ultralytics Các mô hình được cập nhật thường xuyên, đảm bảo khả năng tương thích với các phiên bản PyTorch mới nhất. ONNX , Và TensorRT .

Giải pháp thay thế hiện đại: Ultralytics YOLO26

Đối với các nhà phát triển tìm kiếm độ chính xác của Transformer kết hợp với tốc độ của CNN, Ultralytics YOLO26 nổi bật như một lựa chọn vượt trội. Được phát hành vào năm 2026, nó kết hợp những lợi ích "từ đầu đến cuối" của RTDETRv2 đồng thời khắc phục những điểm yếu về mức sử dụng tài nguyên.

Tại sao chọn YOLO26?

  1. Hoàn toàn từ đầu đến cuối: Giống như RTDETRv2, YOLO26 loại bỏ NMS , đơn giản hóa việc xuất sang TensorRT và CoreML .
  2. Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ quá trình huấn luyện LLM, bộ tối ưu hóa này đảm bảo sự hội tụ ổn định, giảm thiểu quá trình "thử và sai" thường gặp khi huấn luyện các mô hình cũ hơn như... YOLOv7 .
  3. Tối ưu hóa cho thiết bị biên: YOLO26 loại bỏ hiện tượng suy hao tiêu điểm phân tán (DFL), giúp giảm trọng lượng đáng kể. Điều này mang lại tốc độ suy luận CPU nhanh hơn tới 43% , một chỉ số quan trọng đối với các thiết bị biên, nơi RTDETRv2 thường gặp khó khăn do các phép tính biến đổi phức tạp.
  4. Tính linh hoạt: Không giống như YOLOv7 Trong khi RTDETRv2 tập trung chủ yếu vào phát hiện, YOLO26 hỗ trợ phân đoạn , ước lượng tư thếhộp giới hạn định hướng (OBB) một cách tự nhiên.

Cân bằng hiệu suất

YOLO26 tận dụng ProgLoss và STAL (Soft-Target Anchor Loss) để cải thiện khả năng phát hiện vật thể nhỏ, một lĩnh vực mà các phiên bản cũ hơn còn yếu. YOLO Các phiên bản trước đây thường chậm hơn so với máy biến áp. Điều này làm cho nó trở nên lý tưởng cho các ứng dụng như phân tích ảnh chụp từ trên không hoặc đếm tế bào y tế .

Ví dụ mã: Tích hợp liền mạch

Chuyển đổi từ các mẫu cũ sang mẫu mới nhất Ultralytics Công nghệ tiên tiến trở nên dễ dàng. API Python của Ultralytics loại bỏ sự phức tạp của sự khác biệt về kiến ​​trúc.

from ultralytics import YOLO

# Load the latest YOLO26 model (recommended)
model = YOLO("yolo26n.pt")

# Alternatively, load RT-DETR or YOLOv7 within the same ecosystem
# model = YOLO("rtdetr-l.pt")
# model = YOLO("yolov7.pt")

# Train on a dataset like COCO8
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with NMS-free speed (native in YOLO26)
results = model("https://ultralytics.com/images/bus.jpg")

Tìm hiểu thêm về YOLO26

Tóm tắt

  • Hãy sử dụng YOLOv7 nếu bạn đang bảo trì các hệ thống cũ và cần một bộ dò tìm đã được chứng minh, hoàn toàn dựa trên mạng nơ-ron tích chập (CNN), và có thời gian để tinh chỉnh các anchor.
  • Hãy sử dụng RTDETRv2 nếu bạn cần suy luận từ đầu đến cuối trên các GPU cao cấp và có thể chấp nhận chi phí VRAM cao hơn trong quá trình huấn luyện.
  • Hãy sử dụng Ultralytics YOLO26 để đạt được sự cân bằng tốt nhất. Nó cung cấp những lợi thế toàn diện của RTDETR mà không cần NMS , cùng với tốc độ và dung lượng bộ nhớ thấp của... YOLO và sự hỗ trợ mạnh mẽ từ Nền tảng Ultralytics .

Đối với hầu hết các dự án mới trong năm 2026, tính dễ sử dụng, tài liệu hướng dẫn và tỷ lệ hiệu suất/hiệu quả của YOLO26 khiến nó trở thành điểm khởi đầu được khuyến nghị.


Bình luận