YOLOv7 so với RTDETRv2: So sánh kỹ thuật về phát hiện đối tượng thời gian thực

Bối cảnh thị giác máy tính đang không ngừng phát triển nhanh chóng, chịu ảnh hưởng mạnh mẽ từ sự cạnh tranh giữa Mạng thần kinh tích chập (CNN) và Vision Transformer (ViT). Bài so sánh kỹ thuật này đi sâu vào hai kiến trúc hạng nặng: YOLOv7, một bộ phát hiện đối tượng dựa trên CNN được tối ưu hóa cao, và RTDETRv2, một Transformer phát hiện thời gian thực tiên tiến.

Bằng cách phân tích sự khác biệt về kiến trúc, các chỉ số hiệu suất và kịch bản triển khai lý tưởng, các nhà phát triển có thể đưa ra quyết định sáng suốt khi tích hợp các mô hình AI thị giác này vào pipeline sản xuất của họ.

YOLOv7: Kiến trúc CNN "Bag-of-Freebies"

YOLOv7 giới thiệu một số tối ưu hóa cấu trúc thay đổi mô hình truyền thống của họ YOLO, đẩy giới hạn của phát hiện đối tượng thời gian thực thông qua một loạt các "bag-of-freebies có thể huấn luyện".

Đặc điểm chính: Tác giả: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Tổ chức: Institute of Information Science, Academia Sinica
Ngày: 06-07-2022
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: WongKinYiu/yolov7

Kiến trúc và các ưu điểm

YOLOv7 phát triển mạnh nhờ kiến trúc Extended Efficient Layer Aggregation Network (E-ELAN). Thiết kế cấu trúc này cho phép mô hình học được các đặc trưng đa dạng hơn mà không làm hỏng đường truyền gradient gốc. Hơn nữa, nó kết hợp các phép tích chập được tham số hóa lại theo kế hoạch (planned re-parameterized convolutions), giúp tối ưu hóa tốc độ suy luận mà không làm giảm độ chính xác. Cấu trúc đầu ra tách biệt (decoupled head structure) cho phép mô hình đạt được sự cân bằng ấn tượng giữa tốc độ và độ chính xác, giúp nó rất phù hợp cho các tác vụ phát hiện đối tượng thời gian thực trên GPU cấp máy chủ.

YOLOv7 cũng có tính linh hoạt cao. Ngoài phát hiện khung bao (bounding box) tiêu chuẩn, kho lưu trữ còn cung cấp các nhánh cho ước tính tư thếphân đoạn đối tượng, minh chứng cho khả năng thích ứng của nó.

Hạn chế

Giống như nhiều mô hình CNN cũ, YOLOv7 dựa vào Non-Maximum Suppression (NMS) để xử lý hậu kỳ. NMS tạo ra độ trễ biến thiên, đặc biệt là trong các khung cảnh đông đúc, điều này có thể gây khó khăn cho việc đảm bảo thời gian thực nghiêm ngặt trên các thiết bị biên.

Tìm hiểu thêm về YOLOv7

RTDETRv2: Nâng cao các mô hình Transformer thời gian thực

RTDETRv2 xây dựng dựa trên framework RT-DETR gốc, khẳng định thêm rằng các Transformer có thể cạnh tranh với kiến trúc YOLO về độ trễ thời gian thực trong khi vẫn giữ được độ chính xác không gian cao.

Đặc điểm chính: Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
Tổ chức: Baidu
Ngày: 24-07-2024
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

Kiến trúc và các ưu điểm

RTDETRv2 đại diện cho một bước tiến đáng kể đối với Vision Transformer. Nó tận dụng quy trình lựa chọn truy vấn linh hoạt và bộ mã hóa lai hiệu quả để xử lý nhanh chóng các đặc trưng đa quy mô. Bằng cách giới thiệu một bộ "bag-of-freebies" mới được thiết kế đặc biệt cho Detection Transformer (DETR), nó đẩy khả năng lập luận không gian đến giới hạn. Vì vốn dĩ không cần NMS, nó cung cấp thời gian suy luận xác định, một tính năng quan trọng cho các ứng dụng thành phố thông minh nghiêm ngặt và xe tự lái.

Hạn chế

Mặc dù có những tiến bộ, RTDETRv2 vẫn mang những gánh nặng truyền thống của các kiến trúc dựa trên Transformer. Nó đòi hỏi bộ nhớ CUDA cao hơn đáng kể trong cả quá trình huấn luyện và suy luận so với CNN. Ngoài ra, thời gian hội tụ khi huấn luyện của nó lâu hơn đáng kể, đòi hỏi lượng lớn dữ liệu được gán nhãn chất lượng cao (như tập dữ liệu COCO) và tài nguyên tính toán lớn.

Tìm hiểu thêm về RTDETRv2

So sánh hiệu năng

Khi đánh giá các mô hình này, chúng ta phải nhìn vào bức tranh toàn diện bao gồm độ chính xác, tốc độ suy luận thô và dung lượng tính toán. Dưới đây là bảng so sánh trực tiếp.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
Giải thích các chỉ số đánh giá

Mặc dù RTDETRv2-x đạt mAPval cao nhất tuyệt đối là 54.3%, nhưng nó đòi hỏi tới 259 tỷ FLOPs. Ngược lại, các kiến trúc YOLOv7 cung cấp một nền tảng cơ sở tuyệt vời nhưng lại chịu ảnh hưởng từ chi phí NMS cũ vốn không được ghi lại đầy đủ trong các chỉ số độ trễ mạng thuần túy.

Lợi thế từ Ultralytics: Hệ sinh thái và Sự phát triển

Trong khi YOLOv7 và RTDETRv2 cung cấp các khả năng mạnh mẽ, việc triển khai chúng trong môi trường sản xuất thường bộc lộ những khó khăn về hậu cần. Đây là nơi hệ sinh thái Ultralytics tỏa sáng. Được thiết kế để tích hợp đầu-cuối liền mạch, framework Ultralytics cung cấp cho các nhà phát triển một API thống nhất, giúp trừu tượng hóa những phức tạp điển hình của các pipeline thị giác máy tính.

Tính linh hoạt và Hiệu quả bộ nhớ vượt trội

Không giống như các mô hình Transformer cứng nhắc tiêu tốn lượng lớn VRAM, các mô hình YOLO của Ultralytics duy trì hiệu quả bộ nhớ nghiêm ngặt. Điều này cho phép huấn luyện mô hình nhanh chóng trên phần cứng dễ tiếp cận. Hệ sinh thái vốn hỗ trợ nhiều tác vụ thị giác máy tính từ một codebase duy nhất, bao gồm phân loại hình ảnhphát hiện khung bao định hướng (OBB), mang lại sự linh hoạt mà RTDETRv2 hiện còn thiếu.

Triển khai liền mạch

Chuyển từ nghiên cứu sang sản xuất đòi hỏi các tùy chọn triển khai mạnh mẽ. API của Ultralytics xử lý xuất mô hình chỉ với một cú nhấp chuột sang các định dạng chuẩn công nghiệp. Cho dù bạn đang nhắm đến ONNX để tương thích đa nền tảng hay TensorRT để tăng tốc GPU tối đa, pipeline đều hoàn toàn tự động và đáng tin cậy.

Nâng cấp tối thượng: Ultralytics YOLO26

Đối với các nhà phát triển đang tranh luận giữa YOLOv7 và RTDETRv2, con đường tối ưu phía trước thực sự là tiêu chuẩn mới trong AI thị giác: Ultralytics YOLO26. Ra mắt vào tháng 1 năm 2026, YOLO26 thu hẹp khoảng cách giữa tốc độ của CNN và khả năng lập luận phức tạp của Transformer, đồng thời loại bỏ hoàn toàn các điểm yếu tương ứng của chúng.

Tìm hiểu thêm về YOLO26

YOLO26 giới thiệu những đổi mới mang tính đột phá được thiết kế riêng cho cả triển khai máy chủ và thiết bị biên:

  • Thiết kế không cần NMS từ đầu đến cuối: Được tiên phong trong YOLOv10, YOLO26 loại bỏ hoàn toàn xử lý hậu kỳ NMS. Điều này đảm bảo độ trễ xác định của RTDETRv2 mà không cần gánh nặng tính toán của một Transformer.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện mô hình ngôn ngữ lớn (chẳng hạn như Kimi K2 của Moonshot AI), YOLO26 sử dụng sự kết hợp giữa SGD và Muon. Điều này mang lại sự ổn định huấn luyện chưa từng có và thời gian hội tụ nhanh hơn đáng kể so với các triển khai AdamW tiêu chuẩn được các ViT sử dụng.
  • ProgLoss + STAL: Những hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong nhận dạng đối tượng nhỏ, cạnh tranh trực tiếp với lợi thế về đặc trưng đa quy mô của RTDETRv2, điều rất quan trọng đối với tự động hóa robot.
  • Tối ưu hóa thiết bị biên & Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss (DFL), YOLO26 hợp lý hóa đầu ra, dẫn đến suy luận trên CPU nhanh hơn tới 43%—giúp nó dễ triển khai trên các thiết bị biên hơn nhiều so với các mô hình Transformer nặng nề.

Ví dụ về huấn luyện với Ultralytics

Sự đơn giản của Python API từ Ultralytics cho phép bạn huấn luyện mô hình YOLO26 hiện đại chỉ với vài dòng code:

from ultralytics import YOLO

# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)

Các trường hợp sử dụng lý tưởng

Việc lựa chọn kiến trúc phù hợp phụ thuộc rất nhiều vào các hạn chế triển khai và tính khả dụng của phần cứng:

Khi nào nên cân nhắc YOLOv7:

  • Các dự án nghiên cứu cũ nơi YOLOv7 là nền tảng cơ sở đã được thiết lập.
  • Các môi trường có tài nguyên tăng tốc GPU dồi dào và độ trễ NMS có thể chấp nhận được.

Khi nào nên cân nhắc RTDETRv2:

  • Triển khai máy chủ cao cấp đòi hỏi mAP tối đa tuyệt đối.
  • Các kịch bản yêu cầu nghiêm ngặt về độ trễ suy luận xác định (không NMS), với điều kiện bạn có đủ VRAM để hỗ trợ cấu trúc Transformer của nó.

Khi nào nên chọn Ultralytics YOLO26:

  • Hầu như luôn luôn. Nó cung cấp tính xác định không cần NMS của RTDETRv2, vượt qua tốc độ và độ chính xác của YOLOv7, sử dụng ít VRAM hơn đáng kể và được tích hợp đầy đủ vào Ultralytics Platform để quản lý tập dữ liệu, huấn luyện và triển khai dễ dàng.
Khám phá thêm các mô hình khác

Bạn muốn biết các kiến trúc khác so sánh như thế nào? Hãy khám phá các bài phân tích sâu của chúng tôi về các thế hệ trước như YOLO11YOLOv8, hoặc tìm hiểu cách tận dụng tinh chỉnh siêu tham số để tối đa hóa độ chính xác cho dự án của bạn.

Bình luận