Link to this sectionYOLOv7 so với RTDETRv2#

Bối cảnh thị giác máy tính (computer vision) tiếp tục phát triển nhanh chóng, chịu ảnh hưởng mạnh mẽ từ sự cạnh tranh giữa Mạng nơ-ron tích chập (CNN) và Vision Transformers (ViT). So sánh kỹ thuật này đi sâu vào hai kiến trúc nặng ký: YOLOv7, một bộ phát hiện đối tượng dựa trên CNN được tối ưu hóa cao, và RTDETRv2, một Transformer phát hiện thời gian thực hiện đại.

Bằng cách phân tích những khác biệt về kiến trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng, các lập trình viên có thể đưa ra quyết định sáng suốt khi tích hợp các mô hình AI thị giác này vào pipeline sản xuất của mình.

Link to this sectionYOLOv7: Kiến trúc CNN "Bag-of-Freebies"#

YOLOv7 đã giới thiệu một số tối ưu hóa cấu trúc thay đổi mô hình cho dòng họ YOLO truyền thống, đẩy giới hạn của phát hiện đối tượng thời gian thực thông qua một loạt các "bag-of-freebies có thể huấn luyện".

Các đặc điểm chính: Tác giả: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
Tổ chức: Institute of Information Science, Academia Sinica
Ngày: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: WongKinYiu/yolov7

Link to this sectionKiến trúc và thế mạnh#

YOLOv7 phát triển mạnh nhờ kiến trúc Extended Efficient Layer Aggregation Network (E-ELAN). Thiết kế cấu trúc này cho phép mô hình học các tính năng đa dạng hơn mà không phá hủy đường dẫn gradient gốc. Hơn nữa, nó kết hợp các tích chập được tái tham số hóa theo kế hoạch, giúp tối ưu hóa tốc độ suy luận (inference) mà không làm giảm độ chính xác. Phương pháp bag-of-freebies có thể huấn luyện của nó giúp đạt được sự cân bằng ấn tượng giữa tốc độ và độ chính xác, khiến nó rất phù hợp cho các tác vụ real-time object detection trên GPU cấp máy chủ.

YOLOv7 cũng rất linh hoạt. Ngoài phát hiện khung giới hạn (bounding box) tiêu chuẩn, kho lưu trữ còn cung cấp các nhánh cho pose estimation và instance segmentation, minh chứng cho khả năng thích ứng của nó.

Link to this sectionHạn chế#

Giống như nhiều mô hình CNN cũ, YOLOv7 dựa vào Non-Maximum Suppression (NMS) để xử lý hậu kỳ. NMS gây ra độ trễ thay đổi, đặc biệt là trong các khung cảnh đông đúc, điều này có thể gây khó khăn cho việc đảm bảo thời gian thực nghiêm ngặt trên các thiết bị biên (edge devices).

Tìm hiểu thêm về YOLOv7

Link to this sectionRTDETRv2: Thúc đẩy Transformers thời gian thực#

RTDETRv2 được xây dựng dựa trên framework RT-DETR gốc, khẳng định thêm rằng các transformers có thể cạnh tranh với kiến trúc YOLO về độ trễ thời gian thực trong khi vẫn duy trì độ chính xác không gian cao.

Các đặc điểm chính: Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
Tổ chức: Baidu
Ngày: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

Link to this sectionKiến trúc và thế mạnh#

RTDETRv2 đại diện cho một bước tiến quan trọng cho Vision Transformers. Nó tận dụng quy trình chọn truy vấn linh hoạt và bộ mã hóa lai hiệu quả để xử lý các tính năng đa quy mô một cách nhanh chóng. Bằng cách giới thiệu một "bag-of-freebies" mới được thiết kế riêng cho Detection Transformers (DETRs), nó đẩy tư duy không gian đến giới hạn. Vì nó vốn dĩ không sử dụng NMS, nó cung cấp thời gian suy luận xác định, một tính năng quan trọng cho các smart city applications nghiêm ngặt và xe tự lái.

Link to this sectionHạn chế#

Mặc dù có những tiến bộ, RTDETRv2 vẫn mang những gánh nặng truyền thống của kiến trúc dựa trên transformer. Nó đòi hỏi bộ nhớ CUDA cao hơn đáng kể trong cả quá trình huấn luyện và suy luận so với CNN. Ngoài ra, thời gian hội tụ khi huấn luyện của nó dài hơn đáng kể, đòi hỏi lượng lớn dữ liệu được gán nhãn chất lượng cao (như COCO dataset) và tài nguyên tính toán lớn.

Tìm hiểu thêm về RTDETRv2

Link to this sectionSo sánh hiệu năng#

Khi benchmark các mô hình này, chúng ta phải nhìn vào bức tranh toàn diện bao gồm độ chính xác, tốc độ suy luận thô và dấu chân tính toán. Dưới đây là bảng so sánh trực tiếp.

Mô hình	kích thước ^(pixel)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Giải thích các chỉ số Benchmark

Mặc dù RTDETRv2-x khẳng định mAP^val cao nhất tuyệt đối ở mức 54.3%, nó đòi hỏi tới 259 tỷ FLOPs. Ngược lại, các kiến trúc YOLOv7 cung cấp một nền tảng cơ bản tuyệt vời nhưng lại gặp phải gánh nặng NMS cũ vốn chưa được ghi nhận đầy đủ trong các chỉ số về độ trễ mạng thuần túy.

Link to this sectionLợi thế Ultralytics: Hệ sinh thái và sự tiến hóa#

Trong khi YOLOv7 và RTDETRv2 cung cấp các khả năng mạnh mẽ, việc triển khai chúng trong môi trường sản xuất thường bộc lộ những khó khăn về hậu cần. Đây là nơi Ultralytics ecosystem vượt trội. Được thiết kế để tích hợp đầu-cuối liền mạch, framework Ultralytics cung cấp cho các lập trình viên một API thống nhất giúp trừu tượng hóa những phức tạp điển hình của các pipeline thị giác máy tính.

Link to this sectionTính linh hoạt và hiệu quả bộ nhớ vô song#

Không giống như các mô hình transformer cứng nhắc tiêu thụ lượng lớn VRAM, các mô hình Ultralytics YOLO duy trì hiệu quả bộ nhớ nghiêm ngặt. Điều này cho phép model training nhanh chóng trên phần cứng dễ tiếp cận. Hệ sinh thái này hỗ trợ tự nhiên nhiều tác vụ thị giác máy tính từ một codebase duy nhất, bao gồm image classification và oriented bounding box (OBB) detection, mang lại sự linh hoạt mà RTDETRv2 hiện còn thiếu.

Link to this sectionTriển khai liền mạch#

Việc chuyển từ nghiên cứu sang sản xuất đòi hỏi các tùy chọn triển khai mạnh mẽ. Ultralytics API xử lý model export một cú nhấp chuột sang các định dạng tiêu chuẩn ngành. Cho dù bạn đang nhắm mục tiêu ONNX để tương thích đa nền tảng hay TensorRT để tăng tốc GPU tối đa, pipeline đều hoàn toàn tự động và đáng tin cậy.

Link to this sectionNâng cấp tối thượng: Ultralytics YOLO26#

Đối với các lập trình viên đang cân nhắc giữa YOLOv7 và RTDETRv2, con đường tối ưu thực sự là tiêu chuẩn mới trong AI thị giác: Ultralytics YOLO26. Ra mắt vào tháng 1 năm 2026, YOLO26 thu hẹp khoảng cách giữa tốc độ của CNN và khả năng tư duy tinh vi của transformers, đồng thời loại bỏ hoàn toàn các điểm yếu tương ứng của chúng.

Tìm hiểu thêm về YOLO26

YOLO26 giới thiệu những đổi mới mang tính đột phá được thiết kế riêng cho cả triển khai tại máy chủ và tại biên:

Thiết kế End-to-End không dùng NMS: Được tiên phong trong YOLOv10, YOLO26 loại bỏ hoàn toàn quá trình hậu kỳ NMS. Điều này đảm bảo độ trễ xác định của RTDETRv2 mà không phải chịu gánh nặng tính toán của transformer.
Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện mô hình ngôn ngữ lớn (như Kimi K2 của Moonshot AI), YOLO26 sử dụng sự kết hợp giữa SGD và Muon. Điều này mang lại sự ổn định khi huấn luyện chưa từng có và thời gian hội tụ nhanh hơn đáng kể so với các triển khai AdamW tiêu chuẩn được ViTs sử dụng.
ProgLoss + STAL: Những hàm mất mát nâng cao này tạo ra những cải tiến đáng chú ý trong việc nhận dạng đối tượng nhỏ, cạnh tranh trực tiếp với lợi thế về tính năng đa quy mô của RTDETRv2, điều rất quan trọng cho robotic automation.
Tối ưu hóa biên & Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss (DFL), YOLO26 hợp lý hóa phần đầu ra (head), dẫn đến tốc độ suy luận CPU nhanh hơn tới 43%—giúp nó có khả năng triển khai trên các thiết bị biên tốt hơn nhiều so với các mô hình transformer nặng nề.

Link to this sectionVí dụ huấn luyện với Ultralytics#

Sự đơn giản của Ultralytics Python API cho phép bạn huấn luyện mô hình YOLO26 hiện đại chỉ với vài dòng mã:

from ultralytics import YOLO

# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)

Link to this sectionCác trường hợp sử dụng lý tưởng#

Việc lựa chọn kiến trúc phù hợp phụ thuộc rất lớn vào các hạn chế triển khai và tính sẵn có của phần cứng:

Khi nào cân nhắc YOLOv7:

Các dự án nghiên cứu cũ, nơi YOLOv7 là một tiêu chuẩn đã được xác lập.
Các môi trường có tài nguyên tăng tốc GPU dồi dào và độ trễ NMS chấp nhận được.

Khi nào cân nhắc RTDETRv2:

Các triển khai trên máy chủ cao cấp yêu cầu mAP tối đa tuyệt đối.
Các kịch bản yêu cầu nghiêm ngặt về độ trễ suy luận xác định (không NMS), với điều kiện bạn có đủ VRAM để hỗ trợ cấu trúc transformer của nó.

Khi nào chọn Ultralytics YOLO26:

Hầu như luôn luôn. Nó cung cấp tính xác định không dùng NMS của RTDETRv2, vượt qua tốc độ và độ chính xác của YOLOv7, sử dụng ít VRAM hơn đáng kể và được tích hợp hoàn toàn vào Ultralytics Platform để quản lý tập dữ liệu, huấn luyện và triển khai dễ dàng.

Khám phá thêm các mô hình khác

Bạn quan tâm đến các kiến trúc khác? Hãy khám phá các bài viết chuyên sâu của chúng tôi về các thế hệ trước như YOLO11 và YOLOv8, hoặc tìm hiểu cách tận dụng hyperparameter tuning để tối đa hóa độ chính xác cho dự án của bạn.

Người đóng góp

GLglenn-jocher¹⁴ SEsergiuwaxmann¹ PDpderrenger¹

Đã tạo 27 thg 1, 2025Đã cập nhật 3 tuần trước

Link to this sectionYOLOv7 so với RTDETRv2#

Link to this sectionYOLOv7: Kiến trúc CNN "Bag-of-Freebies"#

Link to this sectionKiến trúc và thế mạnh#

Link to this sectionHạn chế#

Link to this sectionRTDETRv2: Thúc đẩy Transformers thời gian thực#

Link to this sectionKiến trúc và thế mạnh#

Link to this sectionHạn chế#

Link to this sectionSo sánh hiệu năng#

Link to this sectionLợi thế Ultralytics: Hệ sinh thái và sự tiến hóa#

Link to this sectionTính linh hoạt và hiệu quả bộ nhớ vô song#

Link to this sectionTriển khai liền mạch#

Link to this sectionNâng cấp tối thượng: Ultralytics YOLO26#

Link to this sectionVí dụ huấn luyện với Ultralytics#

Link to this sectionCác trường hợp sử dụng lý tưởng#

Bình luận