RTDETRv2 so với... YOLOv7 Khám phá sự tiến hóa của công nghệ phát hiện đối tượng thời gian thực
Lĩnh vực thị giác máy tính đã mở rộng đáng kể trong vài năm qua, được thúc đẩy bởi những đổi mới liên tục trong cả Mạng nơ-ron tích chập (CNN) và Bộ chuyển đổi thị giác (ViT). Việc lựa chọn kiến trúc phù hợp cho việc triển khai của bạn đòi hỏi phải hiểu rõ những sự đánh đổi tinh tế giữa tốc độ, độ chính xác và chi phí tính toán. Hướng dẫn này sẽ khám phá những khác biệt kỹ thuật giữa hai kiến trúc được đánh giá cao: RTDETRv2 và YOLOv7 đồng thời nêu bật những tiến bộ hiện đại có sẵn trong các công nghệ mới hơn. Ultralytics YOLO26 .
RTDETRv2: Phương pháp Transformer cho việc phát hiện thời gian thực
RTDETRv2 (Real-Time Detection Transformer phiên bản 2) được xây dựng dựa trên nền tảng của phiên bản tiền nhiệm để chứng minh rằng các kiến trúc dựa trên transformer có thể cạnh tranh hiệu quả trong các kịch bản thời gian thực mà không cần dựa vào các bước xử lý hậu kỳ truyền thống.
Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu Ngày: 24/07/2024 Arxiv: https://arxiv.org/abs/2407.17140
GitHub: Kho lưu trữ RTDETRv2
Điểm nổi bật về kiến trúc
RTDETRv2 sử dụng kiến trúc bộ mã hóa lai và bộ giải mã Transformer . Bằng cách tận dụng cơ chế tự chú ý, mô hình xử lý toàn bộ hình ảnh một cách tổng thể, cho phép nó hiểu các mối quan hệ không gian phức tạp tốt hơn so với các kernel tích chập cục bộ. Một trong những tính năng nổi bật nhất của nó là khả năng xử lý hình ảnh một cách tự nhiên. NMS - thiết kế không cần bảo vệ. Bằng cách loại bỏ hiện tượng triệt tiêu không tối đa ( NMS RTDETRv2 loại bỏ một nút thắt cổ chai phổ biến gây ra độ trễ suy luận thay đổi trong quá trình triển khai.
Điểm mạnh và hạn chế
Ưu điểm chính của RTDETRv2 nằm ở khả năng xử lý các đối tượng dày đặc, chồng chéo trong các cảnh phức tạp. Ngữ cảnh toàn cục được cung cấp bởi các lớp chú ý Transformer giúp nó đạt độ chính xác cao, đặc biệt trong các trường hợp thường xuyên bị che khuất.
Tuy nhiên, điều này đòi hỏi chi phí tính toán cao hơn. Các mô hình Transformer truyền thống yêu cầu dung lượng bộ nhớ lớn hơn trong quá trình huấn luyện và suy luận so với mạng CNN. Hơn nữa, RTDETRv2 thường yêu cầu nhiều epoch hơn để hội tụ trong quá trình huấn luyện phân tán , dẫn đến chu kỳ lặp dài hơn đối với các nhà phát triển khi tinh chỉnh các tập dữ liệu tùy chỉnh.
YOLOv7 : Một nền tảng CNN cho tốc độ
Được phát hành một năm trước RTDETRv2, YOLOv7 đã giới thiệu một số tối ưu hóa cấu trúc cho phiên bản cổ điển. YOLO Khung lý thuyết này đã thiết lập một tiêu chuẩn mạnh mẽ cho các bộ dò thời gian thực dựa trên CNN tại thời điểm công bố.
Các tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
Đơn vị tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Đài Loan
Ngày: 06/07/2022
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: Kho lưu trữ YOLOv7
Điểm nổi bật về kiến trúc
YOLOv7 Kiến trúc của mô hình được xây dựng dựa trên khái niệm Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN). Phương pháp này tối ưu hóa đường dẫn gradient, cho phép mô hình học hiệu quả hơn mà không làm tăng đáng kể độ phức tạp tính toán. Các tác giả cũng giới thiệu "túi quà tặng có thể huấn luyện", một tập hợp các phương pháp cải thiện độ chính xác của mô hình trong quá trình huấn luyện mà không ảnh hưởng đến tốc độ suy luận trên các thiết bị biên.
Điểm mạnh và hạn chế
YOLOv7 Đây vẫn là một mô hình có khả năng cao cho các tác vụ phát hiện đối tượng tiêu chuẩn, cung cấp tốc độ xử lý tuyệt vời trên GPU dành cho người tiêu dùng. Bản chất mạng nơ-ron tích chập (CNN) của nó có nghĩa là nó thường yêu cầu ít tài nguyên hơn. CUDA bộ nhớ trong quá trình huấn luyện được so sánh với các mô hình dựa trên Transformer như RTDETRv2.
Bất chấp những ưu điểm này, YOLOv7 vẫn dựa vào NMS để xử lý hậu kỳ. Trong môi trường có mật độ dự đoán cao, NMS Việc thực hiện từng bước có thể gây ra sự dao động về thời gian xử lý, khiến việc đảm bảo thời gian thực chính xác trở nên khó khăn. Ngoài ra, so với các framework hiện đại, quá trình xử lý các tác vụ khác nhau như phân đoạn đối tượng và ước lượng tư thế có thể bị phân mảnh.
So sánh hiệu suất
Việc đánh giá các mô hình này đòi hỏi phải xem xét sự cân bằng tinh tế giữa độ chính xác trung bình ( mAP ), số lượng tham số và tốc độ suy luận.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Bối cảnh Hiệu suất
Trong khi RTDETRv2-x đạt được mức cao nhất mAP Nó cũng có số lượng tham số và số phép tính FLOPs lớn nhất. Các biến thể nhỏ hơn như RTDETRv2-s cung cấp tốc độ cạnh tranh hơn. TensorRT Tuy nhiên, người dùng nhắm đến môi trường tiêu thụ điện năng thấp mà không có GPU chuyên dụng cần phải đánh giá cẩn thận. CPU khả năng suy luận.
Giải pháp hiện đại: Hãy đến với YOLO26
Trong khi RTDETRv2 và YOLOv7 Đóng vai trò then chốt trong việc thúc đẩy ranh giới của các ứng dụng thị giác máy tính , lĩnh vực trí tuệ nhân tạo đang phát triển nhanh chóng. Được phát hành vào tháng 1 năm 2026, YOLO26 tổng hợp những khía cạnh tốt nhất của cả hiệu quả mạng nơ-ron tích chập (CNN) và kiến trúc giống Transformer. NMS - Kiến trúc tự do.
Đối với các nhà phát triển và nhà nghiên cứu xây dựng hệ thống mới, nền tảng Ultralytics tích hợp và Python Hệ sinh thái này cung cấp trải nghiệm thống nhất, giúp giảm đáng kể nợ kỹ thuật.
Những cải tiến quan trọng trong YOLO26
- Hệ thống quản lý mạng NMS đầu cuối - Thiết kế miễn phí: YOLO26 được tích hợp sẵn hệ thống NMS đầu cuối, loại bỏ các bước phức tạp. NMS Xử lý hậu kỳ giúp triển khai nhanh hơn, đơn giản hơn. Phương pháp đột phá này lần đầu tiên được tiên phong trong YOLOv10 , đảm bảo độ trễ ổn định bất kể mật độ đối tượng.
- Tốc độ suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa đặc biệt cho điện toán biên và các thiết bị không có GPU, giúp nó linh hoạt hơn nhiều trong triển khai thực địa so với các mô hình biến áp nặng nề.
- MuSGD Optimizer: Một sự kết hợp của... SGD và Muon (lấy cảm hứng từ Kimi K2 của Moonshot AI), mang đến những cải tiến trong huấn luyện LLM cho thị giác máy tính để huấn luyện ổn định hơn và hội tụ nhanh hơn.
- Loại bỏ DFL: Hàm mất mát tiêu điểm phân phối (Distribution Focal Loss - DFL) đã được loại bỏ, dẫn đến đồ thị tính toán đơn giản hơn, giúp xuất dữ liệu mượt mà hơn sang các NPU nhúng và môi trường TensorRT .
- ProgLoss + STAL: Các hàm mất mát được cải tiến mang lại những nâng cấp đáng kể trong nhận dạng vật thể nhỏ, điều này rất quan trọng đối với robot , IoT và phân tích ảnh chụp từ trên không.
- Cải tiến chuyên biệt cho từng tác vụ: YOLO26 không chỉ dành cho việc phát hiện đối tượng. Nó có các nguyên mẫu đa tỷ lệ cho phân đoạn, ước lượng logarit xác suất dư (RLE) cho theo dõi tư thế và hàm mất mát góc chuyên dụng để giải quyết các vấn đề về ranh giới hộp giới hạn định hướng (OBB) .
Trải nghiệm Nhà phát triển Tối ưu hóa
Lợi thế thực sự của việc lựa chọn một Ultralytics Mô hình như YOLO26 (hoặc YOLO11 rất phổ biến) là một hệ sinh thái được duy trì tốt. Việc huấn luyện một tập dữ liệu tùy chỉnh chỉ yêu cầu mã mẫu tối thiểu:
from ultralytics import YOLO
# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)
Các trường hợp sử dụng và ứng dụng lý tưởng
Việc lựa chọn giữa các kiến trúc này phụ thuộc rất nhiều vào phần cứng mục tiêu và các yêu cầu vận hành cụ thể.
Khi nào nên cân nhắc RTDETRv2
RTDETRv2 hoạt động hiệu quả cao trong môi trường xử lý phía máy chủ được trang bị GPU mạnh mẽ. Cơ chế chú ý toàn cục của nó giúp nó phù hợp với việc hiểu các cảnh phức tạp, chẳng hạn như giám sát sự kiện đông đúc hoặc hình ảnh y tế chuyên biệt, nơi các đặc điểm chồng chéo đòi hỏi phân tích ngữ cảnh sâu sắc.
Khi nào nên cân nhắc YOLOv7
YOLOv7 Nó thường được duy trì trong các nghiên cứu học thuật lâu đời như một mô hình so sánh cơ bản. Nó cũng được tìm thấy trong các triển khai công nghiệp cũ hơn, nơi các quy trình hiện có được mã hóa cứng cho các mục đích cụ thể. PyTorch các phiên bản này không yêu cầu tính linh hoạt đa nhiệm của các framework mới hơn.
Vì sao YOLO26 là tiêu chuẩn được khuyến nghị?
Đối với cơ sở hạ tầng thành phố thông minh hiện đại, điều hướng máy bay không người lái và sản xuất tốc độ cao, YOLO26 mang đến sự cân bằng vượt trội. Yêu cầu bộ nhớ thấp hơn giúp việc tinh chỉnh và huấn luyện siêu tham số trở nên dễ dàng trên phần cứng dành cho người tiêu dùng, trong khi đó... NMS Suy luận không cần tài nguyên đảm bảo thực thi nhanh chóng trên các thiết bị biên có tài nguyên hạn chế như Raspberry Pi hoặc... NVIDIA Jetson.
Khám phá thêm các so sánh
Bạn muốn biết các mô hình này so sánh với các kiến trúc khác như thế nào? Hãy xem các hướng dẫn chi tiết của chúng tôi về YOLO11 so với RTDETR và YOLOv8 so với YOLOv7 để tìm ra lựa chọn phù hợp nhất cho dự án AI thị giác của bạn.